論文の概要: Overview of the TREC 2023 deep learning track
- arxiv url: http://arxiv.org/abs/2507.08890v1
- Date: Thu, 10 Jul 2025 20:39:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:21.761785
- Title: Overview of the TREC 2023 deep learning track
- Title(参考訳): TREC 2023ディープラーニングトラックの概要
- Authors: Nick Craswell, Bhaskar Mitra, Emine Yilmaz, Hossein A. Rahmani, Daniel Campos, Jimmy Lin, Ellen M. Voorhees, Ian Soboroff,
- Abstract要約: TRECディープラーニングトラックの5年目です。
私たちは、何十万もの人手によるトレーニングラベルを利用可能にしたMS MARCOデータセットを活用しています。
今年我々は、微調整T5モデルとGPT-4プロンプトを用いて合成クエリを生成した。
- 参考スコア(独自算出の注目度): 67.56975103581688
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This is the fifth year of the TREC Deep Learning track. As in previous years, we leverage the MS MARCO datasets that made hundreds of thousands of human-annotated training labels available for both passage and document ranking tasks. We mostly repeated last year's design, to get another matching test set, based on the larger, cleaner, less-biased v2 passage and document set, with passage ranking as primary and document ranking as a secondary task (using labels inferred from passage). As we did last year, we sample from MS MARCO queries that were completely held out, unused in corpus construction, unlike the test queries in the first three years. This approach yields a more difficult test with more headroom for improvement. Alongside the usual MS MARCO (human) queries from MS MARCO, this year we generated synthetic queries using a fine-tuned T5 model and using a GPT-4 prompt. The new headline result this year is that runs using Large Language Model (LLM) prompting in some way outperformed runs that use the "nnlm" approach, which was the best approach in the previous four years. Since this is the last year of the track, future iterations of prompt-based ranking can happen in other tracks. Human relevance assessments were applied to all query types, not just human MS MARCO queries. Evaluation using synthetic queries gave similar results to human queries, with system ordering agreement of $\tau=0.8487$. However, human effort was needed to select a subset of the synthetic queries that were usable. We did not see clear evidence of bias, where runs using GPT-4 were favored when evaluated using synthetic GPT-4 queries, or where runs using T5 were favored when evaluated on synthetic T5 queries.
- Abstract(参考訳): TRECディープラーニングトラックの5年目です。
前年と同様、MS MARCOデータセットを利用して、パスと文書ランキングの両方で数十万の人手によるトレーニングラベルを利用できるようにしました。
私たちは昨年のデザインを主に繰り返し、より大きく、よりクリーンで、バイアスの少ないv2パスとドキュメントセットに基づいて、別のマッチングテストセットを手に入れました。
昨年行ったように、私たちはMS MARCOクエリからサンプルを採取しました。
このアプローチは、改善のためのヘッドルームを増やすことで、より難しいテストをもたらします。
MARCOの通常のMS MARCO(人間)クエリに加えて、今年は微調整T5モデルとGPT-4プロンプトを用いて合成クエリを生成した。
今年発表された新たな見出しは,LLM(Large Language Model)を使用した実行によって,過去4年間で最も優れたアプローチである"nnlm"アプローチを使用したパフォーマンスの高い実行が促進される,というものだ。
これはトラックの最後の年なので、プロンプトベースのランキングの今後のイテレーションは、他のトラックで起こりうる。
人間のMS MARCOクエリだけでなく、すべてのクエリタイプに人間関連性評価を適用した。
合成クエリによる評価は人間のクエリと類似し、システム注文契約は$\tau=0.8487$である。
しかし、利用可能な合成クエリのサブセットを選択するには、人間の努力が必要だった。
また, 合成GPT-4クエリを用いた場合, GPT-4を用いた場合, T5を用いた場合, 合成T5クエリを用いた場合など, バイアスの明確な証拠は見つからなかった。
関連論文リスト
- Overview of the TREC 2022 deep learning track [67.86242254073656]
TRECディープラーニングトラックの4年目です。
私たちは、何十万もの人間が注釈付きトレーニングラベルを利用できるようにしたMS MARCOデータセットを活用しています。
前年と同様、大規模事前学習を用いたディープニューラルネットワークのランキングモデルは、従来の検索方法より優れていた。
論文 参考訳(メタデータ) (2025-07-10T20:48:22Z) - ImpliRet: Benchmarking the Implicit Fact Retrieval Challenge [49.65993318863458]
ImpliRetは、推論の課題をドキュメントサイド処理にシフトするベンチマークである。
我々は,この環境下で苦戦している,疎水・密集したレトリバーの幅を評価した。
論文 参考訳(メタデータ) (2025-06-17T11:08:29Z) - Rank-R1: Enhancing Reasoning in LLM-based Document Rerankers via Reinforcement Learning [76.50690734636477]
ランキングタスクを実行する前にユーザクエリと候補文書の両方を推論する新しいLCMベースのリランカである Rank-R1 を導入する。
TREC DL と BRIGHT データセットを用いた実験により,Ranc-R1 が特に複雑なクエリに対して非常に有効であることが判明した。
論文 参考訳(メタデータ) (2025-03-08T03:14:26Z) - Evaluating LLMs on Entity Disambiguation in Tables [0.9786690381850356]
本研究は,Alligator(旧s-elbat),Dagobah,TURL,TableLlamaの4つのSTI SOTAアプローチを広範囲に評価することを提案する。
また, GPT-4o と GPT-4o-mini は, 様々な公開ベンチマークにおいて優れており, 評価に含めている。
論文 参考訳(メタデータ) (2024-08-12T18:01:50Z) - An In-Context Learning Agent for Formal Theorem-Proving [10.657173216834668]
我々は、LeanやCoqのような環境で、形式的定理コンテキストのためのコンテキスト内学習エージェントを提示します。
COPRAは大規模言語モデルに対して、ステートフルなバックトラック検索から戦術的応用を提案することを何度も求めている。
我々はCompCertプロジェクトのMiniF2FベンチマークとCoqタスクセットに対するCOPRAの実装を評価した。
論文 参考訳(メタデータ) (2023-10-06T16:21:22Z) - Large Language Models are Effective Text Rankers with Pairwise Ranking Prompting [65.00288634420812]
Pairwise Ranking Prompting (PRP)は、大規模言語モデル(LLM)の負担を大幅に軽減する手法である。
本研究は,中等級のオープンソースLCMを用いた標準ベンチマークにおいて,最先端のランク付け性能を達成した文献としては初めてである。
論文 参考訳(メタデータ) (2023-06-30T11:32:25Z) - T5Score: Discriminative Fine-tuning of Generative Evaluation Metrics [94.69907794006826]
我々は、現在利用可能なデータから、教師なし信号と教師なし信号の両方を用いて、両方の世界のベストを結合するフレームワークを提案する。
このアイデアを,mT5をバックボーンとするトレーニング信号を使用するメトリックであるT5Scoreをトレーニングすることで,運用する。
T5Scoreは、セグメントレベルの既存のトップスコアメトリクスに対して、すべてのデータセットで最高のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-12-12T06:29:04Z) - Integrating Rankings into Quantized Scores in Peer Review [61.27794774537103]
ピアレビューでは、レビュアーは通常、論文のスコアを提供するように求められます。
この問題を軽減するため、カンファレンスはレビュアーにレビューした論文のランキングを付加するように求め始めている。
このランキング情報を使用するための標準的な手順はなく、エリアチェアは異なる方法でそれを使用することができる。
我々は、ランキング情報をスコアに組み込むために、原則化されたアプローチを取る。
論文 参考訳(メタデータ) (2022-04-05T19:39:13Z) - Multi-Narrative Semantic Overlap Task: Evaluation and Benchmark [4.303515688770516]
本稿では,MNSO(Multi-Narrative Semantic Overlap)と呼ばれる重要なNLPタスクを紹介する。
ウェブから2,925の物語のペアをクロールして1つを作り、それから、人間のアノテータをアクティベートすることで、411の異なる地味のセマンティックオーバーラップを手作業で作成するという面倒なプロセスを経ました。
SEM-F1(semantic F1)と呼ばれる新しい高精度リコール方式の評価基準を定式化する。
実験結果から,提案したSEM-F1測定値が,ROUGE測定値よりも高い相関性を示した。
論文 参考訳(メタデータ) (2022-01-14T03:56:41Z) - MS MARCO: Benchmarking Ranking Models in the Large-Data Regime [57.37239054770001]
本稿では,MS MARCO と TREC Deep Learning Track をケーススタディとして用いた。
評価の取り組みの設計が、特定の成果を奨励または阻止する方法を示します。
我々は、ある種の落とし穴の分析と、そのような落とし穴を避けるためのベストプラクティスのステートメントを提供する。
論文 参考訳(メタデータ) (2021-05-09T20:57:36Z) - Brown University at TREC Deep Learning 2019 [11.63256359906015]
本稿では,ブラウン大学のTREC 2019 Deep Learningトラックへの提出について述べる。
ブラウンのチームは、パス検索タスク(フルランクとリランクを含む)で3位、再ランクの申請のみを考えると2位にランクインした。
論文 参考訳(メタデータ) (2020-09-08T22:54:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。