論文の概要: Overview of the TREC 2022 deep learning track
- arxiv url: http://arxiv.org/abs/2507.10865v1
- Date: Thu, 10 Jul 2025 20:48:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-16 19:46:02.92427
- Title: Overview of the TREC 2022 deep learning track
- Title(参考訳): TREC 2022ディープラーニングトラックの概要
- Authors: Nick Craswell, Bhaskar Mitra, Emine Yilmaz, Daniel Campos, Jimmy Lin, Ellen M. Voorhees, Ian Soboroff,
- Abstract要約: TRECディープラーニングトラックの4年目です。
私たちは、何十万もの人間が注釈付きトレーニングラベルを利用できるようにしたMS MARCOデータセットを活用しています。
前年と同様、大規模事前学習を用いたディープニューラルネットワークのランキングモデルは、従来の検索方法より優れていた。
- 参考スコア(独自算出の注目度): 67.86242254073656
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This is the fourth year of the TREC Deep Learning track. As in previous years, we leverage the MS MARCO datasets that made hundreds of thousands of human annotated training labels available for both passage and document ranking tasks. In addition, this year we also leverage both the refreshed passage and document collections that were released last year leading to a nearly $16$ times increase in the size of the passage collection and nearly four times increase in the document collection size. Unlike previous years, in 2022 we mainly focused on constructing a more complete test collection for the passage retrieval task, which has been the primary focus of the track. The document ranking task was kept as a secondary task, where document-level labels were inferred from the passage-level labels. Our analysis shows that similar to previous years, deep neural ranking models that employ large scale pretraining continued to outperform traditional retrieval methods. Due to the focusing our judging resources on passage judging, we are more confident in the quality of this year's queries and judgments, with respect to our ability to distinguish between runs and reuse the dataset in future. We also see some surprises in overall outcomes. Some top-performing runs did not do dense retrieval. Runs that did single-stage dense retrieval were not as competitive this year as they were last year.
- Abstract(参考訳): TRECディープラーニングトラックの4年目です。
以前のように、私たちはMS MARCOデータセットを利用して、何十万もの人間の注釈付きトレーニングラベルを、パスと文書のランク付けタスクの両方で利用できるようにしました。
さらに今年は、昨年リリースされたリフレッシュされたパスとドキュメントコレクションの両方を活用して、パスコレクションのサイズが16ドル近く増加し、ドキュメントコレクションのサイズが4倍近く増加した。
従来とは違って,2022年に我々は,経路検索タスクのより完全なテストコレクションの構築に重点を置いてきた。
文書ランキングタスクは二次的なタスクとして保持され、文書レベルラベルはパスレベルラベルから推測される。
分析の結果,前年と同様,大規模事前学習を用いたディープ・ニューラル・ランキング・モデルも従来の検索手法より優れていたことが判明した。
判断リソースが通過判断に集中しているため、将来、データセットの実行と再利用を区別する能力に関して、今年のクエリと判断の品質により自信を持っています。
また、全体的な結果にも驚きがあります。
トップパフォーマンスランのいくつかは、厳密な検索を行なわなかった。
シングルステージの高密度検索を行ったランは、昨年ほど競争力がなかった。
関連論文リスト
- Overview of the TREC 2021 deep learning track [68.66107744993546]
TRECディープラーニングトラックの3年目です。
私たちはMS MARCOデータセットを活用し、数十万の人間が注釈付きトレーニングラベルをパスと文書ランキングの両方で利用できるようにした。
大規模プレトレインニグを用いたディープニューラルランキングモデルは、今年も従来の検索方法より優れています。
論文 参考訳(メタデータ) (2025-07-10T21:58:41Z) - Overview of the TREC 2023 deep learning track [67.56975103581688]
TRECディープラーニングトラックの5年目です。
私たちは、何十万もの人手によるトレーニングラベルを利用可能にしたMS MARCOデータセットを活用しています。
今年我々は、微調整T5モデルとGPT-4プロンプトを用いて合成クエリを生成した。
論文 参考訳(メタデータ) (2025-07-10T20:39:42Z) - DAPR: A Benchmark on Document-Aware Passage Retrieval [57.45793782107218]
我々は,このタスクemphDocument-Aware Passage Retrieval (DAPR)を提案する。
State-of-The-Art(SoTA)パスレトリバーのエラーを分析しながら、大きなエラー(53.5%)は文書コンテキストの欠如に起因する。
提案するベンチマークにより,検索システムの開発・比較を今後行うことができる。
論文 参考訳(メタデータ) (2023-05-23T10:39:57Z) - Fine-Grained Distillation for Long Document Retrieval [86.39802110609062]
ロングドキュメント検索は、大規模コレクションからクエリ関連ドキュメントを取得することを目的としている。
知識蒸留は、異質だが強力なクロスエンコーダを模倣することによって、レトリバーを改善するために事実上のものである。
本稿では, 長期文書検索のための新たな学習フレームワークFGDを提案する。
論文 参考訳(メタデータ) (2022-12-20T17:00:36Z) - Overview of the TREC 2020 deep learning track [30.531644711518414]
今年は文書検索タスクとパス検索タスクがあり、それぞれに何十万もの人手によるトレーニングクエリがあります。
我々は,シングルショットTRECスタイルの評価を用いて評価を行い,大規模データを利用できる場合にどのランキング手法が最適かを示す。
今年はさらに、BERTスタイルの事前トレーニングを持つランク付け者が、大規模なデータ体制における他のランク付けよりも優れているという証拠があります。
論文 参考訳(メタデータ) (2021-02-15T16:47:00Z) - Fine-Grained Relevance Annotations for Multi-Task Document Ranking and
Question Answering [9.480648914353035]
本稿では,Fine-Grained Relevancesの新たなデータセットであるFiRAを紹介する。
TREC 2019のディープ・ラーニング・トラックのランク付けされた検索アノテーションは、すべての関連文書のパスレベルとワードグレードの関連アノテーションで拡張する。
例えば、最近導入されたTKL文書ランキングモデルを評価し、TKLは長い文書に対して最先端の検索結果を示すが、多くの関連項目を見逃している。
論文 参考訳(メタデータ) (2020-08-12T14:59:50Z) - Overview of the TREC 2019 deep learning track [36.23357487158591]
Deep Learning TrackはTREC 2019の新しいトラックで、大規模データ体制におけるアドホックランキングの研究を目的としている。
大規模な人間ラベルのトレーニングセットを備えた最初のトラックであり、2つのタスクに対応する2つのセットを導入している。
今年、15のグループは、ディープラーニング、トランスファーラーニング、伝統的なIRランキング手法の様々な組み合わせを使用して、合計75のランを提出した。
論文 参考訳(メタデータ) (2020-03-17T17:12:36Z) - Pre-training Tasks for Embedding-based Large-scale Retrieval [68.01167604281578]
本稿では,大規模クエリ文書検索問題について考察する。
クエリ(例えば質問)が与えられたら、関連するドキュメントのセットを大きなドキュメントコーパスから返します。
本稿では, 組込み型トランスフォーマーモデルの学習の鍵となる要素が, 事前学習作業のセットであることを示す。
論文 参考訳(メタデータ) (2020-02-10T16:44:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。