論文の概要: Understanding Performance of Long-Document Ranking Models through Comprehensive Evaluation and Leaderboarding
- arxiv url: http://arxiv.org/abs/2207.01262v3
- Date: Sun, 16 Jun 2024 18:12:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 13:29:49.586410
- Title: Understanding Performance of Long-Document Ranking Models through Comprehensive Evaluation and Leaderboarding
- Title(参考訳): 包括的評価とリーダーシップによる長期文書ランキングモデルの性能理解
- Authors: Leonid Boytsov, David Akinpelu, Tianyi Lin, Fangwei Gao, Yutian Zhao, Jeffrey Huang, Nipun Katyal, Eric Nyberg,
- Abstract要約: 我々は、長い文書のランク付けのためのTransformerモデルを評価し、それらを単純なFirstPベースラインと比較した。
MS MARCO, TREC DLs, Robust04 では FirstP は NDCG と MRR で 5% 以上の性能を示した。
これは、モデルが長いコンテキストを処理できないことによるものではなく、関連するパスの位置バイアスによるものであると推測した。
- 参考スコア(独自算出の注目度): 12.706825602291266
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We evaluated 20+ Transformer models for ranking of long documents (including recent LongP models trained with FlashAttention) and compared them with a simple FirstP baseline, which applies the same model to the truncated input (at most 512 tokens). We used MS MARCO Documents v1 as a primary training set and evaluated both the zero-shot transferred and fine-tuned models. On MS MARCO, TREC DLs, and Robust04 no long-document model outperformed FirstP by more than 5% in NDCG and MRR (when averaged over all test sets). We conjectured this was not due to models' inability to process long context, but due to a positional bias of relevant passages, whose distribution was skewed towards the beginning of documents. We found direct evidence of this bias in some test sets, which motivated us to create MS MARCO FarRelevant (based on MS MARCO Passages) where the relevant passages were not present among the first 512 tokens. Unlike standard collections where we saw both little benefit from incorporating longer contexts and limited variability in model performance (within a few %), experiments on MS MARCO FarRelevant uncovered dramatic differences among models. The FirstP models performed roughly at the random-baseline level in both zero-shot and fine-tuning scenarios. Simple aggregation models including MaxP and PARADE Attention had good zero-shot accuracy, but benefited little from fine-tuning. Most other models had poor zero-shot performance (sometimes at a random baseline level), but outstripped MaxP by as much as 13-28% after fine-tuning. Thus, the positional bias not only diminishes benefits of processing longer document contexts, but also leads to model overfitting to positional bias and performing poorly in a zero-shot setting when the distribution of relevant passages changes substantially. We make our software and data available.
- Abstract(参考訳): 我々は、長いドキュメント(FlashAttentionで訓練された最近のLongPモデルを含む)のランク付けのための20以上のトランスフォーマーモデルを評価し、それらを単純なFirstPベースラインと比較した。
我々は、MS MARCO Documents v1を初等訓練セットとして使用し、ゼロショット転送モデルと微調整モデルの両方を評価した。
MS MARCO, TREC DLs, Robust04 では FirstP は NDCG と MRR で 5% 以上の性能を示した。
これは、長いコンテキストを処理できないモデルによるものではなく、文書の始めに分布が歪んだ関連するパスの位置バイアスによるものであると推測した。
その結果,MS MARCO FarRelevant(MS MARCO PassagesをベースとしたMS MARCO FarRelevant)を作成した。
MS MARCO FarRelevantの実験では、より長いコンテキストとモデルパフォーマンスに限定的な変数を組み込むことのメリットはほとんどありませんでしたが、モデル間での劇的な違いが明らかになりました。
FirstPモデルは、ゼロショットと微調整の両方のシナリオにおいて、ほぼランダムベースラインレベルで実行された。
MaxPやPARADE Attentionといった単純なアグリゲーションモデルはゼロショット精度が良いが、微調整の利点はほとんどなかった。
他のほとんどのモデルではゼロショット性能が劣り(時々ランダムなベースラインレベルで)、微調整後に最大13-28%の速度でマックスPを上回った。
このように、位置バイアスは、より長い文書コンテキストを処理することの利点を減少させるだけでなく、関連するパスの分布が大幅に変化するとき、位置バイアスにモデル過度に適合し、ゼロショット環境では性能が低下する。
ソフトウェアとデータを利用可能にしています。
関連論文リスト
- Efficient Document Ranking with Learnable Late Interactions [73.41976017860006]
クロスエンコーダ(CE)とデュアルエンコーダ(DE)モデルは,情報検索におけるクエリドキュメント関連性の2つの基本的なアプローチである。
関連性を予測するため、CEモデルは共同クエリドキュメントの埋め込みを使用し、DEモデルは分解クエリとドキュメントの埋め込みを維持している。
近年、DEM構造と軽量スコアラを用いて、より好ましいレイテンシ品質のトレードオフを実現するために、遅延相互作用モデルが提案されている。
論文 参考訳(メタデータ) (2024-06-25T22:50:48Z) - LIMIT: Less Is More for Instruction Tuning Across Evaluation Paradigms [2.249916681499244]
オープンソースMPT-7BおよびMPT-30Bモデルを1kから60kのサンプルから様々なサイズの命令微調整データセットに微調整する。
我々は,(1)従来のNLPベンチマークと(2)モデルに基づく評価の両方において,1k-6k命令の微調整サンプルのサブセットが良好な性能を達成するのに十分であることを確認した。
論文 参考訳(メタデータ) (2023-11-22T03:37:01Z) - Generalized Logit Adjustment: Calibrating Fine-tuned Models by Removing Label Bias in Foundation Models [75.9543301303586]
CLIPのようなファンデーションモデルは、追加のトレーニングデータなしで、さまざまなタスクでゼロショット転送を可能にする。
微調整やアンサンブルも一般的に下流のタスクに合うように採用されている。
しかし、先行研究は基礎モデルに固有のバイアスを見落としていると論じる。
論文 参考訳(メタデータ) (2023-10-12T08:01:11Z) - Billions of Parameters Are Worth More Than In-domain Training Data: A
case study in the Legal Case Entailment Task [4.186775801993103]
言語モデルにおけるパラメータのスケーリングは、以前のゼロショット結果のF1スコアを6ポイント以上向上させることを示す。
大規模な言語モデルによってもたらされる課題にも拘わらず、我々はゼロショットの monoT5-3b モデルが検索エンジンとして本番で使用されていることを実演する。
論文 参考訳(メタデータ) (2022-05-30T15:21:26Z) - Deconstructing Distributions: A Pointwise Framework of Learning [15.517383696434162]
テスト分布におけるモデルの平均性能と、この個々の点におけるポイントワイズ性能の関係について調べる。
プロファイルは、モデルとデータの構造 -- 分布の内外 -- に新しい洞察を与えることができる。
論文 参考訳(メタデータ) (2022-02-20T23:25:28Z) - Evaluation of HTR models without Ground Truth Material [2.4792948967354236]
手書き文字認識モデルの開発における評価は容易である。
しかし、開発からアプリケーションに切り替えると、評価プロセスはトリッキーになります。
我々は,レキシコンに基づく評価が,レキシコンに基づく手法と競合することを示す。
論文 参考訳(メタデータ) (2022-01-17T01:26:09Z) - Few-shot Instruction Prompts for Pretrained Language Models to Detect
Social Biases [55.45617404586874]
我々は、事前訓練された言語モデル(LM)を誘導する数ショットの命令ベース手法を提案する。
大規模なLMは、微調整モデルとよく似た精度で、異なる種類の細粒度バイアスを検出できることを示す。
論文 参考訳(メタデータ) (2021-12-15T04:19:52Z) - Mismatched No More: Joint Model-Policy Optimization for Model-Based RL [172.37829823752364]
本稿では,モデルとポリシーを共同でトレーニングする単一目的について提案する。
我々の目標は、期待されるリターンのグローバルな低い境界であり、この境界は特定の仮定の下で厳密になる。
結果のアルゴリズム(MnM)は概念的にはGANと似ている。
論文 参考訳(メタデータ) (2021-10-06T13:43:27Z) - When Liebig's Barrel Meets Facial Landmark Detection: A Practical Model [87.25037167380522]
正確で、堅牢で、効率的で、一般化可能で、エンドツーエンドのトレーニングが可能なモデルを提案する。
精度を向上させるために,2つの軽量モジュールを提案する。
DQInitは、インプットからデコーダのクエリを動的に初期化し、複数のデコーダ層を持つものと同じ精度でモデルを実現する。
QAMemは、共有するクエリではなく、それぞれのクエリに別々のメモリ値を割り当てることで、低解像度のフィーチャーマップ上のクエリの識別能力を高めるように設計されている。
論文 参考訳(メタデータ) (2021-05-27T13:51:42Z) - On the Role of Supervision in Unsupervised Constituency Parsing [59.55128879760495]
数ショットのパーシングアプローチは、教師なしのパーシング手法を大きなマージンで上回ることができる。
これは、公正な結論に達するためには、モデル開発に使用されるラベル付きデータの量について慎重に検討する必要があることを示唆している。
論文 参考訳(メタデータ) (2020-10-06T01:34:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。