論文の概要: Understanding Performance of Long-Document Ranking Models through Comprehensive Evaluation and Leaderboarding
- arxiv url: http://arxiv.org/abs/2207.01262v2
- Date: Tue, 26 Mar 2024 06:54:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-28 02:09:26.890329
- Title: Understanding Performance of Long-Document Ranking Models through Comprehensive Evaluation and Leaderboarding
- Title(参考訳): 包括的評価とリーダーシップによる長期文書ランキングモデルの性能理解
- Authors: Leonid Boytsov, David Akinpelu, Tianyi Lin, Fangwei Gao, Yutian Zhao, Jeffrey Huang, Eric Nyberg,
- Abstract要約: 我々は、長い文書のランク付けのためのTransformerモデルを評価し、それらを単純なFirstPベースラインと比較した。
その結果,MRRやNDCGでは,文書の長期化がFirstPより優れているか,あるいは平均で5%上回っていることがわかった。
これは、長いコンテキストを処理できないモデルによるものではなく、関連するパスの位置バイアスによるものだと推測した。
- 参考スコア(独自算出の注目度): 13.254111200548845
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We evaluated 20+ Transformer models for ranking of long documents (including recent LongP models trained with FlashAttention) and compared them with simple FirstP baselines (applying the same model to input truncated to the first 512 tokens). We used MS MARCO Documents v1 as a primary training set and evaluated models in the zero-shot scenario as well as after fine-tuning on other collections. In our initial experiments with standard collections we found that long-document models underperformed FirstP or outperformed it by at most 5% on average in terms of MRR or NDCG. We then conjectured that this was not due to models inability to process long context but rather due to a positional bias of relevant passages, which tended to be among the first 512 document tokens. We found evidence that this bias was, indeed, present in at least two test sets, which motivated us to create a new collection MS MARCO FarRelevant where the relevant passages were not present among the first 512 tokens. Unlike standard collections where we observed both little benefit from incorporating longer contexts and limited variability in model performance (within a few %), experiments on MS MARCO FarRelevant uncovered dramatic differences among models. FirstP models performed roughly at the random-baseline level in both zero-shot and fine-tuning scenarios. Simple aggregation models (e.g., MaxP) had good zero-shot accuracy but benefited little from fine-tuning. Most other models had poor zero-shot performance (sometimes at a random baseline level) but outstripped MaxP by as much 13-28\% after finetuning. Thus, positional bias not only diminishes benefits of processing longer document contexts but also leads to model overfitting to this bias and performing poorly in a zero-shot setting when a distribution of relevant passages changes substantially. We make our software and MS MARCO FarRelevant available.
- Abstract(参考訳): 我々は、長いドキュメント(FlashAttentionで訓練された最近のLongPモデルを含む)のランク付けのための20以上のTransformerモデルを評価し、それらを単純なFirstPベースライン(最初の512トークンに同じモデルを適用する)と比較した。
我々は、MS MARCO Documents v1を初等訓練セットとして使用し、ゼロショットシナリオおよび他のコレクションの微調整後のモデルの評価を行った。
標準コレクションを用いた最初の実験では、長いドキュメントモデルではFirstPが劣り、あるいはMRRやNDCGでは平均で5%上回ったことが分かりました。
そして、これは長いコンテキストを処理できないモデルによるものではなく、関連するパスの位置バイアスによるもので、最初の512の文書トークンの傾向にあったと推測した。
このバイアスが少なくとも2つのテストセットに存在するという証拠が発見され、これがMS MARCO FarRelevantという新しいコレクションを作る動機となったのです。
MS MARCO FarRelevantの実験では、より長いコンテキストとモデルパフォーマンスに限定的な変数を組み込むことのメリットはほとんど見つからなかったが、MARCO FarRelevantでは、モデル間の劇的な違いが明らかになった。
FirstPモデルは、ゼロショットと微調整の両方のシナリオにおいて、ほぼランダムベースラインレベルで実行された。
単純なアグリゲーションモデル(例えばMaxP)はゼロショット精度が良いが、微調整の利点はほとんどなかった。
他のほとんどのモデルはゼロショット性能が劣り(時々ランダムなベースラインレベルで)、微調整後に最大13-28\%の差を付けた。
したがって、位置バイアスは、より長い文書コンテキストを処理することの利点を減少させるだけでなく、関連するパスの分布が大幅に変化するとき、このバイアスにモデル過度に適合し、ゼロショット環境では性能が低下する。
当社のソフトウェアとMS MARCO FarRelevantを利用可能にしています。
関連論文リスト
- Replacing Judges with Juries: Evaluating LLM Generations with a Panel of Diverse Models [56.02275285521847]
LLm評価器のパネル(PoLL)を用いた評価モデルを提案する。
より多数の小さなモデルで構成されたPoLLは,1つの大判定器より優れ,不整合モデルファミリーの構成によるモデル内バイアスが小さく,しかも7倍以上のコストがかかる。
論文 参考訳(メタデータ) (2024-04-29T15:33:23Z) - LIMIT: Less Is More for Instruction Tuning Across Evaluation Paradigms [2.249916681499244]
オープンソースMPT-7BおよびMPT-30Bモデルを1kから60kのサンプルから様々なサイズの命令微調整データセットに微調整する。
我々は,(1)従来のNLPベンチマークと(2)モデルに基づく評価の両方において,1k-6k命令の微調整サンプルのサブセットが良好な性能を達成するのに十分であることを確認した。
論文 参考訳(メタデータ) (2023-11-22T03:37:01Z) - Generalized Logit Adjustment: Calibrating Fine-tuned Models by Removing Label Bias in Foundation Models [75.9543301303586]
CLIPのようなファンデーションモデルは、追加のトレーニングデータなしで、さまざまなタスクでゼロショット転送を可能にする。
微調整やアンサンブルも一般的に下流のタスクに合うように採用されている。
しかし、先行研究は基礎モデルに固有のバイアスを見落としていると論じる。
論文 参考訳(メタデータ) (2023-10-12T08:01:11Z) - Anchor Points: Benchmarking Models with Much Fewer Examples [88.02417913161356]
6つの人気のある言語分類ベンチマークでは、多数の点の正しいクラスに対するモデル信頼度はモデル間で強く相関している。
Anchor Point Selectionは,データセット全体にわたるモデル動作をキャプチャする,データセットの小さなサブセットを選択する手法である。
平均絶対誤差が低いデータセットの他のすべての点について、クラスごとの予測モデルを推定するために、いくつかのアンカーポイントを使用することができる。
論文 参考訳(メタデータ) (2023-09-14T17:45:51Z) - Boosting classification reliability of NLP transformer models in the
long run [0.0]
本稿では,長期にわたる分類課題に対して,BERTモデルを微調整するための異なるアプローチを比較する。
当社のコーパスには、2020年9月から2021年12月までのハンガリーでの新型コロナウイルスワクチン接種に関するコメントが800万件以上含まれています。
論文 参考訳(メタデータ) (2023-02-20T14:46:54Z) - Billions of Parameters Are Worth More Than In-domain Training Data: A
case study in the Legal Case Entailment Task [4.186775801993103]
言語モデルにおけるパラメータのスケーリングは、以前のゼロショット結果のF1スコアを6ポイント以上向上させることを示す。
大規模な言語モデルによってもたらされる課題にも拘わらず、我々はゼロショットの monoT5-3b モデルが検索エンジンとして本番で使用されていることを実演する。
論文 参考訳(メタデータ) (2022-05-30T15:21:26Z) - Deconstructing Distributions: A Pointwise Framework of Learning [15.517383696434162]
テスト分布におけるモデルの平均性能と、この個々の点におけるポイントワイズ性能の関係について調べる。
プロファイルは、モデルとデータの構造 -- 分布の内外 -- に新しい洞察を与えることができる。
論文 参考訳(メタデータ) (2022-02-20T23:25:28Z) - Evaluation of HTR models without Ground Truth Material [2.4792948967354236]
手書き文字認識モデルの開発における評価は容易である。
しかし、開発からアプリケーションに切り替えると、評価プロセスはトリッキーになります。
我々は,レキシコンに基づく評価が,レキシコンに基づく手法と競合することを示す。
論文 参考訳(メタデータ) (2022-01-17T01:26:09Z) - Mismatched No More: Joint Model-Policy Optimization for Model-Based RL [172.37829823752364]
本稿では,モデルとポリシーを共同でトレーニングする単一目的について提案する。
我々の目標は、期待されるリターンのグローバルな低い境界であり、この境界は特定の仮定の下で厳密になる。
結果のアルゴリズム(MnM)は概念的にはGANと似ている。
論文 参考訳(メタデータ) (2021-10-06T13:43:27Z) - On the Role of Supervision in Unsupervised Constituency Parsing [59.55128879760495]
数ショットのパーシングアプローチは、教師なしのパーシング手法を大きなマージンで上回ることができる。
これは、公正な結論に達するためには、モデル開発に使用されるラベル付きデータの量について慎重に検討する必要があることを示唆している。
論文 参考訳(メタデータ) (2020-10-06T01:34:58Z) - Document Ranking with a Pretrained Sequence-to-Sequence Model [56.44269917346376]
関連ラベルを「ターゲット語」として生成するためにシーケンス・ツー・シーケンス・モデルをどのように訓練するかを示す。
提案手法は,データポーラ方式におけるエンコーダのみのモデルよりも大幅に優れている。
論文 参考訳(メタデータ) (2020-03-14T22:29:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。