論文の概要: Understanding Performance of Long-Document Ranking Models through Comprehensive Evaluation and Leaderboarding
- arxiv url: http://arxiv.org/abs/2207.01262v2
- Date: Tue, 26 Mar 2024 06:54:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-28 02:09:26.890329
- Title: Understanding Performance of Long-Document Ranking Models through Comprehensive Evaluation and Leaderboarding
- Title(参考訳): 包括的評価とリーダーシップによる長期文書ランキングモデルの性能理解
- Authors: Leonid Boytsov, David Akinpelu, Tianyi Lin, Fangwei Gao, Yutian Zhao, Jeffrey Huang, Eric Nyberg,
- Abstract要約: 我々は、長い文書のランク付けのためのTransformerモデルを評価し、それらを単純なFirstPベースラインと比較した。
その結果,MRRやNDCGでは,文書の長期化がFirstPより優れているか,あるいは平均で5%上回っていることがわかった。
これは、長いコンテキストを処理できないモデルによるものではなく、関連するパスの位置バイアスによるものだと推測した。
- 参考スコア(独自算出の注目度): 13.254111200548845
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We evaluated 20+ Transformer models for ranking of long documents (including recent LongP models trained with FlashAttention) and compared them with simple FirstP baselines (applying the same model to input truncated to the first 512 tokens). We used MS MARCO Documents v1 as a primary training set and evaluated models in the zero-shot scenario as well as after fine-tuning on other collections. In our initial experiments with standard collections we found that long-document models underperformed FirstP or outperformed it by at most 5% on average in terms of MRR or NDCG. We then conjectured that this was not due to models inability to process long context but rather due to a positional bias of relevant passages, which tended to be among the first 512 document tokens. We found evidence that this bias was, indeed, present in at least two test sets, which motivated us to create a new collection MS MARCO FarRelevant where the relevant passages were not present among the first 512 tokens. Unlike standard collections where we observed both little benefit from incorporating longer contexts and limited variability in model performance (within a few %), experiments on MS MARCO FarRelevant uncovered dramatic differences among models. FirstP models performed roughly at the random-baseline level in both zero-shot and fine-tuning scenarios. Simple aggregation models (e.g., MaxP) had good zero-shot accuracy but benefited little from fine-tuning. Most other models had poor zero-shot performance (sometimes at a random baseline level) but outstripped MaxP by as much 13-28\% after finetuning. Thus, positional bias not only diminishes benefits of processing longer document contexts but also leads to model overfitting to this bias and performing poorly in a zero-shot setting when a distribution of relevant passages changes substantially. We make our software and MS MARCO FarRelevant available.
- Abstract(参考訳): 我々は、長いドキュメント(FlashAttentionで訓練された最近のLongPモデルを含む)のランク付けのための20以上のTransformerモデルを評価し、それらを単純なFirstPベースライン(最初の512トークンに同じモデルを適用する)と比較した。
我々は、MS MARCO Documents v1を初等訓練セットとして使用し、ゼロショットシナリオおよび他のコレクションの微調整後のモデルの評価を行った。
標準コレクションを用いた最初の実験では、長いドキュメントモデルではFirstPが劣り、あるいはMRRやNDCGでは平均で5%上回ったことが分かりました。
そして、これは長いコンテキストを処理できないモデルによるものではなく、関連するパスの位置バイアスによるもので、最初の512の文書トークンの傾向にあったと推測した。
このバイアスが少なくとも2つのテストセットに存在するという証拠が発見され、これがMS MARCO FarRelevantという新しいコレクションを作る動機となったのです。
MS MARCO FarRelevantの実験では、より長いコンテキストとモデルパフォーマンスに限定的な変数を組み込むことのメリットはほとんど見つからなかったが、MARCO FarRelevantでは、モデル間の劇的な違いが明らかになった。
FirstPモデルは、ゼロショットと微調整の両方のシナリオにおいて、ほぼランダムベースラインレベルで実行された。
単純なアグリゲーションモデル(例えばMaxP)はゼロショット精度が良いが、微調整の利点はほとんどなかった。
他のほとんどのモデルはゼロショット性能が劣り(時々ランダムなベースラインレベルで)、微調整後に最大13-28\%の差を付けた。
したがって、位置バイアスは、より長い文書コンテキストを処理することの利点を減少させるだけでなく、関連するパスの分布が大幅に変化するとき、このバイアスにモデル過度に適合し、ゼロショット環境では性能が低下する。
当社のソフトウェアとMS MARCO FarRelevantを利用可能にしています。
関連論文リスト
- Time-Series Foundation Model for Value-at-Risk [9.090616417812306]
広範囲で多様なデータセットで事前トレーニングされたファンデーションモデルは、比較的最小限のデータを持つゼロショット設定で使用できる。
TimesFMと呼ばれるGoogleのモデルの性能を従来のパラメトリックモデルと非パラメトリックモデルと比較する。
論文 参考訳(メタデータ) (2024-10-15T16:53:44Z) - Margin Matching Preference Optimization: Enhanced Model Alignment with Granular Feedback [64.67540769692074]
人間のフィードバックからの強化学習など、アライメント技術で微調整された大規模言語モデル(LLM)は、これまでで最も有能なAIシステムの開発に役立っている。
マージンマッチング選好最適化(MMPO)と呼ばれる手法を導入し、相対的な品質マージンを最適化し、LLMポリシーと報酬モデルを改善する。
人間とAIの両方のフィードバックデータによる実験によると、MMPOはMT-benchやRewardBenchといった一般的なベンチマークにおいて、ベースラインメソッドよりも一貫してパフォーマンスが向上している。
論文 参考訳(メタデータ) (2024-10-04T04:56:11Z) - Eliminating Position Bias of Language Models: A Mechanistic Approach [119.34143323054143]
位置バイアスは現代言語モデル (LM) の一般的な問題であることが証明されている。
我々の力学解析は、ほぼ全ての最先端のLMで使われている2つのコンポーネント(因果的注意と相対的位置エンコーディング)に位置バイアスが関係している。
位置バイアスを排除することによって、LM-as-a-judge、検索強化QA、分子生成、数学推論など、下流タスクのパフォーマンスと信頼性が向上する。
論文 参考訳(メタデータ) (2024-07-01T09:06:57Z) - Efficient Document Ranking with Learnable Late Interactions [73.41976017860006]
クロスエンコーダ(CE)とデュアルエンコーダ(DE)モデルは,情報検索におけるクエリドキュメント関連性の2つの基本的なアプローチである。
関連性を予測するため、CEモデルは共同クエリドキュメントの埋め込みを使用し、DEモデルは分解クエリとドキュメントの埋め込みを維持している。
近年、DEM構造と軽量スコアラを用いて、より好ましいレイテンシ品質のトレードオフを実現するために、遅延相互作用モデルが提案されている。
論文 参考訳(メタデータ) (2024-06-25T22:50:48Z) - LIMIT: Less Is More for Instruction Tuning Across Evaluation Paradigms [2.249916681499244]
オープンソースMPT-7BおよびMPT-30Bモデルを1kから60kのサンプルから様々なサイズの命令微調整データセットに微調整する。
我々は,(1)従来のNLPベンチマークと(2)モデルに基づく評価の両方において,1k-6k命令の微調整サンプルのサブセットが良好な性能を達成するのに十分であることを確認した。
論文 参考訳(メタデータ) (2023-11-22T03:37:01Z) - Generalized Logit Adjustment: Calibrating Fine-tuned Models by Removing Label Bias in Foundation Models [75.9543301303586]
CLIPのようなファンデーションモデルは、追加のトレーニングデータなしで、さまざまなタスクでゼロショット転送を可能にする。
微調整やアンサンブルも一般的に下流のタスクに合うように採用されている。
しかし、先行研究は基礎モデルに固有のバイアスを見落としていると論じる。
論文 参考訳(メタデータ) (2023-10-12T08:01:11Z) - Billions of Parameters Are Worth More Than In-domain Training Data: A
case study in the Legal Case Entailment Task [4.186775801993103]
言語モデルにおけるパラメータのスケーリングは、以前のゼロショット結果のF1スコアを6ポイント以上向上させることを示す。
大規模な言語モデルによってもたらされる課題にも拘わらず、我々はゼロショットの monoT5-3b モデルが検索エンジンとして本番で使用されていることを実演する。
論文 参考訳(メタデータ) (2022-05-30T15:21:26Z) - Deconstructing Distributions: A Pointwise Framework of Learning [15.517383696434162]
テスト分布におけるモデルの平均性能と、この個々の点におけるポイントワイズ性能の関係について調べる。
プロファイルは、モデルとデータの構造 -- 分布の内外 -- に新しい洞察を与えることができる。
論文 参考訳(メタデータ) (2022-02-20T23:25:28Z) - Evaluation of HTR models without Ground Truth Material [2.4792948967354236]
手書き文字認識モデルの開発における評価は容易である。
しかし、開発からアプリケーションに切り替えると、評価プロセスはトリッキーになります。
我々は,レキシコンに基づく評価が,レキシコンに基づく手法と競合することを示す。
論文 参考訳(メタデータ) (2022-01-17T01:26:09Z) - Few-shot Instruction Prompts for Pretrained Language Models to Detect
Social Biases [55.45617404586874]
我々は、事前訓練された言語モデル(LM)を誘導する数ショットの命令ベース手法を提案する。
大規模なLMは、微調整モデルとよく似た精度で、異なる種類の細粒度バイアスを検出できることを示す。
論文 参考訳(メタデータ) (2021-12-15T04:19:52Z) - When Liebig's Barrel Meets Facial Landmark Detection: A Practical Model [87.25037167380522]
正確で、堅牢で、効率的で、一般化可能で、エンドツーエンドのトレーニングが可能なモデルを提案する。
精度を向上させるために,2つの軽量モジュールを提案する。
DQInitは、インプットからデコーダのクエリを動的に初期化し、複数のデコーダ層を持つものと同じ精度でモデルを実現する。
QAMemは、共有するクエリではなく、それぞれのクエリに別々のメモリ値を割り当てることで、低解像度のフィーチャーマップ上のクエリの識別能力を高めるように設計されている。
論文 参考訳(メタデータ) (2021-05-27T13:51:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。