論文の概要: Benchmarking the Myopic Trap: Positional Bias in Information Retrieval
- arxiv url: http://arxiv.org/abs/2505.13950v1
- Date: Tue, 20 May 2025 05:29:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:52.766752
- Title: Benchmarking the Myopic Trap: Positional Bias in Information Retrieval
- Title(参考訳): 筋力トラップのベンチマーク:情報検索における位置バイアス
- Authors: Ziyang Zeng, Dun Zhang, Jiacheng Li, Panxiang Zou, Yuqing Yang,
- Abstract要約: 本研究は,Myopic Trapと呼ばれる位置バイアスの特定の形態について検討し,検索モデルが後から現れる関連情報を見越しながら,文書の初期段階に不均等に出席することを示す。
この現象を体系的に定量化するために,既存のNLPデータセットを位置対応ベンチマークに再利用するセマンティックス保存評価フレームワークを提案する。
- 参考スコア(独自算出の注目度): 10.558261017416472
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study investigates a specific form of positional bias, termed the Myopic Trap, where retrieval models disproportionately attend to the early parts of documents while overlooking relevant information that appears later. To systematically quantify this phenomenon, we propose a semantics-preserving evaluation framework that repurposes the existing NLP datasets into position-aware retrieval benchmarks. By evaluating the SOTA models of full retrieval pipeline, including BM25, embedding models, ColBERT-style late-interaction models, and reranker models, we offer a broader empirical perspective on positional bias than prior work. Experimental results show that embedding models and ColBERT-style models exhibit significant performance degradation when query-related content is shifted toward later positions, indicating a pronounced head bias. Notably, under the same training configuration, ColBERT-style approach show greater potential for mitigating positional bias compared to the traditional single-vector approach. In contrast, BM25 and reranker models remain largely unaffected by such perturbations, underscoring their robustness to positional bias. Code and data are publicly available at: www.github.com/NovaSearch-Team/RAG-Retrieval.
- Abstract(参考訳): 本研究は,Myopic Trapと呼ばれる位置バイアスの特定の形態について検討し,検索モデルが後から現れる関連情報を見越しながら,文書の初期段階に不均等に出席することを示す。
この現象を体系的に定量化するために,既存のNLPデータセットを位置認識型検索ベンチマークに再利用するセマンティックス保存評価フレームワークを提案する。
BM25,埋め込みモデル,ColBERTスタイルの遅延相互作用モデル,再ランカモデルを含む完全探索パイプラインのSOTAモデルを評価することにより,従来の作業よりも広い位置偏差に関する経験的視点を提供する。
実験結果から,クエリ関連コンテンツが後位置へ移動すると,埋め込みモデルやColBERTスタイルのモデルの性能が著しく低下し,頭部バイアスが顕著になることがわかった。
特に、同じトレーニング構成の下では、ColBERTスタイルのアプローチは、従来の単一ベクトルアプローチと比較して、位置バイアスを緩和する可能性が大きい。
対照的に、BM25とリランカーモデルはそのような摂動の影響を受けておらず、位置バイアスに対する頑丈さを裏付けている。
コードとデータは、www.github.com/NovaSearch-Team/RAG-Retrievalで公開されている。
関連論文リスト
- Rethinking Relation Extraction: Beyond Shortcuts to Generalization with a Debiased Benchmark [53.876493664396506]
ベンチマークは、機械学習アルゴリズムのパフォーマンスの評価、比較の促進、優れたソリューションの特定に不可欠である。
本稿では,関係抽出タスクにおけるエンティティバイアスの問題に対処する。
本稿では,エンティティの代替によって,エンティティ参照と関係型との擬似相関を破る不偏関係抽出ベンチマークDREBを提案する。
DREBの新たなベースラインを確立するために,データレベルとモデルトレーニングレベルを組み合わせたデバイアス手法であるMixDebiasを導入する。
論文 参考訳(メタデータ) (2025-01-02T17:01:06Z) - Eliminating Position Bias of Language Models: A Mechanistic Approach [119.34143323054143]
位置バイアスは現代言語モデル (LM) の一般的な問題であることが証明されている。
我々の力学解析は、ほぼ全ての最先端のLMで使われている2つのコンポーネント(因果的注意と相対的位置エンコーディング)に位置バイアスが関係している。
位置バイアスを排除することによって、LM-as-a-judge、検索強化QA、分子生成、数学推論など、下流タスクのパフォーマンスと信頼性が向上する。
論文 参考訳(メタデータ) (2024-07-01T09:06:57Z) - Revisiting Zero-Shot Abstractive Summarization in the Era of Large Language Models from the Perspective of Position Bias [13.828653029379257]
位置バイアスを測定することにより,Large Language Models (LLMs) におけるゼロショット抽象要約を特徴付ける。
位置バイアスは入力テキストの特定の部分からの情報を不当に優先するモデルの傾向を捉え、望ましくない振る舞いをもたらす。
その結果,ゼロショット要約タスクにおけるモデルの性能と位置バイアスに関する新たな洞察と議論につながった。
論文 参考訳(メタデータ) (2024-01-03T21:38:40Z) - General Greedy De-bias Learning [163.65789778416172]
本稿では,関数空間における勾配降下のような偏りのあるモデルとベースモデルを優雅に訓練する一般グリーディ・デバイアス学習フレームワーク(GGD)を提案する。
GGDは、事前知識を持つタスク固有バイアスモデルと、事前知識を持たない自己アンサンブルバイアスモデルの両方の設定の下で、より堅牢なベースモデルを学ぶことができる。
論文 参考訳(メタデータ) (2021-12-20T14:47:32Z) - Greedy Gradient Ensemble for Robust Visual Question Answering [163.65789778416172]
VQA(Visual Question Answering)では、分布バイアスとショートカットバイアスという2つの側面から生じる言語バイアスを強調している。
本稿では,非バイアスベースモデル学習に複数のバイアスモデルを組み合わせた新しいデバイアスフレームワークGreedy Gradient Ensemble(GGE)を提案する。
GGEはバイアス付きモデルを優先的にバイアス付きデータ分布に過度に適合させ、バイアス付きモデルでは解決が難しい例にベースモデルがより注意を払う。
論文 参考訳(メタデータ) (2021-07-27T08:02:49Z) - Towards Robustifying NLI Models Against Lexical Dataset Biases [94.79704960296108]
本稿では、語彙的データセットバイアスに対するモデル強化のための、データレベルとモデルレベルのデバイアス法の両方について検討する。
まず、データ拡張と拡張によってデータセットをデバイアスするが、この方法でモデルバイアスを完全に除去することはできないことを示す。
第2のアプローチでは、バーオブワードのサブモデルを使用して、バイアスを悪用する可能性のある機能をキャプチャし、元のモデルがこれらのバイアス付き機能を学ぶのを防ぐ。
論文 参考訳(メタデータ) (2020-05-10T17:56:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。