論文の概要: PosIR: Position-Aware Heterogeneous Information Retrieval Benchmark
- arxiv url: http://arxiv.org/abs/2601.08363v1
- Date: Tue, 13 Jan 2026 09:22:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:19.132774
- Title: PosIR: Position-Aware Heterogeneous Information Retrieval Benchmark
- Title(参考訳): PosIR: 位置対応不均一情報検索ベンチマーク
- Authors: Ziyang Zeng, Dun Zhang, Yu Yan, Xu Sun, Yudong Zhou, Yuqing Yang,
- Abstract要約: PosIR(Position-Aware Information Retrieval)は、多様な検索シナリオにおける位置バイアスの診断を目的とした総合的なベンチマークである。
PosIRは10の言語と31のドメインにまたがる310のデータセットで構成される。
- 参考スコア(独自算出の注目度): 12.848308213591622
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While dense retrieval models have achieved remarkable success, rigorous evaluation of their sensitivity to the position of relevant information (i.e., position bias) remains largely unexplored. Existing benchmarks typically employ position-agnostic relevance labels, conflating the challenge of processing long contexts with the bias against specific evidence locations. To address this challenge, we introduce PosIR (Position-Aware Information Retrieval), a comprehensive benchmark designed to diagnose position bias in diverse retrieval scenarios. PosIR comprises 310 datasets spanning 10 languages and 31 domains, constructed through a rigorous pipeline that ties relevance to precise reference spans, enabling the strict disentanglement of document length from information position. Extensive experiments with 10 state-of-the-art embedding models reveal that: (1) Performance on PosIR in long-context settings correlates poorly with the MMTEB benchmark, exposing limitations in current short-text benchmarks; (2) Position bias is pervasive and intensifies with document length, with most models exhibiting primacy bias while certain models show unexpected recency bias; (3) Gradient-based saliency analysis further uncovers the distinct internal attention mechanisms driving these positional preferences. In summary, PosIR serves as a valuable diagnostic framework to foster the development of position-robust retrieval systems.
- Abstract(参考訳): 密度の高い検索モデルは目覚ましい成功を収めているが、関連する情報の位置(すなわち位置バイアス)に対する感度の厳密な評価は、ほとんど未発見のままである。
既存のベンチマークでは、位置に依存しない関連ラベルが使用されるのが一般的であり、特定の証拠位置に対するバイアスと長いコンテキストを処理するという課題が混ざり合っている。
この課題に対処するために,多様な検索シナリオにおける位置バイアスの診断を目的とした総合的なベンチマークであるPosIR(Position-Aware Information Retrieval)を導入する。
PosIRは10の言語と31のドメインにまたがる310のデータセットで構成されており、厳密なパイプラインを通じて構築され、正確な参照スパンとの関係を結び付け、情報位置から文書の長さを厳格に切り離すことができる。
1) 長期コンテキスト設定におけるPosIRの性能は、MMTEBベンチマークと相関し、現在の短文ベンチマークの制限を露呈し、(2) 位置バイアスが広範に広がり、文書長が増加し、ほとんどのモデルはプライマリシーバイアスを示し、あるモデルは予期せぬ傾向バイアスを示し、(3) 勾配に基づく塩分濃度分析は、これらの位置優先を駆動する異なる内部的注意機構を更に明らかにする。
まとめると、PosIRは位置ロバスト検索システムの開発を促進する貴重な診断フレームワークとして機能する。
関連論文リスト
- An Empirical Study of Position Bias in Modern Information Retrieval [9.958646803388513]
本研究では,情報検索における位置バイアスについて検討する。
モデルは、後から現れる意味的に関連する情報を無視しながら、通過の開始時にコンテンツを過度に強調する傾向がある。
実験により, 関連する情報が通過中に現れると, 密埋モデルとコルバート式モデルが著しく性能劣化することが示された。
論文 参考訳(メタデータ) (2025-05-20T05:29:01Z) - Eliminating Position Bias of Language Models: A Mechanistic Approach [119.34143323054143]
位置バイアスは現代言語モデル (LM) の一般的な問題であることが証明されている。
我々の力学解析は、ほぼ全ての最先端のLMで使われている2つのコンポーネント(因果的注意と相対的位置エンコーディング)に位置バイアスが関係している。
位置バイアスを排除することによって、LM-as-a-judge、検索強化QA、分子生成、数学推論など、下流タスクのパフォーマンスと信頼性が向上する。
論文 参考訳(メタデータ) (2024-07-01T09:06:57Z) - GenBench: A Benchmarking Suite for Systematic Evaluation of Genomic Foundation Models [56.63218531256961]
我々はGenomic Foundation Modelsの有効性を評価するためのベンチマークスイートであるGenBenchを紹介する。
GenBenchはモジュラーで拡張可能なフレームワークを提供し、様々な最先端の方法論をカプセル化している。
本稿では,タスク固有性能におけるモデルアーキテクチャとデータセット特性の相互作用のニュアンス解析を行う。
論文 参考訳(メタデータ) (2024-06-01T08:01:05Z) - Analysing the Data-Driven Approach of Dynamically Estimating Positioning
Accuracy [81.66581693967416]
我々は、動的精度推定(DAE)を決定するためのデータ駆動型アプローチを分析する。
この研究は、位置決めシステムの全体的な設計の文脈において、DAE決定のデータ駆動アプローチの概要を提供する。
論文 参考訳(メタデータ) (2020-11-20T16:18:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。