論文の概要: Completing Missing Annotation: Multi-Agent Debate for Accurate and Scalable Relevant Assessment for IR Benchmarks
- arxiv url: http://arxiv.org/abs/2602.06526v1
- Date: Fri, 06 Feb 2026 09:27:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.312946
- Title: Completing Missing Annotation: Multi-Agent Debate for Accurate and Scalable Relevant Assessment for IR Benchmarks
- Title(参考訳): ミスアノテーションを補完する:IRベンチマークの正確でスケーラブルな関連性評価のためのマルチエージェント議論
- Authors: Minjeong Ban, Jeonghwan Choi, Hyangsuk Min, Nicole Hee-Yeon Kim, Minseok Kim, Jae-Gil Lee, Hwanjun Song,
- Abstract要約: DREAMはLLMエージェントを用いた多段階の議論に基づく関連性評価フレームワークである。
95.2%の精度で、人間の3.5%しか関与していない。
BRIDGEは評価バイアスを緩和し、より公平なレトリバー比較を可能にする改良されたベンチマークである。
- 参考スコア(独自算出の注目度): 31.017987800426894
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Information retrieval (IR) evaluation remains challenging due to incomplete IR benchmark datasets that contain unlabeled relevant chunks. While LLMs and LLM-human hybrid strategies reduce costly human effort, they remain prone to LLM overconfidence and ineffective AI-to-human escalation. To address this, we propose DREAM, a multi-round debate-based relevance assessment framework with LLM agents, built on opposing initial stances and iterative reciprocal critique. Through our agreement-based debate, it yields more accurate labeling for certain cases and more reliable AI-to-human escalation for uncertain ones, achieving 95.2% labeling accuracy with only 3.5% human involvement. Using DREAM, we build BRIDGE, a refined benchmark that mitigates evaluation bias and enables fairer retriever comparison by uncovering 29,824 missing relevant chunks. We then re-benchmark IR systems and extend evaluation to RAG, showing that unaddressed holes not only distort retriever rankings but also drive retrieval-generation misalignment. The relevance assessment framework is available at https: //github.com/DISL-Lab/DREAM-ICLR-26; and the BRIDGE dataset is available at https://github.com/DISL-Lab/BRIDGE-Benchmark.
- Abstract(参考訳): 未ラベルの関連チャンクを含む不完全なIRベンチマークデータセットのため、情報検索(IR)評価は依然として困難である。
LLMとLLM-ヒトのハイブリッド戦略は人的労力を減らすが、LLMの過剰な自信とAI-人間間エスカレーションの非効率な傾向が残る。
そこで本稿では,LLMエージェントを用いた複数ラウンドの議論に基づく関連性評価フレームワークであるDREAMを提案する。
合意に基づく議論を通じて、特定のケースに対してより正確なラベル付けを行い、不確実なケースに対してより信頼性の高いAIから人間へのエスカレーションを行い、わずか3.5%の人間の関与で95.2%のラベル付け精度を達成した。
DREAMを用いて、評価バイアスを緩和し、29,824個の欠落した関連チャンクを明らかにすることにより、より公平なレトリバー比較を可能にする改良されたベンチマークBRIDGEを構築する。
次に、IRシステムを再ベンチマークし、RAGに評価を拡張し、非適応の穴がレトリバーランキングを歪ませるだけでなく、検索生成ミスアライメントも引き起こすことを示す。
関連性評価フレームワークはhttps: //github.com/DISL-Lab/DREAM-ICLR-26で、BRIDGEデータセットはhttps://github.com/DISL-Lab/BRIDGE-Benchmarkで入手できる。
関連論文リスト
- Redefining Retrieval Evaluation in the Era of LLMs [20.75884808285362]
従来の情報検索(IR)メトリクスは、人間が下位階級への注意を減らした文書を逐次調査することを前提としている。
この仮定は、Large Language Models (LLM) によって検索結果が消費される検索拡張生成(RAG)システムにおいて破られる。
本稿では,関連するパスの肯定的な寄与と,注意をそらすパスのネガティブな影響の両方を定量化するユーティリティベースのアノテーションスキーマを提案する。
論文 参考訳(メタデータ) (2025-10-24T13:17:00Z) - What Has Been Lost with Synthetic Evaluation? [45.678729819785104]
大規模言語モデル(LLM)は、データ生成にますます使われている。
オーバーテキストベンチマークを生成することにより, LLM が要求を満たすことができるかどうかを検討する。
我々は、LLMが人間によって認可されたものよりも難易度が低いことを示す。
論文 参考訳(メタデータ) (2025-05-28T20:12:32Z) - SPARC: Score Prompting and Adaptive Fusion for Zero-Shot Multi-Label Recognition in Vision-Language Models [74.40683913645731]
Zero-shot Multi-label Recognition (MLR) with Vision-Language Models (VLMs) は、トレーニングデータ、モデルチューニング、アーキテクチャの変更なしに重要な課題に直面している。
我々の研究は、VLMをブラックボックスとして扱い、トレーニングデータや地上の真実を使わずにスコアを活用する新しいソリューションを提案する。
これらのプロンプトスコアの分析により、VLMバイアスとAND'/OR信号の曖昧さが明らかになり、特に、最高スコアは2番目に高いスコアに比べて驚くほど低い。
論文 参考訳(メタデータ) (2025-02-24T07:15:05Z) - Worse than Zero-shot? A Fact-Checking Dataset for Evaluating the Robustness of RAG Against Misleading Retrievals [5.605770511387228]
RAGuardは、不正検索に対するRAGシステムの堅牢性を評価する最初のベンチマークである。
合成ノイズに依存する以前のベンチマークとは異なり、ファクトチェックデータセットは自然に発生する誤報をキャプチャする。
論文 参考訳(メタデータ) (2025-02-22T05:50:15Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - MixEval: Deriving Wisdom of the Crowd from LLM Benchmark Mixtures [57.886592207948844]
市販のベンチマークを戦略的に混合することにより,効率的な金標準評価を実現するための新しいパラダイムであるMixEvalを提案する。
提案手法は,(1)包括的でよく分散された実世界のユーザクエリと(2)Webから抽出したクエリと,既存のベンチマークからの類似したクエリとをマッチングすることによって,効率よく,かつ,かなり改善された基盤トラスベースのベンチマークを橋渡しする。
論文 参考訳(メタデータ) (2024-06-03T05:47:05Z) - Unsupervised Dense Retrieval with Relevance-Aware Contrastive
Pre-Training [81.3781338418574]
関連性を考慮したコントラスト学習を提案する。
我々は、BEIRおよびオープンドメインQA検索ベンチマークにおいて、SOTAアン教師なしコントリバーモデルを一貫して改善する。
本手法は, 目標コーパスの事前訓練後, BM25に打ち勝つだけでなく, 優れた数発学習者として機能する。
論文 参考訳(メタデータ) (2023-06-05T18:20:27Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。