Fugu-MT 論文翻訳(概要): Diagnosing LLM Reranker Behavior Under Fixed Evidence Pools

論文の概要: Diagnosing LLM Reranker Behavior Under Fixed Evidence Pools

arxiv url: http://arxiv.org/abs/2602.18613v1
Date: Fri, 20 Feb 2026 21:07:32 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-24 17:42:02.192293
Title: Diagnosing LLM Reranker Behavior Under Fixed Evidence Pools
Title（参考訳）: 固定エビデンスプールにおけるLCMリランカ挙動の診断
Authors: Baris Arat, Emre Sefer,
Abstract要約: ランク付け評価は、上流レトリバーが返却した候補者をリランカがどのように注文するかを調査する。この設定は、ランキングの動作と検索品質を結合するので、出力の差はランキングのポリシーだけでは対応できない。複数Newsクラスタを固定エビデンスプールとして使用することで再ランク付けを分離する制御診断手法を提案する。
参考スコア（独自算出の注目度）: 0.17188280334580197
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Standard reranking evaluations study how a reranker orders candidates returned by an upstream retriever. This setup couples ranking behavior with retrieval quality, so differences in output cannot be attributed to the ranking policy alone. We introduce a controlled diagnostic that isolates reranking by using Multi-News clusters as fixed evidence pools. We limit each pool to exactly eight documents and pass identical inputs to all rankers. Within this setup, BM25 and MMR serve as interpretable reference points for lexical matching and diversity optimization. Across 345 clusters, we find that redundancy patterns vary by model: one LLM implicitly diversifies at larger selection budgets, while another increases redundancy. In contrast, LLMs underperform on lexical coverage at small selection budgets. As a result, LLM rankings diverge substantially from both baselines rather than consistently approximating either strategy. By eliminating retrieval variance, we can attribute these differences directly to the ranking policy. This diagnostic is model-agnostic and applicable to any ranker, including open source systems and proprietary APIs.
Abstract（参考訳）: 基準再ランク評価は、リランカーが上流レトリバーから返される候補者をどうやって注文するかを研究する。このセットアップは、ランキングの動作と検索品質を結合するので、出力の差はランキングのポリシーだけでは対応できない。複数Newsクラスタを固定エビデンスプールとして使用することで再ランク付けを分離する制御診断手法を提案する。私たちは各プールを正確に8つのドキュメントに制限し、すべてのランク付け者に同じ入力を渡します。この設定の中で、BM25とMMRは語彙マッチングと多様性最適化のための解釈可能な参照ポイントとして機能する。 1つのLCMは、より大きな選択予算で暗黙的に分散し、もう1つは冗長性を増加させる。対照的に、LLMは小さな選択予算で語彙範囲で性能が劣る。その結果、LLMランキングはどちらの戦略も一貫して近似するのではなく、両方の基準線から大きく分かれている。検索のばらつきをなくすことで、これらの違いを直接ランク付けポリシーに関連付けることができる。この診断は、モデルに依存しないもので、オープンソースシステムやプロプライエタリなAPIを含む、任意のランサーに適用できる。

関連論文リスト

ABCD: All Biases Come Disguised [4.603755953026689]
MCQ(Multiple-choice Question)ベンチマークは標準的な評価手法である。本稿では,各質問のラベルを一様無順序ラベルに置き換える,単純なバイアス低減評価プロトコルを提案する。このプロトコルは、平均モデルの性能を最小限に抑えつつ、平均精度のばらつきを3倍に減らし、置換に答えるロバスト性を大幅に改善することを示す。
論文参考訳（メタデータ） (2026-02-19T15:12:33Z)
Beyond Majority Voting: LLM Aggregation by Leveraging Higher-Order Information [57.397381631496906]
最適重み(OW)と逆サプライシング人気度(ISP)という2つの新しいアグリゲーションアルゴリズムを開発した。我々の理論的分析は、これらの手法が軽微な仮定の下での多数決の本質的な制限を確実に緩和することを示している。我々は,我々のアルゴリズムを人工データセット,UltraFeedbackやMMLUなどのLLMファインチューニングベンチマーク,実世界の医療環境ARMMAN上で実証的に検証した。
論文参考訳（メタデータ） (2025-10-01T22:21:50Z)
GRAPE: Let GPRO Supervise Query Rewriting by Ranking for Retrieval [19.73916326078242]
CLIPモデルは,テキストと画像データを統合埋め込み空間に整列させることにより,大規模検索システムの基盤となっている。コストのかかるリトレーニングを避けるため、既存のメソッドは主に大規模言語モデル(LLM)によるクエリ書き換え戦略を採用している。 GRAPEは,検索誘導型クエリ書き換えにランキング信号を組み込むプラグイン・アンド・プレイ拡張手法である。
論文参考訳（メタデータ） (2025-09-27T15:36:59Z)
CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文参考訳（メタデータ） (2025-08-05T17:55:24Z)
Adaptive Repetition for Mitigating Position Bias in LLM-Based Ranking [12.134014941104613]
候補項目の順序は、モデルの最終的な決定に影響を与える可能性がある。 LLMのプロンプトにおけるアイテム位置に対するこの感度は、位置バイアスとして知られている。本稿では,各インスタンスに必要な反復回数を適応的に決定する動的早期ストッピング手法を提案する。
論文参考訳（メタデータ） (2025-07-23T09:54:44Z)
Self-ensemble: Mitigating Confidence Mis-calibration for Large Language Models [67.62810111789338]
大規模言語モデルでは,複数問合せ質問に対する信頼度歪みが問題となる。この問題を解決するために自己組織化を提案する。 3つのLLMおよびデータセットの実験結果から,自己アンサンブルが信頼歪問題に包括的に対処できることが示されている。
論文参考訳（メタデータ） (2025-06-02T17:59:29Z)
Towards Automated Fact-Checking of Real-World Claims: Exploring Task Formulation and Assessment with LLMs [32.45604456988931]
本研究では,Large Language Models(LLMs)を用いたAFC(Automated Fact-Checking)のベースライン比較を確立する。また,2007-2024年にPoitiFactから収集された17,856件のクレームに対して,制限されたWeb検索によって得られた証拠を用いてLlama-3モデルの評価を行った。以上の結果から, LLMは微調整をせずに, 分類精度, 正当化品質において, より小型のLLMより一貫して優れていたことが示唆された。
論文参考訳（メタデータ） (2025-02-13T02:51:17Z)
Preference Leakage: A Contamination Problem in LLM-as-a-judge [69.96778498636071]
審査員としてのLLM(Large Language Models)とLLMに基づくデータ合成は、2つの基本的なLLM駆動型データアノテーション法として登場した。本研究では, 合成データ生成器とLCMに基づく評価器の関連性に起因するLCM-as-a-judgeの汚染問題である選好リークを明らかにする。
論文参考訳（メタデータ） (2025-02-03T17:13:03Z)
From Distributional to Overton Pluralism: Investigating Large Language Model Alignment [82.99849359892112]
適応後の応答多様性の低下を以前報告した再検査を行った。分析の結果,応答の多様性の明らかな低下は,品質管理と情報集約によって大きく説明できることがわかった。発見は、現在のアライメント技術はキャプチャーされるが、アシスタントライクなベースLLM動作の有用なサブセットを拡張するものではないことを示している。
論文参考訳（メタデータ） (2024-06-25T16:32:33Z)
DARG: Dynamic Evaluation of Large Language Models via Adaptive Reasoning Graph [70.79413606968814]
本稿では,適応推論グラフ展開(DARG)によるLCMの動的評価を導入し,複雑性と多様性を制御した現在のベンチマークを動的に拡張する。具体的には、まず現在のベンチマークでデータポイントの推論グラフを抽出し、それから推論グラフを摂動させて新しいテストデータを生成する。このような新しく生成されたテストサンプルは、元のベンチマークと同様の言語的多様性を維持しながら、複雑さのレベルが異なる可能性がある。
論文参考訳（メタデータ） (2024-06-25T04:27:53Z)
LLM-RankFusion: Mitigating Intrinsic Inconsistency in LLM-based Ranking [17.96316956366718]
大規模言語モデル(LLM)によるランク付けは、現代の情報検索(IR)システムにおいて有望な性能を達成することができる。ソートに基づく手法では、パスを正しくソートするには一貫した比較が必要であり、LCMがしばしば違反することを示す。 LLMベースのランキングフレームワークであるLLM-RankFusionを提案する。
論文参考訳（メタデータ） (2024-05-31T23:29:42Z)
Regression-aware Inference with LLMs [52.764328080398805]
提案手法は,一般的な回帰と評価指標に準最適であることを示す。本稿では,ベイズ最適解を推定し,サンプル応答からクローズド形式の評価指標を推定する代替推論手法を提案する。
論文参考訳（メタデータ） (2024-03-07T03:24:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。