論文の概要: Faithful or Fabricated? A Causal Framework for Rationalization Bias in LLM Judges
- arxiv url: http://arxiv.org/abs/2605.23970v1
- Date: Wed, 13 May 2026 07:00:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-01 02:55:42.987839
- Title: Faithful or Fabricated? A Causal Framework for Rationalization Bias in LLM Judges
- Title(参考訳): 偽造か偽造か : LLM判決における合理化バイアスの因果的枠組み
- Authors: Riya Tapwal, Abhishek Kumar, Carsten Maple,
- Abstract要約: 大言語モデル(LLM)は、要約と対話評価のための自動判断器として、ますます使われている。
我々は LLM の審査員が Cue-invariant であるかどうかを問う。
我々は、一連のキュー介入(Blind, Truth, Flip, Placebo, Reveal-After)と、結果アンカーと合理性アンカーの定量化のためのタイアウェアメトリクスを導入します。
- 参考スコア(独自算出の注目度): 19.04544141221272
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are increasingly used as automatic judges for summarization and dialogue evaluation. Prior work has documented biases such as position, verbosity, and style preferences, but largely focuses on outcomes, leaving judge explanations underexplored. We instead ask whether LLM judges are cue-invariant, i.e., whether their rankings and explanations remain stable when non-evidential cues are perturbed while holding the underlying texts fixed. We introduce a suite of cue interventions (Blind, Truth, Flip, Placebo, Reveal-After) and tie-aware metrics that quantify outcome anchoring and rationale anchoring, including label-aligned rhetoric and explanation drift, alongside consistency and stereotype-intrusion checks. We design anchoring attacks using verbosity and confidence cues, and compare two mitigations: structured chain-of-thought prompting and PROOF-BEFORE-PREFERENCE (evidence lock, score, rank). Using a new dataset of 1,000 summaries from traditional extractive models and LLMs, we find substantial cue-anchored rationalization under label and placebo perturbations, while PROOF-BEFORE-PREFERENCE markedly improves cue invariance over baselines.
- Abstract(参考訳): 大言語モデル(LLM)は、要約と対話評価のための自動判断器として、ますます使われている。
以前の研究は、位置、冗長性、スタイルの好みなどのバイアスを文書化してきたが、主に結果に焦点を当てており、裁判官の説明は未調査のままである。
代わりに、LLMの審査員はキュー不変(cue-invariant)であるかどうか、すなわち、そのランクと説明が、基礎となるテキストを固定しながら、非証拠の手がかりが摂動しているときに安定しているかどうかを問う。
我々は,コーパスの介入(Blind, Truth, Flip, Placebo, Reveal-After)と,ラベルに整合したレトリックや説明のドリフトを含む結果アンカーと合理性アンカーの定量化を行うタイアウェアメトリクスを導入する。
我々は、冗長性と信頼度を用いたアンカー攻撃を設計し、構造化連鎖プロンプトとPROOF-BEFORE-PREFERENCE(エビデンスロック、スコア、ランク)の2つの軽減策を比較した。
従来の抽出モデルとLLMから1000のサマリーからなる新しいデータセットを用いて,ラベルやプラセボの摂動下での相当なキューアンコール合理化と,PROOF-BEFORE-PREFERENCEはベースライン上のキュー不変性を著しく改善する。
関連論文リスト
- Semantic Reranking at Inference Time for Hard Examples in Rhetorical Role Labeling [5.963398606353896]
修辞的役割ラベルリング(Rhetorical Role Labeling、RRL)は、文書内の各文に機能的な役割を割り当て、法律、医学、科学の領域で広く使われている。
本稿では,ラベルのセマンティクスを活用してハードインスタンスの予測を洗練する推論時セマンティクスのフレームワークRISEを紹介する。
エンコーダベースのアーキテクチャや因果アーキテクチャを含む7つのLMを持つ8つのドメイン固有のRRLデータセットの実験では、ハードな例では、平均で+9.15のマクロF1ポイントが得られた。
論文 参考訳(メタデータ) (2026-05-18T08:03:02Z) - HighlightBench: Benchmarking Markup-Driven Table Reasoning in Scientific Documents [88.16322879912458]
マルチモーダルな大言語モデル (MLLM) は文書理解においてかなりの進歩を遂げているが、明示的な論理ディレクティブとしてそのような方法を扱う能力はいまだ探索されていない。
マークアップ駆動型テーブル理解のための診断ベンチマークであるHighlightBenchを導入し,評価を5つのタスクファミリに分解する。
構成された出力制約の下では、視覚的手がかりがシンボリック推論と一貫して一致しなければならない場合、強いモデルでさえ不安定であることを示す。
論文 参考訳(メタデータ) (2026-03-25T06:15:40Z) - C2-Faith: Benchmarking LLM Judges for Causal and Coverage Faithfulness in Chain-of-Thought Reasoning [0.6138671548064355]
大型言語モデル (LLMs) は、チェーン・オブ・ソート (CoT) 推論の判断としてますます使われている。
C2-Faithは、因果性(各ステップは以前の文脈から論理的に従うのか?
二つの因果検出,因果ステップの定位,カバレッジスコアの3つの課題において,フロンティア判事の評価を行った。
論文 参考訳(メタデータ) (2026-03-05T13:36:47Z) - The Judge Who Never Admits: Hidden Shortcuts in LLM-based Evaluation [17.386684382460242]
大規模言語モデル(LLM)は、推論、質問応答、創造的記述といったタスクにおけるシステムの出力を評価するために、ますます使われてきている。
6つの判定モデルに対する評価プロンプトに挿入された制御キュー摂動合成メタデータラベルを用いて,この理想を検証した。
情報源,時間,年齢,性別,民族,教育的地位の6つのキュー族を調査する。
論文 参考訳(メタデータ) (2026-02-08T14:45:23Z) - Gaming the Judge: Unfaithful Chain-of-Thought Can Undermine Agent Evaluation [76.5533899503582]
大規模言語モデル(LLM)は、エージェントのパフォーマンスを評価するために、ますます裁判官として使われている。
このパラダイムは、エージェントのチェーン・オブ・シークレット(CoT)推論が内部の推論と環境状態の両方を忠実に反映していることを暗黙的に仮定している。
我々は、操作された推論だけで、様々なWebタスクにまたがる800の軌跡に対して、最先端のVLM審査員の偽陽性率を最大90%向上させることができることを実証した。
論文 参考訳(メタデータ) (2026-01-21T06:07:43Z) - RULERS: Locked Rubrics and Evidence-Anchored Scoring for Robust LLM Evaluation [15.787947727055611]
本稿では,自然言語ルーブを実行可能な仕様に変換するコンパイラ・エグゼクタフレームワークであるRULERSを紹介する。
RULERSは、基準をバージョニングされた不変バンドルにコンパイルし、決定論的証拠検証による構造化復号を強制し、軽量なワッサーシュタインベースのポストホックキャリブレーションを適用する。
論文 参考訳(メタデータ) (2026-01-13T15:31:42Z) - Reference-Free Rating of LLM Responses via Latent Information [53.463883683503106]
本研究では,判断モデルに対して,自由テキスト応答にQuattスケールのスコアを割り当てるよう依頼する一般的な実践について検討する。
次に、内部モデル信号からスカラー評価を導出する潜在裁判官を提案し、評価する。
ペアとシングルレーティングのベンチマークの幅広いスイートの中で、潜在メソッドは標準のプロンプトにマッチするか、超えている。
論文 参考訳(メタデータ) (2025-09-29T12:15:52Z) - Judging LLMs on a Simplex [2.088672652658465]
一般的な実践は、大言語モデル(LLM)自体を裁判官として使用することであるが、このアプローチの理論的性質はまだよく理解されていない。
判定と候補の両方を確率的単純度上の点として表現する幾何学的枠組みは,何であるか,何であるかを識別できないのか,有用な知見を提供することができる。
論文 参考訳(メタデータ) (2025-05-28T04:50:41Z) - Retrieval is Not Enough: Enhancing RAG Reasoning through Test-Time Critique and Optimization [58.390885294401066]
Retrieval-augmented Generation (RAG) は知識基底型大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
RAGパイプラインは、モデル推論が得られた証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
批判駆動アライメント(CDA)に基づく新しい反復的枠組みであるAlignRAGを提案する。
AlignRAG-autoは、動的に洗練を終了し、批判的な反復回数を事前に指定する必要がなくなる自律的な変種である。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z) - Interpretable Automatic Fine-grained Inconsistency Detection in Text
Summarization [56.94741578760294]
本研究の目的は, 要約中の事実誤りの微粒化を予測し, 微粒化不整合検出の課題を提案することである。
要約における現実的不整合の検査方法に触発され,解析可能な微粒不整合検出モデルであるFinGrainFactを提案する。
論文 参考訳(メタデータ) (2023-05-23T22:11:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。