論文の概要: Rethinking Atomic Decomposition for LLM Judges: A Prompt-Controlled Study of Reference-Grounded QA Evaluation
- arxiv url: http://arxiv.org/abs/2603.28005v1
- Date: Mon, 30 Mar 2026 03:55:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.220637
- Title: Rethinking Atomic Decomposition for LLM Judges: A Prompt-Controlled Study of Reference-Grounded QA Evaluation
- Title(参考訳): LLM審査員の原子分解再考:基準付きQA評価の素早い考察
- Authors: Xinran Zhang,
- Abstract要約: 我々は、自己分解型原子式判定器(単一プロンプト分解検証器)を、同じ入力と同様の詳細なルーリックを持つ、即時制御された全体的判定器と比較する。
我々の発見は、QAスタイルの3つのベンチマークで、それぞれ200のソース例で自己分解するシングルプロンプトパターンに特化しています。
- 参考スコア(独自算出の注目度): 5.94231111588812
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Atomic decomposition -- breaking a candidate answer into claims before verifying each against a reference -- is a widely adopted design for LLM-based reference-grounded judges. However, atomic prompts are typically richer and longer, making it unclear whether any advantage comes from decomposition or from richer prompting. We study this for benchmark-style completeness-sensitive reference-support classification: classifying a candidate as fully supported, partially supported, or unsupported relative to a supplied reference. We compare a self-decomposing atomic judge (single-prompt decompose-and-verify) against a prompt-controlled holistic judge with the same inputs and a similarly detailed rubric. On 200 source examples per dataset across TruthfulQA, ASQA, and QAMPARI, with four model families, source-level paired tests, cluster bootstrap, and aggregation across three pre-frozen prompt variants per design family, we find the holistic judge matches or exceeds the atomic judge on two of three benchmarks: ASQA and QAMPARI favor holistic across all four families (statistically reliable in three of four), while TruthfulQA shows a small atomic edge. The holistic advantage is concentrated in partially\_supported cases -- incompleteness detection. A sensitivity check against human annotations confirms the ranking under both benchmark-completeness and human factual-correctness standards. Our finding is specific to the self-decomposing single-prompt pattern on three QA-style benchmarks with 200 source examples each; multi-stage atomic pipelines and non-QA tasks remain untested. Among perturbations examined, reference-quality degradation produced the largest accuracy drops for both judge families.
- Abstract(参考訳): 原子の分解 -- 参照に対してそれぞれを検証する前に、候補の回答をクレームに分解する -- は、LLMベースの基準地審査官にとって広く採用されている設計である。
しかし、原子のプロンプトは通常より豊かで長くなるため、何らかの利点が分解によるものなのか、よりリッチなプロンプトによるものなのかははっきりしない。
本研究は, ベンチマーク方式の完全性に敏感な参照サポート分類において, 候補を完全なサポート対象, 部分的にサポート対象, あるいは提供対象に対してサポート対象として分類する。
我々は、自己分解型原子式判定器(単一プロンプト分解・検証器)を、同じ入力と同様の詳細なルーリックを持つ、即時制御された全体的判定器と比較する。
TruthfulQA、ASQA、QAMPARIの4つのモデルファミリ、ソースレベルのペアテスト、クラスタブートストラップ、デザインファミリ毎の3つのプレフリーズプロンプトバリアントに対するアグリゲーションを含む、データセット毎の200のソース例では、全体的な判定結果が3つのベンチマークのうちの2つにマッチするか、あるいは上回っている。
全体的優位性は、部分的にサポートされたケース、すなわち不完全性検出に集中している。
人間のアノテーションに対する感度チェックは、ベンチマーク完全性と人間の事実的正確性の両方の基準下でのランキングを確認します。
我々の発見は、200のソース例を持つ3つのQAスタイルのベンチマークで、自己分解する単一プロンプトパターンに特化しています。
調査された摂動の中では、基準品質の劣化は両裁判官の家族にとって最大の精度低下を生んだ。
関連論文リスト
- C2-Faith: Benchmarking LLM Judges for Causal and Coverage Faithfulness in Chain-of-Thought Reasoning [0.6138671548064355]
大型言語モデル (LLMs) は、チェーン・オブ・ソート (CoT) 推論の判断としてますます使われている。
C2-Faithは、因果性(各ステップは以前の文脈から論理的に従うのか?
二つの因果検出,因果ステップの定位,カバレッジスコアの3つの課題において,フロンティア判事の評価を行った。
論文 参考訳(メタデータ) (2026-03-05T13:36:47Z) - IF-RewardBench: Benchmarking Judge Models for Instruction-Following Evaluation [85.56193980646981]
命令追従のための総合的メタ評価ベンチマークであるIF-RewardBenchを提案する。
各命令に対して、複数の応答間の全てのペアの選好を含む選好グラフを構築する。
IF-RewardBenchの実験は、現在の審査モデルに重大な欠陥を呈している。
論文 参考訳(メタデータ) (2026-03-05T02:21:17Z) - Autorubric: A Unified Framework for Rubric-Based LLM Evaluation [34.429649156970015]
大規模言語モデル(LLM)を評価するための統一フレームワークを提案する。
この論文で提案されているオープンソースのPythonフレームワークであるAutorubricで、それぞれのテクニックが実現されている。
Autorubricは、重み付き二分、順序、および名目基準をサポートしており、多数派、重み付き、一対一、無投票のアグリゲーションによるシングルジャッジとマルチジャッジのアンサンブルの評価である。
論文 参考訳(メタデータ) (2026-02-13T02:26:30Z) - Reference-Free Rating of LLM Responses via Latent Information [53.463883683503106]
本研究では,判断モデルに対して,自由テキスト応答にQuattスケールのスコアを割り当てるよう依頼する一般的な実践について検討する。
次に、内部モデル信号からスカラー評価を導出する潜在裁判官を提案し、評価する。
ペアとシングルレーティングのベンチマークの幅広いスイートの中で、潜在メソッドは標準のプロンプトにマッチするか、超えている。
論文 参考訳(メタデータ) (2025-09-29T12:15:52Z) - Pretraining on the Test Set Is No Longer All You Need: A Debate-Driven Approach to QA Benchmarks [2.3188831772813105]
本稿では、既存のQAデータセットを構造化された敵対的議論に変換する議論駆動評価パラダイムを提案する。
我々は,(1)QAタスクを議論に基づく評価に体系的に変換する評価パイプライン,(2)MMLU-Pro質問のサブセットにおけるパラダイムの有効性を示す公開ベンチマークの2つの主要な貢献を行う。
論文 参考訳(メタデータ) (2025-07-23T17:58:14Z) - JudgeRank: Leveraging Large Language Models for Reasoning-Intensive Reranking [81.88787401178378]
本稿では,文書関連性を評価する際に,人間の認知過程をエミュレートする新しいエージェント・リランカであるJiceRankを紹介する。
我々は,推論集約型BRIGHTベンチマークを用いて判定Rankを評価し,第1段階の検索手法よりも性能が大幅に向上したことを示す。
さらに、JiceRankは、人気の高いBEIRベンチマークの細調整された最先端リランカと同等に動作し、ゼロショットの一般化能力を検証している。
論文 参考訳(メタデータ) (2024-10-31T18:43:12Z) - Localizing Factual Inconsistencies in Attributable Text Generation [74.11403803488643]
本稿では,帰属可能なテキスト生成における事実の不整合をローカライズするための新しい形式であるQASemConsistencyを紹介する。
QASemConsistencyは、人間の判断とよく相関する事実整合性スコアを得られることを示す。
論文 参考訳(メタデータ) (2024-10-09T22:53:48Z) - Large Language Models are not Fair Evaluators [60.27164804083752]
候補回答の品質ランキングは,文脈の出現順序を変えることで容易にハックできることがわかった。
この操作により、評価結果をスキューし、一方のモデルを他方よりもかなり優れているようにすることができる。
この問題を緩和するための3つのシンプルかつ効果的な戦略を持つフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T07:41:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。