論文の概要: How Long Reasoning Chains Influence LLMs' Judgment of Answer Factuality
- arxiv url: http://arxiv.org/abs/2604.06756v1
- Date: Wed, 08 Apr 2026 07:21:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-09 17:30:51.393062
- Title: How Long Reasoning Chains Influence LLMs' Judgment of Answer Factuality
- Title(参考訳): LLMの回答力の判断に長鎖がどの程度影響するか
- Authors: Minzhu Tu, Shiyu Ni, Keping Bi,
- Abstract要約: 大規模言語モデル(LLM)は、人間の評価のためのスケーラブルなサロゲートとして広く採用されているが、そのような判断は依然として不完全であり、表面レベルの偏見に影響を受けやすい。
推論可能なモデルの増加に伴い、ジェネレータの推論内容を判断者に公開することで、よりリッチな情報を提供し、判定精度を向上させるための自然な候補となる。
弱い裁判官は存在を推論することで容易に揺れるが、強い裁判官は情報的証拠として推論を部分的に活用できる。
- 参考スコア(独自算出の注目度): 9.19183567561999
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) has been widely adopted as a scalable surrogate for human evaluation, yet such judges remain imperfect and susceptible to surface-level biases. One possible reason is that these judges lack sufficient information in assessing answer correctness. With the rise of reasoning-capable models, exposing a generator's reasoning content to the judge provides richer information and is a natural candidate for improving judgment accuracy. However, its actual impact on judge behavior remains understudied. In this paper, we systematically investigate how access to reasoning chains affects LLM-based judgment across factual question answering (QA) and mathematical reasoning benchmarks. We find that weak judges are easily swayed by reasoning presence, frequently accepting incorrect answers accompanied by fluent reasoning, while strong judges can partially leverage reasoning as informative evidence. Nevertheless, even strong judges are misled by seemingly high-quality reasoning chains. Controlled experiments further reveal that both fluency and factuality of reasoning chains are critical signals driving judge decisions. These findings highlight the need for more robust LLM judges that can distinguish genuine reasoning quality from superficial fluency when evaluating modern reasoning models.
- Abstract(参考訳): 大規模言語モデル(LLM)は、人間の評価のためのスケーラブルなサロゲートとして広く採用されているが、そのような判断は依然として不完全であり、表面レベルの偏見に影響を受けやすい。
一つの考えられる理由は、これらの裁判官が答えの正しさを評価するのに十分な情報を持っていないことである。
推論可能なモデルの増加に伴い、ジェネレータの推論内容を判断者に公開することで、よりリッチな情報を提供し、判定精度を向上させるための自然な候補となる。
しかし、実際の判断行動への影響は未検討のままである。
本稿では,推論連鎖へのアクセスが実数質問応答(QA)と数理推論ベンチマーク間のLCMに基づく判断にどう影響するかを系統的に検討する。
弱い判断者は存在を推論することで容易に振る舞い、流動的な推論を伴う誤った答えを頻繁に受け入れ、強い判断は情報的な証拠として推論を部分的に活用できる。
それでも、強い裁判官でさえ、一見高品質な推論チェーンによって誤解される。
制御された実験により、推論チェーンの流布と事実の両方が、判断を下す重要なシグナルであることが明らかになった。
これらの知見は、現代の推論モデルを評価する際に、表面流速と真の推論品質を区別できる、より堅牢なLCM裁判官の必要性を浮き彫りにしている。
関連論文リスト
- Beyond Surface Judgments: Human-Grounded Risk Evaluation of LLM-Generated Disinformation [26.636844671170422]
本稿では,判断-人的アライメントを,総合スコア,項目レベルの順序付け,信号依存の観点から検討する。
人間とは対照的に、審査員は通常より厳格で、アイテムレベルの人間のランキングは弱く回復するだけであり、異なるテキスト信号に依存している。
同時に、審査員は人間の読者よりもはるかに多くの意見が一致している。
論文 参考訳(メタデータ) (2026-04-08T08:37:37Z) - Examining Reasoning LLMs-as-Judges in Non-Verifiable LLM Post-Training [75.98427023288052]
LLM(Reasoning LLMs-as-Judges)は、推論モデルの成功を検証不可能な領域に拡張するための有望な道を提供する。
本研究では、強化学習に基づくLLMアライメントにおける非推論および推論判断の実際の影響について検討した。
我々は,高い効率の対向出力を生成することを学ぶことによって,理性判断訓練された政策が,そのような高い性能を達成することを見出した。
論文 参考訳(メタデータ) (2026-03-12T17:57:06Z) - Toward Robust LLM-Based Judges: Taxonomic Bias Evaluation and Debiasing Optimization [44.252712888022835]
大規模言語モデル(LLM)に基づく審査員は、自動評価と報酬モデリングに広く採用されている。
LLMに基づく審査員のバイアスを系統的に定量化するためのベンチマークであるJiceBiasBenchを提案する。
我々は、生成的および差別的な裁判官の両方にまたがって実験を行い、現在の裁判官が有意かつ多様なバイアスパターンを示すことを明らかにした。
論文 参考訳(メタデータ) (2026-03-09T08:32:21Z) - JudgeLRM: Large Reasoning Models as a Judge [80.07261839142548]
判断指向大規模言語モデル(LLM)のファミリーであるジャッジLRMを紹介する。
SFTの性能向上と推論要求サンプルの比率との間には負の相関が見られ、これらのシナリオにおけるSFTの限界が明らかになる。
判定LRMは、他のRLおよびSFTの変種と同様に、同じサイズでSFTチューニングベースラインを一貫して上回り、最先端の推論モデルを超えていることを示す。
論文 参考訳(メタデータ) (2025-03-31T02:18:51Z) - JudgeBench: A Benchmark for Evaluating LLM-based Judges [61.048125269475854]
judgeBenchは、知識、推論、数学、コーディングにまたがる挑戦的な応答ペアに関するLSMベースの判断を評価するためのベンチマークである。
審査員、微調整された審査員、マルチエージェントの審査員、報酬モデルに関する包括的な評価は、審査員ベンチが以前のベンチマークよりもかなり大きな課題を課していることを示している。
論文 参考訳(メタデータ) (2024-10-16T17:58:19Z) - From Calculation to Adjudication: Examining LLM judges on Mathematical Reasoning Tasks [11.01213914485374]
数学的推論タスクにおいて,大規模言語モデル (LLM) について検討する。
本分析により,判定性能と候補モデルタスク性能との間に強い相関関係が明らかになった。
その結果、音声の一部タグのような単純な特徴を用いて、LLM判断者の行動を予測することができるかどうかを検証した。
論文 参考訳(メタデータ) (2024-09-06T10:09:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。