論文の概要: Reasoning Model Is Superior LLM-Judge, Yet Suffers from Biases
- arxiv url: http://arxiv.org/abs/2601.03630v1
- Date: Wed, 07 Jan 2026 06:19:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 02:15:23.295321
- Title: Reasoning Model Is Superior LLM-Judge, Yet Suffers from Biases
- Title(参考訳): 推論モデル、LIM-Judgeより優れているが、バイアスで悩まされる
- Authors: Hui Huang, Xuanxin Wu, Muyun Yang, Yuki Arase,
- Abstract要約: 本稿では,Large Reasoning Models (LRMs) が非共振LLMよりも優れているかどうかを,最初の体系的比較を行った。
1) LRMは判定精度、特に推論集約的タスクにおいて非推論的LLMよりも優れており, 2) LRMは評価文脈において優れた指示追従能力を示し, 3) LRMは判定タスクを標的とする敵攻撃に対して強力な堅牢性を示し, 4) しかし, LRMは表層品質に強いバイアスを呈している。
- 参考スコア(独自算出の注目度): 20.096872828837018
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper presents the first systematic comparison investigating whether Large Reasoning Models (LRMs) are superior judge to non-reasoning LLMs. Our empirical analysis yields four key findings: 1) LRMs outperform non-reasoning LLMs in terms of judgment accuracy, particularly on reasoning-intensive tasks; 2) LRMs demonstrate superior instruction-following capabilities in evaluation contexts; 3) LRMs exhibit enhanced robustness against adversarial attacks targeting judgment tasks; 4) However, LRMs still exhibit strong biases in superficial quality. To improve the robustness against biases, we propose PlanJudge, an evaluation strategy that prompts the model to generate an explicit evaluation plan before execution. Despite its simplicity, our experiments demonstrate that PlanJudge significantly mitigates biases in both LRMs and standard LLMs.
- Abstract(参考訳): 本稿では,Large Reasoning Models (LRMs) が非共振LLMよりも優れているかどうかを,最初の体系的比較を行った。
私たちの経験的分析は4つの重要な発見をもたらします。
1 LRMは、判定精度、特に推論集約タスクにおいて非推論LDMよりも優れる。
2) LRMは, 評価文脈において優れた指示追従能力を示す。
3) LRMは, 判定課題を標的とした敵攻撃に対して, 強靭性を示す。
4) LRMは表層品質に強いバイアスを呈している。
バイアスに対するロバスト性を改善するために,モデルが実行前に明示的な評価計画を生成するように促す評価戦略であるPlanJudgeを提案する。
その単純さにもかかわらず、PlanJudge は LRM と標準 LLM の両方のバイアスを著しく軽減することを示した。
関連論文リスト
- Towards Evaluting Fake Reasoning Bias in Language Models [47.482898076525494]
論理に欠陥がある場合でも、モデルが推論の表面構造を好むことを示す。
我々は、Fake Reasoning Bias(FRB)を体系的に調査するベンチマークTheATERを紹介する。
我々は、主観的DPOと実データの両方で17の高度な大言語モデル(LRM)を評価する。
論文 参考訳(メタデータ) (2025-07-18T09:06:10Z) - Assessing Judging Bias in Large Reasoning Models: An Empirical Study [99.86300466350013]
DeepSeek-R1やOpenAI-o1のような大きな推論モデル(LRM)は、顕著な推論能力を示している。
本稿では、主観的嗜好アライメントデータセットと客観的事実ベースデータセットの両方において、LLMとLRMの偏りを判定するベンチマークを示す。
論文 参考訳(メタデータ) (2025-04-14T07:14:27Z) - JudgeLRM: Large Reasoning Models as a Judge [80.07261839142548]
判断指向大規模言語モデル(LLM)のファミリーであるジャッジLRMを紹介する。
SFTの性能向上と推論要求サンプルの比率との間には負の相関が見られ、これらのシナリオにおけるSFTの限界が明らかになる。
判定LRMは、他のRLおよびSFTの変種と同様に、同じサイズでSFTチューニングベースラインを一貫して上回り、最先端の推論モデルを超えていることを示す。
論文 参考訳(メタデータ) (2025-03-31T02:18:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。