論文の概要: Explicit Reasoning Makes Better Judges: A Systematic Study on Accuracy, Efficiency, and Robustness
- arxiv url: http://arxiv.org/abs/2509.13332v1
- Date: Tue, 09 Sep 2025 18:36:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-18 18:41:50.525532
- Title: Explicit Reasoning Makes Better Judges: A Systematic Study on Accuracy, Efficiency, and Robustness
- Title(参考訳): 明示的推論はより良い判断を下す: 正確性、効率、ロバスト性に関する体系的研究
- Authors: Pratik Jayarao, Himanshu Gupta, Neeraj Varshney, Chaitanya Dwivedi,
- Abstract要約: 我々は,Large Language Models (LLMs) と "thinking" と "non-thinking" の体系的比較を示す。
RewardBenchタスクの精度と計算効率(FLOP)を評価した。
以上の結果から,思考モデルの精度は10%程度向上し,オーバーヘッドは少なかった。
- 参考スコア(独自算出の注目度): 12.513874407270142
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As Large Language Models (LLMs) are increasingly adopted as automated judges in benchmarking and reward modeling, ensuring their reliability, efficiency, and robustness has become critical. In this work, we present a systematic comparison of "thinking" and "non-thinking" LLMs in the LLM-as-a-judge paradigm using open-source Qwen 3 models of relatively small sizes (0.6B, 1.7B, and 4B parameters). We evaluate both accuracy and computational efficiency (FLOPs) on RewardBench tasks, and further examine augmentation strategies for non-thinking models, including in-context learning, rubric-guided judging, reference-based evaluation, and n-best aggregation. Our results show that despite these enhancements, non-thinking models generally fall short of their thinking counterparts. Our results show that thinking models achieve approximately 10% points higher accuracy with little overhead (under 2x), in contrast to augmentation strategies like few-shot learning, which deliver modest gains at a higher cost (>8x). Bias and robustness analyses further demonstrate that thinking models maintain significantly greater consistency under a variety of bias conditions such as positional, bandwagon, identity, diversity, and random biases (6% higher on average). We further extend our experiments to the multilingual setting and our results confirm that explicit reasoning extends its benefits beyond English. Overall, our work results in several important findings that provide systematic evidence that explicit reasoning offers clear advantages in the LLM-as-a-judge paradigm not only in accuracy and efficiency but also in robustness.
- Abstract(参考訳): 大規模言語モデル(LLM)は、ベンチマークや報酬モデリングにおいて自動化された判断としてますます採用され、信頼性、効率、堅牢性が重要になっている。
本研究では,比較的小型のオープンソースQwen 3モデル(0.6B,1.7B,4Bパラメータ)を用いて,LLM-as-a-judgeパラダイムにおけるLLMの「思考」と「非思考」を体系的に比較する。
In-context Learning, rubric-guided judge, reference-based evaluation, n-best aggregateなど,非思考モデルの精度と計算効率の両面での評価を行った。
我々の結果は、これらの拡張にもかかわらず、非思考モデルは概して思考モデルに劣っていることを示している。
以上の結果から, 思考モデルでは, 精度が約10%向上し, オーバーヘッドが少ない(2倍以下)。
バイアスとロバスト性の分析により、思考モデルは位置、バンドワゴン、アイデンティティ、多様性、ランダムバイアス(平均で6%高い)といった様々なバイアス条件下で、はるかに大きな一貫性を維持していることが示された。
我々はさらに実験を多言語設定にまで拡張し、その結果、明示的な推論が英語を超えてその利点を拡大することを確認した。
本研究は, LLM-as-a-judge パラダイムにおいて, 精度と効率だけでなく, 頑健性にも明確な優位性があることを, 系統的証拠として提示する重要な結果が得られた。
関連論文リスト
- The Art of Saying "Maybe": A Conformal Lens for Uncertainty Benchmarking in VLMs [0.0]
VLM(Vision-Language Models)は、科学的および推論タスクにおける複雑な視覚的理解において、顕著な進歩を遂げている。
3つの異なるスコアリング機能を持つ6つのマルチモーダルデータセットにわたる16の最先端のVLMを評価し、包括的不確実性ベンチマーク研究を行う。
論文 参考訳(メタデータ) (2025-09-16T08:17:39Z) - Curse of Knowledge: When Complex Evaluation Context Benefits yet Biases LLM Judges [72.3356133063925]
審査員としての大規模言語モデル(LLM)のパラダイムはスケーラブルなソリューションとして登場したが、以前の作業は主に単純な設定に焦点を当てていた。
我々の詳細な分析は、評価信号の精度と妥当性を向上させるための重要な洞察を提供する。
論文 参考訳(メタデータ) (2025-09-03T15:48:33Z) - FairReason: Balancing Reasoning and Social Bias in MLLMs [54.26091556079722]
MLLM(Multimodal Large Language Models)は、様々なタスクやモダリティにおいて、最先端の成果をすでに達成している。
近年の研究では、推論能力をさらに推し進めるために、先進的なプロンプトスキームと後続の微調整を探求している。
論文 参考訳(メタデータ) (2025-07-30T19:57:22Z) - Is Your Model Fairly Certain? Uncertainty-Aware Fairness Evaluation for LLMs [7.197702136906138]
モデルフェアネスのきめ細かい評価を可能にするため,不確実性を考慮した評価基準であるUCerFを提案する。
現在のデータセットにおけるデータサイズ、多様性、明快さの問題を観察し、新しいジェンダー占有公正度評価データセットを導入する。
我々は、メトリックとデータセットを使用してベンチマークを確立し、それを10のオープンソースAIシステムの動作評価に適用する。
論文 参考訳(メタデータ) (2025-05-29T20:45:18Z) - Reliable Decision Support with LLMs: A Framework for Evaluating Consistency in Binary Text Classification Applications [0.7124971549479361]
本研究では,大言語モデル(LLM)のバイナリテキスト分類における一貫性を評価するフレームワークを提案する。
我々は,サンプルサイズ要件を定め,不適切な応答の指標を開発し,レータ内およびレータ間信頼性を評価する。
論文 参考訳(メタデータ) (2025-05-20T21:12:58Z) - R-PRM: Reasoning-Driven Process Reward Modeling [53.06844294668382]
プロセス・リワード・モデル(Process Reward Models, PRM)は、各推論ステップを評価することによって、有望なソリューションとして登場した。
既存のPRMは評価スコアを直接出力し、学習効率と評価精度の両方を制限する。
推論駆動プロセスリワードモデリング(R-PRM)を提案する。
R-PRMは限られたアノテーションからシードデータを生成し、効果的にモデルの推論能力をブートストラップします。
論文 参考訳(メタデータ) (2025-03-27T09:23:08Z) - Scalable Best-of-N Selection for Large Language Models via Self-Certainty [65.31658824274894]
Best-of-N選択は、大規模言語モデルの推論性能を改善するための重要なテクニックである。
本稿では,外部報酬モデルを必要とすることなく,応答品質を推定する新規かつ効率的な指標である自己確実性を提案する。
本研究は, LLM推論能力を向上させるための実用的で効率的な方法として, 自己確実性を確立した。
論文 参考訳(メタデータ) (2025-02-25T19:08:07Z) - Mind the Confidence Gap: Overconfidence, Calibration, and Distractor Effects in Large Language Models [0.6091702876917281]
大規模言語モデル(LLM)は、自然言語処理において顕著な熟練度を示す。
予測された信頼と真の正しさの過度なミスサライメントは、重要な意思決定アプリケーションに重大なリスクをもたらす。
9つのLCMと3つの質問応答データセットにわたるLCMの校正に関する包括的分析を行った。
論文 参考訳(メタデータ) (2025-02-16T07:46:09Z) - Sparse MoEs meet Efficient Ensembles [49.313497379189315]
このようなモデルの2つの一般的なクラス、すなわちニューラルネットワークのアンサンブルと専門家のスパースミックス(スパースMoE)の相互作用について研究する。
Efficient Ensemble of Experts (E$3$)は、両モデルのクラスを最大限に活用するスケーラブルでシンプルなMoEのアンサンブルであり、深いアンサンブルよりも最大45%少ないFLOPを使用する。
論文 参考訳(メタデータ) (2021-10-07T11:58:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。