論文の概要: Examining Reasoning LLMs-as-Judges in Non-Verifiable LLM Post-Training
- arxiv url: http://arxiv.org/abs/2603.12246v1
- Date: Thu, 12 Mar 2026 17:57:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:26.282754
- Title: Examining Reasoning LLMs-as-Judges in Non-Verifiable LLM Post-Training
- Title(参考訳): 非検証LDM後評価におけるLCMの問題点の検討
- Authors: Yixin Liu, Yue Yu, DiJia Su, Sid Wang, Xuewei Wang, Song Jiang, Bo Liu, Arman Cohan, Yuandong Tian, Zhengxing Chen,
- Abstract要約: LLM(Reasoning LLMs-as-Judges)は、推論モデルの成功を検証不可能な領域に拡張するための有望な道を提供する。
本研究では、強化学習に基づくLLMアライメントにおける非推論および推論判断の実際の影響について検討した。
我々は,高い効率の対向出力を生成することを学ぶことによって,理性判断訓練された政策が,そのような高い性能を達成することを見出した。
- 参考スコア(独自算出の注目度): 75.98427023288052
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reasoning LLMs-as-Judges, which can benefit from inference-time scaling, provide a promising path for extending the success of reasoning models to non-verifiable domains where the output correctness/quality cannot be directly checked. However, while reasoning judges have shown better performance on static evaluation benchmarks, their effectiveness in actual policy training has not been systematically examined. Therefore, we conduct a rigorous study to investigate the actual impact of non-reasoning and reasoning judges in reinforcement-learning-based LLM alignment. Our controlled synthetic setting, where a "gold-standard" judge (gpt-oss-120b) provides preference annotations to train smaller judges, reveals key differences between non-reasoning and reasoning judges: non-reasoning judges lead to reward hacking easily, while reasoning judges can lead to policies that achieve strong performance when evaluated by the gold-standard judge. Interestingly, we find that the reasoning-judge-trained policies achieve such strong performance by learning to generate highly effective adversarial outputs that can also score well on popular benchmarks such as Arena-Hard by deceiving other LLM-judges. Combined with our further analysis, our study highlights both important findings and room for improvements for applying (reasoning) LLM-judges in non-verifiable LLM post-training.
- Abstract(参考訳): LLMs-as-Judgesは、推論時間スケーリングの恩恵を受けることができるが、アウトプットの正確性/品質を直接チェックできない非検証可能なドメインに推論モデルの成功を拡大するための有望な経路を提供する。
しかし, 静的評価ベンチマークでは, 推理的判断が優れた性能を示したが, 実際の政策訓練の有効性については, 体系的に検討されていない。
そこで我々は,強化学習に基づくLLMアライメントにおける非推論および推論判断の実際の影響について,厳密な研究を行った。
我々は,「ゴールドスタンダード」審査員(gpt-oss-120b)が,より小規模な審査員を選好するアノテーションを提供し,非合理的審査員と推論審査員の主な違いを明らかにした。
興味深いことに、理性訓練された政策は、アレナ・ハードのような人気のあるベンチマークでも、他のLLM-judgeを判断することで、高い効率の対向出力を生成することを学ぶことで、そのような高いパフォーマンスを達成する。
本研究は,本研究のさらなる分析と合わせて,LLM-judgesを非検証LDMポストトレーニングに適用するための重要な知見と改善の余地を強調した。
関連論文リスト
- Gaming the Judge: Unfaithful Chain-of-Thought Can Undermine Agent Evaluation [76.5533899503582]
大規模言語モデル(LLM)は、エージェントのパフォーマンスを評価するために、ますます裁判官として使われている。
このパラダイムは、エージェントのチェーン・オブ・シークレット(CoT)推論が内部の推論と環境状態の両方を忠実に反映していることを暗黙的に仮定している。
我々は、操作された推論だけで、様々なWebタスクにまたがる800の軌跡に対して、最先端のVLM審査員の偽陽性率を最大90%向上させることができることを実証した。
論文 参考訳(メタデータ) (2026-01-21T06:07:43Z) - Ask a Strong LLM Judge when Your Reward Model is Uncertain [46.41334493044746]
本稿では,高速RMを高速に補う不確実性に基づくルーティングフレームワークを提案する。
本手法は,政策勾配法(PG法)において,一対の選好分類として有利な推定を定式化する。
RMベンチマークの実験により、我々の不確実性に基づくルーティング戦略は、同じコストでランダム判定よりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2025-10-23T09:09:13Z) - Quantitative LLM Judges [60.773734899532336]
本研究では,既存のLLM審査員の評価スコアを,与えられた領域内の人間と一致させる定量的LLM審査員を提案する。
モデルは、その合理性とスコアを使用して、元の審査員のスコアを改善するために訓練される。
実験の結果, 定量的な判断は, ポストホックモデリングにより, 既存の判断の予測力を向上できることがわかった。
論文 参考訳(メタデータ) (2025-06-03T14:44:23Z) - Reverse Engineering Human Preferences with Reinforcement Learning [15.70441204657966]
大規模言語モデル(LLM)は、人間の嗜好を予測するために訓練された他のLLMによって日常的に評価される。
これまでの研究では、候補LLMが生成した回答をポストホックで編集して、審査員LLMが割り当てたスコアを最大化できることが示されている。
我々は、異なるアプローチを採用し、判定LLMによって提供される信号を、逆向きにモデルをチューニングする報酬として利用する。
論文 参考訳(メタデータ) (2025-05-21T17:48:16Z) - LLM-Evaluation Tropes: Perspectives on the Validity of LLM-Evaluations [29.031539043555362]
大規模言語モデル (LLM) は情報システムを評価するためにますます使われている。
近年の研究では、LLMに基づく評価は人間の判断とよく一致することが示唆されている。
本稿では,LCM評価者が誤って成功を示すシナリオについて検討する。
論文 参考訳(メタデータ) (2025-04-27T02:14:21Z) - Justice or Prejudice? Quantifying Biases in LLM-as-a-Judge [84.34545223897578]
多くの領域で優れているにもかかわらず、潜在的な問題は未解決のままであり、その信頼性と実用性の範囲を損なう。
提案手法は, LLM-as-a-Judgeにおける各種類のバイアスを定量化し, 解析する自動バイアス定量化フレームワークである。
当社の作業は、これらの問題に対処するステークホルダの必要性を強調し、LLM-as-a-Judgeアプリケーションで注意を喚起します。
論文 参考訳(メタデータ) (2024-10-03T17:53:30Z) - Systematic Evaluation of LLM-as-a-Judge in LLM Alignment Tasks: Explainable Metrics and Diverse Prompt Templates [11.948519516797745]
LLM審査員の信頼性とアライメントを評価・比較・可視化するオープンソースフレームワークを開発した。
以上の結果から,LLM判定性能に対するプロンプトテンプレートの影響や,LLM判定器とヒト評価器の中間的なアライメントレベルに有意な影響が示唆された。
論文 参考訳(メタデータ) (2024-08-23T11:49:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。