論文の概要: Outcome Accuracy is Not Enough: Aligning the Reasoning Process of Reward Models
- arxiv url: http://arxiv.org/abs/2602.04649v1
- Date: Wed, 04 Feb 2026 15:24:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.588733
- Title: Outcome Accuracy is Not Enough: Aligning the Reasoning Process of Reward Models
- Title(参考訳): アウトカム精度は十分ではない:リワードモデルの推論プロセスの調整
- Authors: Binghai Wang, Yantao Liu, Yuxuan Liu, Tianyi Tang, Shenzhi Wang, Chang Gao, Chujie Zheng, Yichang Zhang, Le Yu, Shixuan Liu, Tao Gui, Qi Zhang, Xuanjing Huang, Bowen Yu, Fei Huang, Junyang Lin,
- Abstract要約: Rationale Consistencyは、モデルの推論プロセスと人間の判断のアライメントを定量化する、きめ細かい計量である。
我々のフロンティアモデルの評価では,最先端モデル間で合理的な一貫性が効果的に識別できることが示されている。
我々は、GenRMトレーニングの合理性一貫性と結果精度を組み合わせたハイブリッド信号を導入する。
- 参考スコア(独自算出の注目度): 108.26461635308796
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative Reward Models (GenRMs) and LLM-as-a-Judge exhibit deceptive alignment by producing correct judgments for incorrect reasons, as they are trained and evaluated to prioritize Outcome Accuracy, which undermines their ability to generalize during RLHF. We introduce Rationale Consistency, a fine-grained metric that quantifies the alignment between the model's reasoning process and human judgment. Our evaluation of frontier models reveals that rationale consistency effectively discriminates among state-of-the-art models and detects deceptive alignment, while outcome accuracy falls short in both respects. To mitigate this gap, we introduce a hybrid signal that combines rationale consistency with outcome accuracy for GenRM training. Our training method achieves state-of-the-art performance on RM-Bench (87.1%) and JudgeBench (82%), surpassing outcome-only baselines by an average of 5%. Using RM during RLHF, our method effectively improves performance as demonstrated on Arena Hard v2, notably yielding a 7% improvement in creative writing tasks. Further analysis confirms that our method escapes the deceptive alignment trap, effectively reversing the decline in rationale consistency observed in outcome-only training.
- Abstract(参考訳): ジェネレーティブ・リワード・モデル(genRM)とLLM-as-a-Judgeは、RLHF中に一般化する能力を損なうアウトカム・正確性(Outcome Accuracy)の優先順位付けのために訓練され評価され、誤った理由から正しい判断を下すことによって、詐欺的アライメントを示す。
Rationale Consistencyは、モデルの推論プロセスと人間の判断のアライメントを定量化する、きめ細かい計量である。
我々のフロンティアモデルの評価では、有理論的整合性は最先端のモデル間で効果的に識別され、知覚的アライメントが検出され、結果の精度は両面で低いことが示されている。
このギャップを軽減するために、GenRMトレーニングの合理性一貫性と結果精度を組み合わせたハイブリッド信号を導入する。
本手法は,RM-Bench (87.1%) およびジャッジベンチ (82%) の最先端性能を達成し,結果のみのベースラインを平均5%超えた。
RLHF中にRMを用いることで、Arena Hard v2で示されるような性能を効果的に向上させることができる。
さらに,本手法は認識的アライメントトラップから脱却し,結果のみのトレーニングで観察される合理的な一貫性の低下を効果的に回避する。
関連論文リスト
- When Small Models Are Right for Wrong Reasons: Process Verification for Trustworthy Agents [0.0]
小さな言語モデルからの正しい回答の50~69%は、根本的な欠陥のある推論を含んでいる。
本稿では,レイタ間合意を実質的に検証したプロセスベース計量であるReasoning Integrity Score(RIS)を紹介する。
メタ認知は十分なモデルキャパシティを伴わずに混乱を増幅するのに対し、RAGは外部のエビデンスに基礎を置き、エラーを7.6%削減する。
論文 参考訳(メタデータ) (2026-01-01T23:54:15Z) - Mitigating LLM Hallucination via Behaviorally Calibrated Reinforcement Learning [32.32593439144886]
振舞い校正された強化学習により、小さなモデルは不確実な定量化においてフロンティアモデルを超えることができる。
当社のモデルでは,GPT-5の0.207を超える精度向上率(0.806)を挑戦的なドメイン内評価において達成している。
論文 参考訳(メタデータ) (2025-12-22T22:51:48Z) - Trustworthy Reasoning: Evaluating and Enhancing Factual Accuracy in LLM Intermediate Thought Processes [16.451488374845407]
本稿では,Large Language Models(LLMs)における重大な脆弱性に対処する新しいフレームワークを提案する。
この現象は、医療、法的な分析、科学研究など、高度な領域に重大なリスクをもたらす。
論文 参考訳(メタデータ) (2025-07-25T10:34:51Z) - Beyond Binary Rewards: Training LMs to Reason About Their Uncertainty [59.97939500426759]
本稿ではRLCRについて述べる。RLCRは精度と信頼性を共同で向上する推論モデルを訓練する手法である。
多様なデータセット間で、RLCRは精度を損なうことなくキャリブレーションを大幅に改善することを示す。
また,言語的信頼度をテスト時に活用し,精度とキャリブレーションを向上させることも実証した。
論文 参考訳(メタデータ) (2025-07-22T17:56:01Z) - Bridging Internal Probability and Self-Consistency for Effective and Efficient LLM Reasoning [53.25336975467293]
パープレキシティや自己整合性などの手法の第一理論誤差分解解析について述べる。
パープレキシティ法は、適切な整合関数が存在しないため、かなりのモデル誤差に悩まされる。
本稿では、自己整合性とパープレキシティを統合したReasoning-Pruning Perplexity Consistency(RPC)と、低確率推論経路を排除したReasoning Pruningを提案する。
論文 参考訳(メタデータ) (2025-02-01T18:09:49Z) - Revisiting and Advancing Adversarial Training Through A Simple Baseline [7.226961695849204]
我々はSimpleATと呼ばれるシンプルなベースラインアプローチを導入し、最近の手法と競合し、堅牢なオーバーフィッティングを緩和する。
我々はCIFAR-10/100とTiny-ImageNetで広範囲に実験を行い、SimpleATの最先端の敵攻撃に対する堅牢性を検証する。
以上の結果から,SimpleATと先進的対人防御手法の相互関係が明らかとなった。
論文 参考訳(メタデータ) (2023-06-13T08:12:52Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Adversarial Robustness on In- and Out-Distribution Improves
Explainability [109.68938066821246]
RATIOは、Adversarial Training on In- and Out-distriionを通じて、堅牢性のためのトレーニング手順である。
RATIOはCIFAR10で最先端の$l$-adrialを実現し、よりクリーンな精度を維持している。
論文 参考訳(メタデータ) (2020-03-20T18:57:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。