論文の概要: Robust Reward Modeling for Large Language Models via Causal Decomposition
- arxiv url: http://arxiv.org/abs/2604.13833v1
- Date: Wed, 15 Apr 2026 13:07:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-16 20:38:32.546856
- Title: Robust Reward Modeling for Large Language Models via Causal Decomposition
- Title(参考訳): 因果分解による大規模言語モデルのロバスト・リワードモデリング
- Authors: Yunsheng Lu, Zijiang Yang, Licheng Pan, Zhixuan Chu,
- Abstract要約: 我々は、入力の潜在意図埋め込みに候補回答をマッピングするデコーダを学習する。
我々は、この信号がプロンプト非依存のショートカットを抑えながら、プロンプト非依存の情報を強調するという理論的証拠を提供する。
- 参考スコア(独自算出の注目度): 14.045795223884861
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reward models are central to aligning large language models, yet they often overfit to spurious cues such as response length and overly agreeable tone. Most prior work weakens these cues directly by penalizing or controlling specific artifacts, but it does not explicitly encourage the model to ground preferences in the prompt's intent. We learn a decoder that maps a candidate answer to the latent intent embedding of the input. The reconstruction error is used as a signal to regularize the reward model training. We provide theoretical evidence that this signal emphasizes prompt-dependent information while suppressing prompt-independent shortcuts. Across math, helpfulness, and safety benchmarks, the decoder selects shorter and less sycophantic candidates with 0.877 accuracy. Incorporating this signal into RM training in Gemma-2-2B-it and Gemma-2-9B-it increases RewardBench accuracy from 0.832 to 0.868. For Best-of-N selection, our framework increases length-controlled win rates while producing shorter outputs, and remains robust to lengthening and mild off-topic drift in controlled rewrite tests.
- Abstract(参考訳): リワードモデルは大きな言語モデルの整合性の中心であるが、応答長や過度に合意可能なトーンといった刺激的な手がかりに適していることが多い。
それまでの作業は、特定のアーティファクトをペナル化したり、制御したりすることで直接これらのキューを弱めるが、プロンプトの意図でモデルに好ましくないよう明示的に推奨するものではない。
我々は、入力の潜在意図埋め込みに候補回答をマッピングするデコーダを学習する。
報酬モデルトレーニングを正規化するための信号として、再構成誤差が使用される。
我々は、この信号がプロンプト非依存のショートカットを抑えながら、プロンプト非依存の情報を強調するという理論的証拠を提供する。
数学、有用性、安全性のベンチマークを通じて、デコーダは0.877の精度でより短く少ないシコファン候補を選択する。
この信号をGemma-2-2B-itとGemma-2-9B-itのRMトレーニングに組み込むことで、RewardBenchの精度は0.832から0.868に向上する。
Best-of-N選択の場合、我々のフレームワークは、短い出力を生成しながら、長さ制御された勝利率を増大させ、制御されたリライトテストにおいて、延長および軽度なオフトピードリフトに対して頑健である。
関連論文リスト
- Probing the Trajectories of Reasoning Traces in Large Language Models [4.599673637363014]
本研究では,大規模言語モデルにおける推論トレースの軌跡を探索するプロトコルを提案する。
得られた推論トークンの比率が大きくなるにつれて、精度と決定のコミットメントが一貫して増加することが分かっています。
軌道探索が推論モデルのより効率的かつ安全な展開のための診断を提供することを示す。
論文 参考訳(メタデータ) (2026-01-30T16:45:16Z) - Honesty over Accuracy: Trustworthy Language Models through Reinforced Hesitation [12.503662455234954]
現代の言語モデルでは、誤った回答が破滅的な結果をもたらす場合でも、自信ある幻覚が生じることを示す。
RLVR(Reinforceed Hesitation)は,2進法ではなく3進法を用いた強化学習(Reinforcement Learning from Verifiable Rewards, RLVR)の修正である。
論文 参考訳(メタデータ) (2025-11-14T17:20:45Z) - DTS: Enhancing Large Reasoning Models via Decoding Tree Sketching [54.98126916293868]
大規模推論モデル(LRMs)は、精度を低下させる、非常に長い連鎖のトレースを生成する。
本稿では,高エントロピートークンを分岐することで推論空間をスケッチするモデル非依存デコーディングフレームワークを提案する。
このアプローチは、追加のトレーニングや監督を必要とせず、効率と正確性を両立させる最適解を近似する。
論文 参考訳(メタデータ) (2025-11-01T17:41:28Z) - DLER: Doing Length pEnalty Right - Incentivizing More Intelligence per Token via Reinforcement Learning [134.03095505580276]
Doing Length pEnalty Right (DLER)は、バッチワイド報酬正規化、高いクリッピング、ダイナミックサンプリング、単純なトランケーション長ペナルティを組み合わせたトレーニングレシピである。
DLERは最先端の精度-効率のトレードオフを実現し、出力長を70%以上削減し、以前のベースライン精度をすべて上回っている。
論文 参考訳(メタデータ) (2025-10-16T20:05:57Z) - Thinking Fast and Right: Balancing Accuracy and Reasoning Length with Adaptive Rewards [17.829990749622496]
大規模言語モデルに対する適応的な報酬形成手法を提案する。
本手法はモデルの性能に基づいて,精度と応答長のトレードオフを動的に調整する。
実験の結果,提案手法は精度を保ちながら推論時間を大幅に短縮することがわかった。
論文 参考訳(メタデータ) (2025-05-23T18:44:46Z) - Bias Fitting to Mitigate Length Bias of Reward Model in RLHF [81.44256822500257]
人間のフィードバックからの強化学習は、大きな言語モデルと人間の好みを合わせるための報酬モデルに依存している。
バイアスパターンを自律的に学習し,修正するフレームワークであるFiMi-RMを提案する。
実験により,FiMi-RMはよりバランスの取れた長さ逆分布を実現することが示された。
論文 参考訳(メタデータ) (2025-05-19T08:29:28Z) - R1-Zero's "Aha Moment" in Visual Reasoning on a 2B Non-SFT Model [70.77691645678804]
非SFT 2Bモデルのみを用いたマルチモーダル推論における創発的特性の再現に成功した最初の例を示す。
本モデルはCVBenchで59.47%の精度を達成し, ベースモデルを約30%, SFT設定を2%以上上回った。
さらに,RLとインストラクションモデルを用いてR1のような推論を行おうとする試みの失敗と知見を共有した。
論文 参考訳(メタデータ) (2025-03-07T04:21:47Z) - Probing Model Signal-Awareness via Prediction-Preserving Input
Minimization [67.62847721118142]
モデルが正しい脆弱性信号を捕捉して予測する能力を評価する。
SAR(Signal-Aware Recall)と呼ばれる新しい指標を用いて,モデルの信号認識を計測する。
その結果,90年代以降のリコールから60年代以降のリコールは,新たな指標で大幅に減少した。
論文 参考訳(メタデータ) (2020-11-25T20:05:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。