論文の概要: Likelihood-Based Reward Designs for General LLM Reasoning
- arxiv url: http://arxiv.org/abs/2602.03979v1
- Date: Tue, 03 Feb 2026 20:04:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.258197
- Title: Likelihood-Based Reward Designs for General LLM Reasoning
- Title(参考訳): 一般LLM推論のための擬似リワード設計法
- Authors: Ariel Kwiatkowski, Natasha Butt, Ismail Labiad, Julia Kempe, Yann Ollivier,
- Abstract要約: 強化学習による微調整された大きな言語モデルは、ベンチマーク毎に特定の報酬関数、しばしばバイナリを必要とする。
ここでは,基準解を出力する確率や対数確率から得られる報酬について検討する。
連鎖学習の報奨として参照回答の対数確率を用いることが,すべての設定において良好に機能する唯一の選択肢であることがわかった。
- 参考スコア(独自算出の注目度): 17.640897774014707
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fine-tuning large language models (LLMs) on reasoning benchmarks via reinforcement learning requires a specific reward function, often binary, for each benchmark. This comes with two potential limitations: the need to design the reward, and the potentially sparse nature of binary rewards. Here, we systematically investigate rewards derived from the probability or log-probability of emitting the reference answer (or any other prompt continuation present in the data), which have the advantage of not relying on specific verifiers and being available at scale. Several recent works have advocated for the use of similar rewards (e.g., VeriFree, JEPO, RLPR, NOVER). We systematically compare variants of likelihood-based rewards with standard baselines, testing performance both on standard mathematical reasoning benchmarks, and on long-form answers where no external verifier is available. We find that using the log-probability of the reference answer as the reward for chain-of-thought (CoT) learning is the only option that performs well in all setups. This reward is also consistent with the next-token log-likelihood loss used during pretraining. In verifiable settings, log-probability rewards bring comparable or better success rates than reinforcing with standard binary rewards, and yield much better perplexity. In non-verifiable settings, they perform on par with SFT. On the other hand, methods based on probability, such as VeriFree, flatline on non-verifiable settings due to vanishing probabilities of getting the correct answer. Overall, this establishes log-probability rewards as a viable method for CoT fine-tuning, bridging the short, verifiable and long, non-verifiable answer settings.
- Abstract(参考訳): 強化学習を通じてベンチマークを推論するためには、各ベンチマークに対して特定の報酬関数(しばしばバイナリ)が必要である。
これには2つの潜在的な制限がある。報酬を設計する必要性と、バイナリの報酬のスパースな性質である。
ここでは,参照応答(あるいはデータに存在する他のプロンプト継続)を出力する確率や対数確率から得られる報酬を系統的に検討する。
いくつかの最近の研究は、同様の報酬(例えば、VeriFree、JEPO、RLPR、NOVER)の使用を提唱している。
確率に基づく報酬の変種を標準ベースラインと体系的に比較し、標準的な数学的推論ベンチマークと、外部検証が不要な長文解の両方で性能を試験する。
連鎖学習(CoT)学習の報奨として参照回答の対数確率を用いることが,すべての設定で良好に機能する唯一の選択肢であることがわかった。
この報酬は、事前トレーニングで使用される次のトークンのログライクな損失とも一致します。
検証可能な設定では、ログ確率の報酬は、標準的なバイナリの報酬を補強するよりも、同等またはより良い成功率をもたらし、より複雑な結果をもたらす。
検証不能な設定では、SFTと同等に実行される。
一方、VeriFreeのような確率に基づく手法は、正しい答えを得る確率がなくなるため、検証不可能な設定を平らにしている。
全体として、これはCoTの微調整のための実行可能な方法としてログ確率報酬を確立し、短く、検証可能で、長く、検証不可能な回答設定をブリッジする。
関連論文リスト
- P2S: Probabilistic Process Supervision for General-Domain Reasoning Question Answering [51.04492568024515]
本稿では,プロセス報酬を微粒化するための新しいフレームワークである確率的プロセススーパービジョン(P2S)を紹介する。
P2Sは、個別の報酬モデルや人間に注釈を付けた推論ステップを必要とせずに、きめ細かいプロセス報酬を提供する。
論文 参考訳(メタデータ) (2026-01-28T14:35:20Z) - From Verifiable Dot to Reward Chain: Harnessing Verifiable Reference-based Rewards for Reinforcement Learning of Open-ended Generation [52.62655622099456]
検証基準ベース報酬(RLVRR)を用いた強化学習を提案する。
最後の答えをチェックする代わりに、RLVRRは高品質な参照(すなわち報酬連鎖)から順序付けられた言語信号を抽出する。
このようにして、RLVRRは報酬を2つの次元に分解する。
論文 参考訳(メタデータ) (2026-01-26T14:39:58Z) - Hybrid Reinforcement: When Reward Is Sparse, It's Better to Be Dense [36.71358559780692]
HEROは、検証者信号と報酬モデルスコアを構造化された方法で統合する強化学習フレームワークである。
HEROはRMのみのベースラインと検証者のみのベースラインを一貫して上回り、検証可能なタスクと検証しにくいタスクの両方で大きな利益を上げている。
論文 参考訳(メタデータ) (2025-10-08T17:09:41Z) - Reinforcement Learning with Verifiable yet Noisy Rewards under Imperfect Verifiers [90.50039419576807]
RLVR(Reinforcement Learning with Verifiable Rewards)は、人為的なラベル付けを避けるために、自動検証に対するポリシーを訓練する。
認証ハッキングの脆弱性を軽減するため、多くのRLVRシステムはトレーニング中にバイナリ$0,1$の報酬を破棄する。
この選択にはコストがかかる:textitfalse negatives(正しい回答、FNを拒絶)とtextitfalse positives(間違った回答、FPを受け入れる)を導入する。
論文 参考訳(メタデータ) (2025-10-01T13:56:44Z) - Intra-Trajectory Consistency for Reward Modeling [67.84522106537274]
軌道内整合性正則化を開発し、より高い次トーケン生成確率を持つプロセスがより一貫した報酬を維持することを強制する。
提案した正規化でトレーニングした報酬モデルにより、より優れたDPO整合ポリシーが導出され、より優れたベスト・オブ・N(BON)検証結果が得られることを示す。
論文 参考訳(メタデータ) (2025-06-10T12:59:14Z) - T-REG: Preference Optimization with Token-Level Reward Regularization [35.07328450591201]
人間のフィードバックからの強化学習(RLHF)は、大きな言語モデルと人間の価値の整合に不可欠である。
最近の手法ではトークンレベルの報酬を導入してこの制限に対処しようと試みている。
本稿では,トークンレベルの報酬を優先最適化に利用する新しい手法であるトークンレベルの報酬正規化(T-REG)を提案する。
論文 参考訳(メタデータ) (2024-12-03T18:56:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。