論文の概要: Label-Free Reinforcement Learning via Cross-Model Entropy
- arxiv url: http://arxiv.org/abs/2605.29009v1
- Date: Wed, 27 May 2026 19:04:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:55.33369
- Title: Label-Free Reinforcement Learning via Cross-Model Entropy
- Title(参考訳): クロスモデルエントロピーによるラベルフリー強化学習
- Authors: Matt Gorbett, Hossein Shirazi,
- Abstract要約: 強化学習を伴う学習後の大規模言語モデルは、報酬信号によってボトルネックとなる。
RL後学習のためのラベルなし報酬信号としてクロスモデルエントロピー(CME)を提案する。
CMEは継続的で、トレーニングなしであり、検証者が予想外の応答が正しいか、品質が高いと判断する原則に基づいている。
- 参考スコア(独自算出の注目度): 4.404496835736175
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Post-training large language models with reinforcement learning is bottlenecked by the reward signal. Existing approaches require either ground-truth verifiable rewards, restricting training to domains with automatic correctness checks (e.g., mathematics, code execution), or human preference labels, which are expensive to collect and prone to reward hacking. Recent label-free methods replace ground-truth verifiers with self-referential signals like majority voting or token entropy over a model's own outputs, but risk reinforcing a model's own errors. In this work we propose Cross-Model Entropy (CME), the mean log-likelihood of a generator's response under a separate verifier model, as a label-free reward signal for RL post-training. CME is continuous, training-free, and grounded in the principle that responses a verifier finds unsurprising are likely correct or high quality. Because the verifier is independent of the generator, the signal cannot be gamed through self-consistency. We integrate CME into GRPO with no other changes to the training loop, extending label-free RL to open-ended instruction following -- a regime where self-referential signals are inapplicable or poorly suited. On open-ended instruction following (UltraFeedback prompts, evaluated on AlpacaEval 2.0), CME rewards beat the untrained base in head-to-head LLM-as-Judge comparisons across four model families (Qwen, Llama, Gemma, OLMo) and three training regimes (pretrained, SFT, and instruction-tuned), with tie-adjusted win rates ranging from 52.5% to 71.4%. Code will be released upon publication.
- Abstract(参考訳): 強化学習を伴う学習後の大規模言語モデルは、報酬信号によってボトルネックとなる。
既存のアプローチでは、基本的な検証可能な報酬、自動正当性チェック(数学、コード実行など)を持つドメインへのトレーニングの制限、あるいはハッキングの回収と報奨に費用がかかる人間の選好ラベルのいずれかが必要となる。
最近のラベルフリー手法は、モデル自身の出力に対する多数決やトークンエントロピーのような自己参照的な信号に代えて、モデル自身のエラーを補強するリスクを負う。
本研究では,RL後学習のためのラベルなし報酬信号として,別個の検証器モデルの下でのジェネレータ応答の平均対数類似度であるクロスモデルエントロピー(CME)を提案する。
CMEは継続的で、トレーニングなしであり、検証者が予想外の応答が正しいか、品質が高いと判断する原則に基づいている。
検証者はジェネレータから独立しているため、信号は自己整合性によってゲームすることはできない。
我々は、CMEをGRPOに統合し、トレーニングループに他の変更を加えることなく、ラベルのないRLをオープンエンドのインストラクションに拡張します。
UltraFeedback prompts, evaluate on AlpacaEval 2.0, CME rewards beat the untrained base in head-to-head-as-Judge comparisons across four model family (Qwen, Llama, Gemma, OLMo) and three training regimes (pretrained, SFT, and instruction-tuned) with tie-adjusted win rate from 52.5% to 71.4%。
コードは公開時に公開される。
関連論文リスト
- Verifier-Free RL for LLMs via Intrinsic Gradient-Norm Reward [69.99652051809737]
本研究では,検証自由な内在性勾配項再帰(VIGOR)を提案する。
VIGORはポリシーモデルのみを使用する単純な報酬です。
数学データのみに基づいてトレーニングされた場合、コードベンチマークへのクロスドメイン転送を示す。
論文 参考訳(メタデータ) (2026-05-11T03:15:37Z) - Unleashing Implicit Rewards: Prefix-Value Learning for Distribution-Level Optimization [74.91418266859297]
インプシットプロセス報酬モデル(PRM)は、推論プロセスに沿ってきめ細かな報酬信号を提供する。
トレーニングはシーケンスレベルの集約のみを制限しますが、推論はローカルステップの品質を反映するためにトークンレベルのスコアが必要です。
本稿では,予測精度を推定するプレフィックス条件付き値関数を直接学習する新しいインプリシット・プレフィックス・バリュー・リワード・モデル(IPVRM)を提案する。
また,サンプルトークンと高確率候補トークンの両方に対してTDの利点を演算する分散レベルRL(DistRL)を提案する。
論文 参考訳(メタデータ) (2026-04-14T18:19:54Z) - CoVerRL: Breaking the Consensus Trap in Label-Free Reasoning via Generator-Verifier Co-Evolution [52.691495954442985]
CoVerRLは1つのモデルがジェネレータと検証ロールを交換するフレームワークで、各機能が他方をブートストラップする。
Qwen と Llama のモデルファミリーでの実験では、CoVerRL は数理推論のベンチマークで4.7-5.9% でラベルなしのベースラインを上回っている。
自己検証の精度は55%から85%以上改善され、両方の能力が真に共存することを確認した。
論文 参考訳(メタデータ) (2026-03-18T14:38:55Z) - Self-Calibrating Language Models via Test-Time Discriminative Distillation [18.46710400838861]
大規模言語モデル(LLM)は、しばしば間違って答える質問に対して体系的に過度に信頼されている。
我々は、テスト時間トレーニング(TTT)パイプラインである$textbfSECL$ ($textbfSE$lf-$textbfC$alibrating $textbfL$anguage Modelsを紹介します。
論文 参考訳(メタデータ) (2026-03-18T13:28:50Z) - RESTRAIN: From Spurious Votes to Signals -- Self-Driven RL with Self-Penalization [52.01526898310723]
私たちは、ゴールドラベルの欠如を有用な学習信号に変換する自己金型RLフレームワークであるRESTRAINを紹介します。
多数決を急ぐために過剰にコミットする代わりに、RESTRAINは、モデルの全回答分布からのシグナルを利用する。
挑戦的な推論ベンチマークでは、RESTRAINはラベルのないデータのみを使用して大きなゲインを提供する。
論文 参考訳(メタデータ) (2025-10-02T16:24:01Z) - Reinforcement Learning with Verifiable yet Noisy Rewards under Imperfect Verifiers [90.50039419576807]
RLVR(Reinforcement Learning with Verifiable Rewards)は、人為的なラベル付けを避けるために、自動検証に対するポリシーを訓練する。
認証ハッキングの脆弱性を軽減するため、多くのRLVRシステムはトレーニング中にバイナリ$0,1$の報酬を破棄する。
この選択にはコストがかかる:textitfalse negatives(正しい回答、FNを拒絶)とtextitfalse positives(間違った回答、FPを受け入れる)を導入する。
論文 参考訳(メタデータ) (2025-10-01T13:56:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。