論文の概要: Co-Reward: Self-supervised Reinforcement Learning for Large Language Model Reasoning via Contrastive Agreement
- arxiv url: http://arxiv.org/abs/2508.00410v1
- Date: Fri, 01 Aug 2025 08:09:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-04 18:08:53.788778
- Title: Co-Reward: Self-supervised Reinforcement Learning for Large Language Model Reasoning via Contrastive Agreement
- Title(参考訳): Co-Reward: コントラスト合意による大規模言語モデル推論のための自己教師型強化学習
- Authors: Zizhuo Zhang, Jianing Zhu, Xinmu Ge, Zihua Zhao, Zhanke Zhou, Xuan Li, Xiao Feng, Jiangchao Yao, Bo Han,
- Abstract要約: 検証可能な報奨(RLVR)による強化学習は、大規模言語モデル(LLM)の推論能力の向上を約束している。
我々は,意味的類似質問間のコントラスト合意を報酬ベースとして活用する新しいRLフレームワークであるtextitCo-Rewardを提案する。
- 参考スコア(独自算出の注目度): 29.474742920809565
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although reinforcement learning with verifiable rewards (RLVR) shows promise in improving the reasoning ability of large language models (LLMs), the scaling up dilemma remains due to the reliance on human annotated labels especially for complex tasks. Recent alternatives that explore various self-reward signals exhibit the eliciting potential of LLM reasoning, but suffer from the non-negligible collapse issue. Inspired by the success of self-supervised learning, we propose \textit{Co-Reward}, a novel RL framework that leverages contrastive agreement across semantically analogical questions as a reward basis. Specifically, we construct a similar question for each training sample (without labels) and synthesize their individual surrogate labels through a simple rollout voting, and then the reward is constructed by cross-referring the labels of each question pair to enforce the internal reasoning consistency across analogical inputs. Intuitively, such a self-supervised reward-shaping mechanism increases the difficulty of learning collapse into a trivial solution, and promotes stable reasoning elicitation and improvement through expanding the input sample variants. Empirically, Co-Reward achieves superior performance compared to other self-reward baselines on multiple reasoning benchmarks and LLM series, and reaches or even surpasses ground-truth (GT) labeled reward, with improvements of up to $+6.8\%$ on MATH500 over GT reward on Llama-3.2-3B-Instruct. Our code is publicly available at https://github.com/tmlr-group/Co-Reward.
- Abstract(参考訳): 検証可能な報奨(RLVR)による強化学習は、大きな言語モデル(LLM)の推論能力の向上を約束するが、ジレンマの増大は、特に複雑なタスクにおいてヒトの注釈付きラベルに依存しているためである。
様々な自己回帰シグナルを探索する最近の選択肢は、LLM推論の誘発可能性を示しているが、無視できない崩壊問題に悩まされている。
自己指導型学習の成功に触発されて,意味的類似質問間のコントラスト合意を報酬ベースとして活用する新しいRLフレームワークである「textit{Co-Reward}」を提案する。
具体的には、各トレーニングサンプル(ラベルなし)に対して同様の質問を構築し、簡単なロールアウト投票によって個々のサロゲートラベルを合成し、各質問ペアのラベルを相互参照して、アナログ入力間の内部推論一貫性を強制することにより報酬を構成する。
直感的には、このような自己監督型報酬形成機構は、学習の難易度を自明な解に高め、入力サンプルの変種を拡大することで安定した推論と改善を促進する。
実証的には、Co-Rewardは複数の推論ベンチマークやLLMシリーズの他のセルフリワードベースラインよりも優れたパフォーマンスを達成し、Llama-3.2-3B-インストラクトでのGT報酬よりも最大$+6.8\%のMATH500の改善で、GTラベルの報酬に到達または超えている。
私たちのコードはhttps://github.com/tmlr-group/Co-Reward.comで公開されています。
関連論文リスト
- Consistent Paths Lead to Truth: Self-Rewarding Reinforcement Learning for LLM Reasoning [87.7836502955847]
本稿では,Large Language Model (LLM)推論を強化するための,自己回帰型強化学習フレームワークを提案する。
私たちのキーとなる洞察は、正しい応答はモデルの可能性の観点から一貫した軌道パターンを示すことが多いということです。
本稿では,安定度とボラティリティを,頑健なベクトル空間集約戦略を通じて統合する,本質的な報酬機構であるCoVoを紹介する。
論文 参考訳(メタデータ) (2025-06-10T12:40:39Z) - QA-LIGN: Aligning LLMs through Constitutionally Decomposed QA [49.9801383018588]
シンボル報酬の自動分解手法であるQA-LIGNを導入する。
モノリシックスコアを出力するブラックボックス報酬モデルをトレーニングする代わりに、QA-LIGNは原則固有の評価質問を定式化する。
QA-LIGNはより透明性と適応性を提供することを示した。
論文 参考訳(メタデータ) (2025-06-09T18:24:57Z) - Reinforcing Video Reasoning with Focused Thinking [65.85683941058916]
本稿では,集中的思考と深い報酬の粒度で視覚的推論を強化する新しいフレームワークであるTW-GRPOを提案する。
具体的には,高情報密度のトークンを優先するトークン重み付け機構を用いる。
また,シングルチョイスからマルチチョイスQAタスクにシフトすることで,RLトレーニングを再構築する。
論文 参考訳(メタデータ) (2025-05-30T15:42:19Z) - Writing-Zero: Bridge the Gap Between Non-verifiable Tasks and Verifiable Rewards [11.149294285483782]
我々は、検証不可能なタスクと検証可能な報酬のギャップを埋める統一的なRLVRベースのトレーニングパラダイムを提案する。
本稿では,GenRMとBootstrapped Relative Policy Optimization (BRPO)アルゴリズムを提案する。
提案手法は,LLMが微調整を監督せずに堅牢な書込み機能を開発する上で有効である。
論文 参考訳(メタデータ) (2025-05-30T14:34:57Z) - Can Large Reasoning Models Self-Train? [58.953117118687096]
大規模言語モデルのスケールは、人間の監督への依存を減らす方法にますます依存している。
本稿では,自己整合性を利用したオンライン自己学習型強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-05-27T17:16:00Z) - Learning to Reason without External Rewards [100.27210579418562]
RLVR(Reinforcement Learning with Verifiable Rewards)による複雑な推論のための大規模言語モデル(LLM)の訓練は、費用がかかるドメイン固有の監督に依存して効果的であるが制限されている。
内部フィードバックからの強化学習(Reinforcement Learning from Internal Feedback, RLIF)は、LLMが外部の報酬やラベル付きデータなしで本質的な信号から学習できるフレームワークである。
本稿では,モデル自身の信頼度を利用したRLIF手法であるIntuitorについて,その唯一の報奨信号として自己確実性(self-certainty)を提案する。
論文 参考訳(メタデータ) (2025-05-26T07:01:06Z) - RLSR: Reinforcement Learning from Self Reward [0.0]
大規模な言語モデルでは,参照解を使わずに自己判断によって効果的に自己改善できることを示す。
実験により, モデルが真理の答えを得られずに, 信頼性の高い報奨信号を提供できることを示した。
この作業は、自己指向学習を通じて継続的に改善される自律型AIシステムに向けた重要なステップである。
論文 参考訳(メタデータ) (2025-05-12T23:51:04Z) - Rethinking the Role of Proxy Rewards in Language Model Alignment [39.53237479058083]
逆報酬工学による大規模言語モデルのアライメントにおける代行報酬の役割について検討する。
我々は,金の報酬信号とプロキシのモノトニックな関係を達成し,金の報酬信号を再現することを目指している。
以上の結果から,金の報酬をうまくエミュレートするには,十分な長さの質問に対する応答を生成する必要があることが示唆された。
論文 参考訳(メタデータ) (2024-02-02T11:58:08Z) - Dense Reward for Free in Reinforcement Learning from Human Feedback [64.92448888346125]
我々は報酬モデルが単にスカラー出力よりも多くの情報を含んでいるという事実を活用している。
私たちは、これらの注意重みを使って、完了全体に沿って報酬を再分配します。
経験的に、トレーニングを安定化し、学習速度を加速し、実際は、より良い局所最適性をもたらす可能性があることを示す。
論文 参考訳(メタデータ) (2024-02-01T17:10:35Z) - Beyond Sparse Rewards: Enhancing Reinforcement Learning with Language
Model Critique in Text Generation [29.6763730290473]
強化学習は、言語モデルと人間の嗜好のような区別できない報酬信号とを一致させることができる。
本稿では,中間段階の報酬を生成するために,大規模言語モデルの批判能力を利用する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-14T22:05:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。