論文の概要: Co-Reward: Self-supervised Reinforcement Learning for Large Language Model Reasoning via Contrastive Agreement
- arxiv url: http://arxiv.org/abs/2508.00410v1
- Date: Fri, 01 Aug 2025 08:09:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-04 18:08:53.788778
- Title: Co-Reward: Self-supervised Reinforcement Learning for Large Language Model Reasoning via Contrastive Agreement
- Title(参考訳): Co-Reward: コントラスト合意による大規模言語モデル推論のための自己教師型強化学習
- Authors: Zizhuo Zhang, Jianing Zhu, Xinmu Ge, Zihua Zhao, Zhanke Zhou, Xuan Li, Xiao Feng, Jiangchao Yao, Bo Han,
- Abstract要約: 検証可能な報奨(RLVR)による強化学習は、大規模言語モデル(LLM)の推論能力の向上を約束している。
我々は,意味的類似質問間のコントラスト合意を報酬ベースとして活用する新しいRLフレームワークであるtextitCo-Rewardを提案する。
- 参考スコア(独自算出の注目度): 29.474742920809565
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although reinforcement learning with verifiable rewards (RLVR) shows promise in improving the reasoning ability of large language models (LLMs), the scaling up dilemma remains due to the reliance on human annotated labels especially for complex tasks. Recent alternatives that explore various self-reward signals exhibit the eliciting potential of LLM reasoning, but suffer from the non-negligible collapse issue. Inspired by the success of self-supervised learning, we propose \textit{Co-Reward}, a novel RL framework that leverages contrastive agreement across semantically analogical questions as a reward basis. Specifically, we construct a similar question for each training sample (without labels) and synthesize their individual surrogate labels through a simple rollout voting, and then the reward is constructed by cross-referring the labels of each question pair to enforce the internal reasoning consistency across analogical inputs. Intuitively, such a self-supervised reward-shaping mechanism increases the difficulty of learning collapse into a trivial solution, and promotes stable reasoning elicitation and improvement through expanding the input sample variants. Empirically, Co-Reward achieves superior performance compared to other self-reward baselines on multiple reasoning benchmarks and LLM series, and reaches or even surpasses ground-truth (GT) labeled reward, with improvements of up to $+6.8\%$ on MATH500 over GT reward on Llama-3.2-3B-Instruct. Our code is publicly available at https://github.com/tmlr-group/Co-Reward.
- Abstract(参考訳): 検証可能な報奨(RLVR)による強化学習は、大きな言語モデル(LLM)の推論能力の向上を約束するが、ジレンマの増大は、特に複雑なタスクにおいてヒトの注釈付きラベルに依存しているためである。
様々な自己回帰シグナルを探索する最近の選択肢は、LLM推論の誘発可能性を示しているが、無視できない崩壊問題に悩まされている。
自己指導型学習の成功に触発されて,意味的類似質問間のコントラスト合意を報酬ベースとして活用する新しいRLフレームワークである「textit{Co-Reward}」を提案する。
具体的には、各トレーニングサンプル(ラベルなし)に対して同様の質問を構築し、簡単なロールアウト投票によって個々のサロゲートラベルを合成し、各質問ペアのラベルを相互参照して、アナログ入力間の内部推論一貫性を強制することにより報酬を構成する。
直感的には、このような自己監督型報酬形成機構は、学習の難易度を自明な解に高め、入力サンプルの変種を拡大することで安定した推論と改善を促進する。
実証的には、Co-Rewardは複数の推論ベンチマークやLLMシリーズの他のセルフリワードベースラインよりも優れたパフォーマンスを達成し、Llama-3.2-3B-インストラクトでのGT報酬よりも最大$+6.8\%のMATH500の改善で、GTラベルの報酬に到達または超えている。
私たちのコードはhttps://github.com/tmlr-group/Co-Reward.comで公開されています。
関連論文リスト
- From Verifiable Dot to Reward Chain: Harnessing Verifiable Reference-based Rewards for Reinforcement Learning of Open-ended Generation [52.62655622099456]
検証基準ベース報酬(RLVRR)を用いた強化学習を提案する。
最後の答えをチェックする代わりに、RLVRRは高品質な参照(すなわち報酬連鎖)から順序付けられた言語信号を抽出する。
このようにして、RLVRRは報酬を2つの次元に分解する。
論文 参考訳(メタデータ) (2026-01-26T14:39:58Z) - DARC: Decoupled Asymmetric Reasoning Curriculum for LLM Evolution [38.660154251426505]
DARC(Decoupled Asymmetric Reasoning Curriculum)は,自己進化過程を安定化する2段階のフレームワークである。
DARCはモデルに依存しないので、9つの推論ベンチマークと3つのバックボーンモデルで平均10.9ポイントの改善が得られる。
論文 参考訳(メタデータ) (2026-01-20T09:12:27Z) - Rewarding the Journey, Not Just the Destination: A Composite Path and Answer Self-Scoring Reward Mechanism for Test-Time Reinforcement Learning [29.778703252962092]
大規模言語モデル(LLM)の進化のための強力なパラダイムとして強化学習(RL)が登場した。
外部の監督なしに動作する新しいテストタイム報酬機構を開発した。
論文 参考訳(メタデータ) (2025-10-20T07:53:51Z) - Instructions are all you need: Self-supervised Reinforcement Learning for Instruction Following [58.60470643433354]
言語モデルは、現実世界のアプリケーションにとって重要なマルチ制約命令に従うのに苦労することが多い。
本稿では,外部監督に依存しないラベルフリーの自己監督型強化学習フレームワークを提案する。
本稿では,厳密な報酬問題に対処するために,制約分解戦略と効率的な制約ワイドバイナリ分類を導入する。
論文 参考訳(メタデータ) (2025-10-16T08:24:44Z) - CLARity: Reasoning Consistency Alone Can Teach Reinforced Experts [20.606939295163752]
少ないデータ領域における訓練専門家のLSMは困難であり、しばしばMCQ(Multi-choice Question)に依存している。
大規模プロセスリワードモデル(PRM)のような既存の推論を監督するソリューションは、違法に高価である。
小型汎用LLMのみを用いて推論品質を向上させる費用対効果の高いRLフレームワークであるCLARityを提案する。
論文 参考訳(メタデータ) (2025-10-10T11:21:09Z) - Rethinking Reasoning Quality in Large Language Models through Enhanced Chain-of-Thought via RL [19.659532349434418]
強化学習(Reinforcement Learning, RL)は、近年、大規模言語モデルの推論能力を強化する主要なパラダイムとなっている。
しかし、数学やプログラミングのベンチマークで一般的に使われるルールベースの報酬関数は、応答形式と正しさのみを評価する。
本稿では,報酬と有利な信号の両方を再生するプラグイン・アンド・プレイのRL報酬フレームワークであるDynamic Reasoning Efficiency Reward (DRER)を提案する。
論文 参考訳(メタデータ) (2025-09-07T11:52:18Z) - Consistent Paths Lead to Truth: Self-Rewarding Reinforcement Learning for LLM Reasoning [87.7836502955847]
本稿では,Large Language Model (LLM)推論を強化するための,自己回帰型強化学習フレームワークを提案する。
私たちのキーとなる洞察は、正しい応答はモデルの可能性の観点から一貫した軌道パターンを示すことが多いということです。
本稿では,安定度とボラティリティを,頑健なベクトル空間集約戦略を通じて統合する,本質的な報酬機構であるCoVoを紹介する。
論文 参考訳(メタデータ) (2025-06-10T12:40:39Z) - QA-LIGN: Aligning LLMs through Constitutionally Decomposed QA [49.9801383018588]
シンボル報酬の自動分解手法であるQA-LIGNを導入する。
モノリシックスコアを出力するブラックボックス報酬モデルをトレーニングする代わりに、QA-LIGNは原則固有の評価質問を定式化する。
QA-LIGNはより透明性と適応性を提供することを示した。
論文 参考訳(メタデータ) (2025-06-09T18:24:57Z) - Reinforcing Video Reasoning with Focused Thinking [65.85683941058916]
本稿では,集中的思考と深い報酬の粒度で視覚的推論を強化する新しいフレームワークであるTW-GRPOを提案する。
具体的には,高情報密度のトークンを優先するトークン重み付け機構を用いる。
また,シングルチョイスからマルチチョイスQAタスクにシフトすることで,RLトレーニングを再構築する。
論文 参考訳(メタデータ) (2025-05-30T15:42:19Z) - Writing-Zero: Bridge the Gap Between Non-verifiable Tasks and Verifiable Rewards [11.149294285483782]
我々は、検証不可能なタスクと検証可能な報酬のギャップを埋める統一的なRLVRベースのトレーニングパラダイムを提案する。
本稿では,GenRMとBootstrapped Relative Policy Optimization (BRPO)アルゴリズムを提案する。
提案手法は,LLMが微調整を監督せずに堅牢な書込み機能を開発する上で有効である。
論文 参考訳(メタデータ) (2025-05-30T14:34:57Z) - Can Large Reasoning Models Self-Train? [58.953117118687096]
大規模言語モデルのスケールは、人間の監督への依存を減らす方法にますます依存している。
本稿では,自己整合性を利用したオンライン自己学習型強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-05-27T17:16:00Z) - Learning to Reason without External Rewards [100.27210579418562]
RLVR(Reinforcement Learning with Verifiable Rewards)による複雑な推論のための大規模言語モデル(LLM)の訓練は、費用がかかるドメイン固有の監督に依存して効果的であるが制限されている。
内部フィードバックからの強化学習(Reinforcement Learning from Internal Feedback, RLIF)は、LLMが外部の報酬やラベル付きデータなしで本質的な信号から学習できるフレームワークである。
本稿では,モデル自身の信頼度を利用したRLIF手法であるIntuitorについて,その唯一の報奨信号として自己確実性(self-certainty)を提案する。
論文 参考訳(メタデータ) (2025-05-26T07:01:06Z) - RLSR: Reinforcement Learning from Self Reward [0.0]
大規模な言語モデルでは,参照解を使わずに自己判断によって効果的に自己改善できることを示す。
実験により, モデルが真理の答えを得られずに, 信頼性の高い報奨信号を提供できることを示した。
この作業は、自己指向学習を通じて継続的に改善される自律型AIシステムに向けた重要なステップである。
論文 参考訳(メタデータ) (2025-05-12T23:51:04Z) - Self-Consistency Preference Optimization [79.37880123635405]
自己整合性優先最適化(ScPO)を導入する。
ScPOは、教師なしの新たな問題に関して、一貫性のない答えよりも好まれる一貫性のある回答を反復的に訓練する。
ゼブラ論理では、ScPO fine Llamatunes-3 8Bは、Llama-3 70B、Gemma-2 27B、Claude-3 Haikuより優れている。
論文 参考訳(メタデータ) (2024-11-06T18:36:22Z) - Rethinking the Role of Proxy Rewards in Language Model Alignment [39.53237479058083]
逆報酬工学による大規模言語モデルのアライメントにおける代行報酬の役割について検討する。
我々は,金の報酬信号とプロキシのモノトニックな関係を達成し,金の報酬信号を再現することを目指している。
以上の結果から,金の報酬をうまくエミュレートするには,十分な長さの質問に対する応答を生成する必要があることが示唆された。
論文 参考訳(メタデータ) (2024-02-02T11:58:08Z) - Dense Reward for Free in Reinforcement Learning from Human Feedback [64.92448888346125]
我々は報酬モデルが単にスカラー出力よりも多くの情報を含んでいるという事実を活用している。
私たちは、これらの注意重みを使って、完了全体に沿って報酬を再分配します。
経験的に、トレーニングを安定化し、学習速度を加速し、実際は、より良い局所最適性をもたらす可能性があることを示す。
論文 参考訳(メタデータ) (2024-02-01T17:10:35Z) - Beyond Sparse Rewards: Enhancing Reinforcement Learning with Language
Model Critique in Text Generation [29.6763730290473]
強化学習は、言語モデルと人間の嗜好のような区別できない報酬信号とを一致させることができる。
本稿では,中間段階の報酬を生成するために,大規模言語モデルの批判能力を利用する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-14T22:05:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。