Fugu-MT 論文翻訳(概要): Co-rewarding: Stable Self-supervised RL for Eliciting Reasoning in Large Language Models

論文の概要: Co-rewarding: Stable Self-supervised RL for Eliciting Reasoning in Large Language Models

arxiv url: http://arxiv.org/abs/2508.00410v2
Date: Fri, 03 Oct 2025 12:15:38 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-06 14:21:29.833336
Title: Co-rewarding: Stable Self-supervised RL for Eliciting Reasoning in Large Language Models
Title（参考訳）: 共振器:大規模言語モデルにおける共振器の回避のための安定自己教師付きRL
Authors: Zizhuo Zhang, Jianing Zhu, Xinmu Ge, Zihua Zhao, Zhanke Zhou, Xuan Li, Xiao Feng, Jiangchao Yao, Bo Han,
Abstract要約: 検証可能な報酬(RLVR)を用いた強化学習は,大規模言語モデル(LLM)の推論能力の向上に有効である近年の自己回帰法は LLM の推論能力を解き放つためのラベルフリーな代替手段について検討している。我々は、他の視点から補完的な監督を求めることにより、トレーニングの安定性を向上させる新しい自己監督型RLフレームワークであるtextitCo-rewardingを提案する。
参考スコア（独自算出の注目度）: 56.055015597319674
License: http://creativecommons.org/licenses/by/4.0/
Abstract: While reinforcement learning with verifiable rewards (RLVR) is effective to improve the reasoning ability of large language models (LLMs), its reliance on human-annotated labels leads to the scaling up dilemma, especially for complex tasks. Recent self-rewarding methods investigate a label-free alternative to unlock the reasoning capabilities of LLMs, yet they frequently encounter the non-negligible training collapse issue, as the single-view supervision signal easily forms the self-consistent illusion, yielding the reward hacking. Inspired by the success of self-supervised learning, we propose \textit{Co-rewarding}, a novel self-supervised RL framework that improves training stability by seeking complementary supervision from another views. Specifically, we instantiate Co-rewarding in two ways: (1) \textit{Co-rewarding-I} is a data-side instantiation that derives reward signals from contrastive agreement across semantically analogous questions; and (2) \textit{Co-rewarding-II} is a model-side instantiation that maintains a slowly-updated reference teacher with pseudo labels to realize self-distillation. Intuitively, such instantiations introduce different levels of discrepancy to increase the difficulty of training collapse on trivial reasoning solutions. Empirically, Co-rewarding exhibits stable training across various setups, and outperforms other self-rewarding baselines by $+3.31\%$ improvements on average on multiple mathematical reasoning benchmarks, especially by $+7.49\%$ on Llama-3.2-3B-Instruct. Notably, Co-rewarding reaches or even surpasses RLVR with ground-truth (GT) label in several cases, such as a Pass@$1$ of $94.01\%$ on GSM8K with Qwen3-8B-Base remarkably higher than GT. Our code is publicly available at https://github.com/tmlr-group/Co-rewarding.
Abstract（参考訳）: 検証可能な報酬(RLVR)による強化学習は、大規模言語モデル(LLM)の推論能力を向上させるのに有効であるが、人間による注釈付きラベルへの依存は、特に複雑なタスクにおいてジレンマのスケールアップにつながる。近年の自己回帰法では,LSMの推論能力を解き放つためのラベルフリーな代替手段が検討されているが,単一視点の監視信号が容易に自己一貫性の錯覚を形成して報酬のハッキングをもたらすため,非無視的なトレーニング崩壊問題に頻繁に遭遇する。自己教師型学習の成功に触発されて,他の視点から補完的な指導を求めることにより,学習安定性を向上させる新しい自己教師型RLフレームワークである‘textit{Co-rewarding’を提案する。具体的には,(1) \textit{Co-rewarding-I} は意味論的に類似した質問のコントラスト合意から報酬信号を導出するデータ側インスタンス化であり,(2) \textit{Co-rewarding-II} は,疑似ラベルを持つゆっくりと更新された参照教師の自己蒸留を実現するモデル側インスタンス化である。直感的には、そのようなインスタンス化は、自明な推論ソリューション上でのトレーニング崩壊の難しさを高めるために、異なるレベルの相違をもたらす。実証的には、コリワーディングは様々な設定で安定したトレーニングを行い、他の自己回帰ベースラインを、複数の数学的推論ベンチマークで平均$+3.31.%、特にLlama-3.2-3B-インストラクトで$+7.49.%改善する。例えば、Qwen3-8B-BaseのGSM8K上のPass@$1$$9,4.01\%$は、GTよりも著しく高い。私たちのコードはhttps://github.com/tmlr-group/co-rewarding.comで公開されています。

関連論文リスト

Consistent Paths Lead to Truth: Self-Rewarding Reinforcement Learning for LLM Reasoning [87.7836502955847]
本稿では,Large Language Model (LLM)推論を強化するための,自己回帰型強化学習フレームワークを提案する。私たちのキーとなる洞察は、正しい応答はモデルの可能性の観点から一貫した軌道パターンを示すことが多いということです。本稿では,安定度とボラティリティを,頑健なベクトル空間集約戦略を通じて統合する,本質的な報酬機構であるCoVoを紹介する。
論文参考訳（メタデータ） (2025-06-10T12:40:39Z)
QA-LIGN: Aligning LLMs through Constitutionally Decomposed QA [49.9801383018588]
シンボル報酬の自動分解手法であるQA-LIGNを導入する。モノリシックスコアを出力するブラックボックス報酬モデルをトレーニングする代わりに、QA-LIGNは原則固有の評価質問を定式化する。 QA-LIGNはより透明性と適応性を提供することを示した。
論文参考訳（メタデータ） (2025-06-09T18:24:57Z)
Reinforcing Video Reasoning with Focused Thinking [65.85683941058916]
本稿では,集中的思考と深い報酬の粒度で視覚的推論を強化する新しいフレームワークであるTW-GRPOを提案する。具体的には,高情報密度のトークンを優先するトークン重み付け機構を用いる。また,シングルチョイスからマルチチョイスQAタスクにシフトすることで,RLトレーニングを再構築する。
論文参考訳（メタデータ） (2025-05-30T15:42:19Z)
Writing-Zero: Bridge the Gap Between Non-verifiable Tasks and Verifiable Rewards [11.149294285483782]
我々は、検証不可能なタスクと検証可能な報酬のギャップを埋める統一的なRLVRベースのトレーニングパラダイムを提案する。本稿では,GenRMとBootstrapped Relative Policy Optimization (BRPO)アルゴリズムを提案する。提案手法は,LLMが微調整を監督せずに堅牢な書込み機能を開発する上で有効である。
論文参考訳（メタデータ） (2025-05-30T14:34:57Z)
Can Large Reasoning Models Self-Train? [58.953117118687096]
大規模言語モデルのスケールは、人間の監督への依存を減らす方法にますます依存している。本稿では,自己整合性を利用したオンライン自己学習型強化学習アルゴリズムを提案する。
論文参考訳（メタデータ） (2025-05-27T17:16:00Z)
Learning to Reason without External Rewards [100.27210579418562]
RLVR(Reinforcement Learning with Verifiable Rewards)による複雑な推論のための大規模言語モデル(LLM)の訓練は、費用がかかるドメイン固有の監督に依存して効果的であるが制限されている。内部フィードバックからの強化学習(Reinforcement Learning from Internal Feedback, RLIF)は、LLMが外部の報酬やラベル付きデータなしで本質的な信号から学習できるフレームワークである。本稿では,モデル自身の信頼度を利用したRLIF手法であるIntuitorについて,その唯一の報奨信号として自己確実性(self-certainty)を提案する。
論文参考訳（メタデータ） (2025-05-26T07:01:06Z)
RLSR: Reinforcement Learning from Self Reward [0.0]
大規模な言語モデルでは,参照解を使わずに自己判断によって効果的に自己改善できることを示す。実験により, モデルが真理の答えを得られずに, 信頼性の高い報奨信号を提供できることを示した。この作業は、自己指向学習を通じて継続的に改善される自律型AIシステムに向けた重要なステップである。
論文参考訳（メタデータ） (2025-05-12T23:51:04Z)
Rethinking the Role of Proxy Rewards in Language Model Alignment [39.53237479058083]
逆報酬工学による大規模言語モデルのアライメントにおける代行報酬の役割について検討する。我々は,金の報酬信号とプロキシのモノトニックな関係を達成し,金の報酬信号を再現することを目指している。以上の結果から,金の報酬をうまくエミュレートするには,十分な長さの質問に対する応答を生成する必要があることが示唆された。
論文参考訳（メタデータ） (2024-02-02T11:58:08Z)
Dense Reward for Free in Reinforcement Learning from Human Feedback [64.92448888346125]
我々は報酬モデルが単にスカラー出力よりも多くの情報を含んでいるという事実を活用している。私たちは、これらの注意重みを使って、完了全体に沿って報酬を再分配します。経験的に、トレーニングを安定化し、学習速度を加速し、実際は、より良い局所最適性をもたらす可能性があることを示す。
論文参考訳（メタデータ） (2024-02-01T17:10:35Z)
Beyond Sparse Rewards: Enhancing Reinforcement Learning with Language Model Critique in Text Generation [29.6763730290473]
強化学習は、言語モデルと人間の嗜好のような区別できない報酬信号とを一致させることができる。本稿では,中間段階の報酬を生成するために,大規模言語モデルの批判能力を利用する新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-01-14T22:05:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。