論文の概要: RESTRAIN: From Spurious Votes to Signals -- Self-Driven RL with Self-Penalization
- arxiv url: http://arxiv.org/abs/2510.02172v1
- Date: Thu, 02 Oct 2025 16:24:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:21.207467
- Title: RESTRAIN: From Spurious Votes to Signals -- Self-Driven RL with Self-Penalization
- Title(参考訳): RESTRAIN: 清潔な投票からシグナルへ - 自己組織化を備えた自己駆動型RL
- Authors: Zhaoning Yu, Will Su, Leitian Tao, Haozhu Wang, Aashu Singh, Hanchao Yu, Jianyu Wang, Hongyang Gao, Weizhe Yuan, Jason Weston, Ping Yu, Jing Xu,
- Abstract要約: 私たちは、ゴールドラベルの欠如を有用な学習信号に変換する自己金型RLフレームワークであるRESTRAINを紹介します。
多数決を急ぐために過剰にコミットする代わりに、RESTRAINは、モデルの全回答分布からのシグナルを利用する。
挑戦的な推論ベンチマークでは、RESTRAINはラベルのないデータのみを使用して大きなゲインを提供する。
- 参考スコア(独自算出の注目度): 52.01526898310723
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning with human-annotated data has boosted chain-of-thought reasoning in large reasoning models, but these gains come at high costs in labeled data while faltering on harder tasks. A natural next step is experience-driven learning, where models improve without curated labels by adapting to unlabeled data. We introduce RESTRAIN (REinforcement learning with Self-restraint), a self-penalizing RL framework that converts the absence of gold labels into a useful learning signal. Instead of overcommitting to spurious majority votes, RESTRAIN exploits signals from the model's entire answer distribution: penalizing overconfident rollouts and low-consistency examples while preserving promising reasoning chains. The self-penalization mechanism integrates seamlessly into policy optimization methods such as GRPO, enabling continual self-improvement without supervision. On challenging reasoning benchmarks, RESTRAIN delivers large gains using only unlabeled data. With Qwen3-4B-Base and OctoThinker Hybrid-8B-Base, it improves Pass@1 by up to +140.7 percent on AIME25, +36.2 percent on MMLU_STEM, and +19.6 percent on GPQA-Diamond, nearly matching gold-label training while using no gold labels. These results demonstrate that RESTRAIN establishes a scalable path toward stronger reasoning without gold labels.
- Abstract(参考訳): 人間の注釈付きデータによる強化学習は、大きな推論モデルにおいてチェーン・オブ・シークレットの推論を後押ししてきたが、これらの増加は、より難しいタスクに悩ましながらラベル付きデータのコストが高い。
自然な次のステップは経験駆動学習(experience-driven learning)だ。
このフレームワークは,ゴールドラベルの欠如を有用な学習信号に変換するものだ。
RESTRAINは、過度な多数決を行う代わりに、モデル全体の回答分布からのシグナルを利用する。
自己金化機構はGRPOのようなポリシー最適化手法とシームレスに統合され、監督なしに継続的な自己改善を可能にする。
挑戦的な推論ベンチマークでは、RESTRAINはラベルのないデータのみを使用して大きなゲインを提供する。
Qwen3-4BベースとOctoThinker Hybrid-8Bベースでは、AIME25ではPass@1が+140.7%、MMLU_STEMでは+36.2%、GPQA-ダイアモンドでは+19.6%改善され、ゴールドラベルのトレーニングとほぼ一致する。
これらの結果は、RESTRAINがゴールドラベルなしでより強力な推論に向かってスケーラブルな道を確立していることを示している。
関連論文リスト
- Evolving Language Models without Labels: Majority Drives Selection, Novelty Promotes Variation [74.75716642635484]
大規模言語モデル(LLM)は、検証可能な報酬(RLVR)からの強化学習でますます訓練されている
本稿では,ラベルのないフレームワークEVOL-RLを提案する。
EVOL-RLは、多数派のみのベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2025-09-18T17:50:04Z) - Co-Reward: Self-supervised Reinforcement Learning for Large Language Model Reasoning via Contrastive Agreement [29.474742920809565]
検証可能な報奨(RLVR)による強化学習は、大規模言語モデル(LLM)の推論能力の向上を約束している。
我々は,意味的類似質問間のコントラスト合意を報酬ベースとして活用する新しいRLフレームワークであるtextitCo-Rewardを提案する。
論文 参考訳(メタデータ) (2025-08-01T08:09:14Z) - One Token to Fool LLM-as-a-Judge [52.45386385722788]
大規模言語モデル(LLM)は、自動化された審査員としてますます信頼され、評価を支援し、他のモデルを訓練するための報酬信号を提供する。
生成的報酬モデルは、ハッキングに対して体系的に影響を受けやすい。
論文 参考訳(メタデータ) (2025-07-11T17:55:22Z) - The Achilles Heel of AI: Fundamentals of Risk-Aware Training Data for High-Consequence Models [0.0]
高頻度ドメインのAIシステムは、厳密なリソース制約の下で運用しながら、稀で高インパクトなイベントを検出する必要がある。
ラベルのボリュームを情報的価値よりも優先する従来のアノテーション戦略は冗長性とノイズをもたらす。
本稿では、ラベルの多様性、モデル誘導選択、限界ユーティリティベースの停止を強調するトレーニングデータ戦略であるスマートサイズについて紹介する。
論文 参考訳(メタデータ) (2025-05-20T22:57:35Z) - Reward Modeling with Weak Supervision for Language Models [12.599789817157188]
この研究は、RLHFデータセットを拡張し、報酬モデルのパフォーマンスを向上させる戦略として、弱い監視を導入する。
RLHFデータセットを解析して不正確な応答を識別することにより、簡単なラベル付け関数を作成し、ラベルモデルを弱いラベル付きデータに校正した。
評価の結果,報酬モデルの性能を向上することで,弱い監視がより小さなデータセットに大きく貢献するが,その効果はより大きくラベル付けされたデータセットで減少することがわかった。
論文 参考訳(メタデータ) (2024-10-28T09:37:58Z) - Lazy Layers to Make Fine-Tuned Diffusion Models More Traceable [70.77600345240867]
新たな任意の任意配置(AIAO)戦略は、微調整による除去に耐性を持たせる。
拡散モデルの入力/出力空間のバックドアを設計する既存の手法とは異なり,本手法では,サンプルサブパスの特徴空間にバックドアを埋め込む方法を提案する。
MS-COCO,AFHQ,LSUN,CUB-200,DreamBoothの各データセットに関する実証研究により,AIAOの堅牢性が確認された。
論文 参考訳(メタデータ) (2024-05-01T12:03:39Z) - How to Leverage Unlabeled Data in Offline Reinforcement Learning [125.72601809192365]
オフライン強化学習(RL)は、静的データセットから制御ポリシーを学ぶことができるが、標準のRLメソッドと同様に、移行毎に報酬アノテーションを必要とする。
1つの自然な解決策は、ラベル付けされたデータから報酬関数を学習し、ラベル付けされていないデータをラベル付けすることである。
ラベルのないデータに単純に報酬をゼロにする方が、効果的なデータ共有につながる。
論文 参考訳(メタデータ) (2022-02-03T18:04:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。