論文の概要: Can Large Reasoning Models Self-Train?
- arxiv url: http://arxiv.org/abs/2505.21444v1
- Date: Tue, 27 May 2025 17:16:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.824198
- Title: Can Large Reasoning Models Self-Train?
- Title(参考訳): 大規模推論モデルは自己学習可能か?
- Authors: Sheikh Shafayat, Fahim Tajwar, Ruslan Salakhutdinov, Jeff Schneider, Andrea Zanette,
- Abstract要約: 大規模言語モデルのスケールは、人間の監督への依存を減らす方法にますます依存している。
本稿では,自己整合性を利用したオンライン自己学習型強化学習アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 58.953117118687096
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scaling the performance of large language models (LLMs) increasingly depends on methods that reduce reliance on human supervision. Reinforcement learning from automated verification offers an alternative, but it incurs scalability limitations due to dependency upon human-designed verifiers. Self-training, where the model's own judgment provides the supervisory signal, presents a compelling direction. We propose an online self-training reinforcement learning algorithm that leverages the model's self-consistency to infer correctness signals and train without any ground-truth supervision. We apply the algorithm to challenging mathematical reasoning tasks and show that it quickly reaches performance levels rivaling reinforcement-learning methods trained explicitly on gold-standard answers. Additionally, we analyze inherent limitations of the algorithm, highlighting how the self-generated proxy reward initially correlated with correctness can incentivize reward hacking, where confidently incorrect outputs are favored. Our results illustrate how self-supervised improvement can achieve significant performance gains without external labels, while also revealing its fundamental challenges.
- Abstract(参考訳): 大規模言語モデル(LLM)の性能のスケーリングは、人間の監督への依存を減らす方法にますます依存している。
自動検証からの強化学習は代替手段を提供するが、人間設計の検証に依存するためスケーラビリティの制限が生じる。
自己学習(Self-training)は、モデル自身の判断が監督信号を提供するもので、説得力のある方向を示す。
本稿では,自己整合性を利用したオンライン自己学習型強化学習アルゴリズムを提案する。
本アルゴリズムを数学的推論問題に適用し,ゴールド標準解を明示的に学習した強化学習手法に対抗して,高速に性能レベルに達することを示す。
さらに、アルゴリズム固有の制限を分析し、自己生成されたプロキシ報酬が、当初正しさと相関して、確実に不正なアウトプットが好まれる報酬ハッキングを動機付ける方法を強調した。
この結果から,外部ラベルを使わずに,自己監督型改善が大幅なパフォーマンス向上を達成できることを示すとともに,その根本的な課題を明らかにした。
関連論文リスト
- Trust, But Verify: A Self-Verification Approach to Reinforcement Learning with Verifiable Rewards [67.86091419220816]
大規模言語モデル(LLM)は複雑な推論において非常に有望である。
一般的な問題は表面的な自己回帰であり、モデルが自身の出力をしっかりと検証できない。
本稿では、RISE(Reinforce Reasoning with Self-Verification)という新しいオンラインRLフレームワークについて紹介する。
論文 参考訳(メタデータ) (2025-05-19T17:59:31Z) - Self Rewarding Self Improving [0.0]
我々は,大規模な言語モデルが参照ソリューションを必要とせずに自己判断によって効果的に自己改善できることを実証した。
カウントダウンパズルとMIT統合ビー問題に関する実験は、モデルが真理の答えなしに信頼できる報酬信号を提供できることを示している。
論文 参考訳(メタデータ) (2025-05-12T23:51:04Z) - Self-rewarding correction for mathematical reasoning [19.480508580498103]
我々は,大規模言語モデル(LLM)の自己回帰的推論について研究する。
LLMは、ステップバイステップの推論を同時に生成し、外部からのフィードバックを伴わない推論時間における出力の正しさを評価する。
本稿では,自己生成データのみを用いて自己回帰推論モデルを構築するための2段階のアルゴリズムフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-26T23:01:16Z) - ReVISE: Learning to Refine at Test-Time via Intrinsic Self-Verification [53.80183105328448]
Refine via Intrinsic Self-Verification (ReVISE)は、LLMが自己検証を通じてアウトプットを自己修正できる効率的なフレームワークである。
様々な推論タスクに関する実験により、ReVISEは効率的な自己補正を実現し、推論性能を大幅に向上することを示した。
論文 参考訳(メタデータ) (2025-02-20T13:50:02Z) - Self-Improvement in Language Models: The Sharpening Mechanism [70.9248553790022]
我々は、レンズを通して自己改善の能力について、新たな視点を提供する。
言語モデルは、正しい応答を生成する場合よりも、応答品質の検証が優れているという観察に感銘を受けて、後学習において、モデル自体を検証対象として、自己改善を形式化する。
SFTとRLHFに基づく自己改善アルゴリズムの2つの自然ファミリーを解析する。
論文 参考訳(メタデータ) (2024-12-02T20:24:17Z) - Training Language Models to Self-Correct via Reinforcement Learning [98.35197671595343]
自己補正は、現代の大規模言語モデル(LLM)では、ほとんど効果がないことが判明した。
完全自己生成データを用いたLLMの自己補正能力を大幅に向上させるマルチターンオンライン強化学習手法であるSCoReを開発した。
SCoReは最先端の自己補正性能を実現し,MATHとHumanEvalでそれぞれ15.6%,9.1%向上した。
論文 参考訳(メタデータ) (2024-09-19T17:16:21Z) - Augmenting Unsupervised Reinforcement Learning with Self-Reference [63.68018737038331]
人間は、新しいタスクを学ぶ際に、過去の経験を明確に表現する能力を持っている。
本稿では,歴史情報を活用するためのアドオンモジュールとして,自己参照(SR)アプローチを提案する。
提案手法は,非教師付き強化学習ベンチマークにおけるIQM(Interquartile Mean)性能と最適ギャップ削減の両面から,最先端の成果を実現する。
論文 参考訳(メタデータ) (2023-11-16T09:07:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。