論文の概要: RoiRL: Efficient, Self-Supervised Reasoning with Offline Iterative Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2510.02892v1
- Date: Fri, 03 Oct 2025 10:59:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.353516
- Title: RoiRL: Efficient, Self-Supervised Reasoning with Offline Iterative Reinforcement Learning
- Title(参考訳): RoiRL: オフライン反復強化学習による効率的な自己監督型推論
- Authors: Aleksei Arzhantsev, Otmane Sakhi, Flavian Vasile,
- Abstract要約: 強化学習は、大規模言語モデル(LLM)における推論の改善の中心である
本稿では,RoiRL: オフライン反復強化学習による推論を提案する。
我々は,RoiRLの列車の速度が2.5倍に向上し,推理ベンチマークにおいてTTRLを一貫して上回っていることを示す。
- 参考スコア(独自算出の注目度): 4.311472216447055
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) is central to improving reasoning in large language models (LLMs) but typically requires ground-truth rewards. Test-Time Reinforcement Learning (TTRL) removes this need by using majority-vote rewards, but relies on heavy online RL and incurs substantial computational cost. We propose RoiRL: Reasoning with offline iterative Reinforcement Learning, a family of lightweight offline learning alternatives that can target the same regularized optimal policies. Unlike TTRL, RoiRL eliminates the need to maintain a reference model and instead optimizes weighted log-likelihood objectives, enabling stable training with significantly lower memory and compute requirements. Experimental results show that RoiRL trains to 2.5x faster and consistently outperforms TTRL on reasoning benchmarks, establishing a scalable path to self-improving LLMs without labels.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、大規模言語モデル(LLM)における推論の改善の中心であるが、典型的には地道的な報酬を必要とする。
TTRL(Test-Time Reinforcement Learning)は、多数決の報酬を使ってこのニーズを取り除くが、重いオンラインRLに依存し、かなりの計算コストを発生させる。
オフライン反復強化学習(LoiRL:Reasoning with offline repeaterative Reinforcement Learning)は、同じ規則化された最適ポリシーをターゲットとする、軽量なオフライン学習代替手段のファミリーである。
TTRLとは異なり、RoiRLは参照モデルを維持する必要をなくし、代わりに重み付けされたログのような目的を最適化する。
実験の結果,RoiRLの列車速度は2.5倍に向上し,推理ベンチマークではTTRLより一貫して優れており,ラベル無しで自己改善 LLM を実現するためのスケーラブルな経路が確立された。
関連論文リスト
- SuperRL: Reinforcement Learning with Supervision to Boost Language Model Reasoning [42.54530036364341]
まばらな報酬のある環境では、強化学習は軌道のサンプリングに苦労する。
我々は、RLとSFTを代替する統合トレーニングフレームワークであるSuperRLを紹介する。
実験により、スーパーRLは、サンプル効率の向上、一般化の強化、スパース報酬下での堅牢性の向上により、バニラRLを超えることが示された。
論文 参考訳(メタデータ) (2025-06-01T17:43:54Z) - SeRL: Self-Play Reinforcement Learning for Large Language Models with Limited Data [65.56911325914582]
限られた初期データを用いたLarge Language Models (LLM) トレーニングのブートストラップとして,SeRL(Se-play Reinforcement Learning)を提案する。
提案したSeRLは、その結果よりも優れ、検証可能な報酬を持つ高品質なデータと同等の性能が得られる。
論文 参考訳(メタデータ) (2025-05-25T13:28:04Z) - AceReason-Nemotron: Advancing Math and Code Reasoning through Reinforcement Learning [50.02117478165099]
大規模強化学習は, 強大・中小モデルの推論能力を大幅に向上させることができることを示す。
まずは算数のみのプロンプト、次にコードのみのプロンプトのトレーニングを行う。
論文 参考訳(メタデータ) (2025-05-22T08:50:47Z) - TTRL: Test-Time Reinforcement Learning [31.351608137721875]
TTRL(Test-Time Reinforcement Learning)は、ラベルのないデータに基づいて大規模言語モデル(LLM)を訓練する新しい手法である。
実験の結果,TTRLは様々なタスクやモデルに対して一貫して性能を向上することがわかった。
論文 参考訳(メタデータ) (2025-04-22T17:59:56Z) - Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model? [67.30809748319486]
RLVR(Reinforcement Learning with Verifiable Rewards)は近年,大規模言語モデル(LLM)の推論性能の向上に成功している。
本研究はRLVRの現状を批判的に考察する。
現在のトレーニング設定では、根本的な新しい推論パターンが生まれていないことが分かりました。
論文 参考訳(メタデータ) (2025-04-18T17:59:56Z) - Unsupervised-to-Online Reinforcement Learning [59.910638327123394]
Unsupervised-to-online RL (U2O RL) は、ドメイン固有の教師なしオフラインRLを非教師なしオフラインRLに置き換える。
U2O RLは、複数の下流タスクのために訓練済みのモデルを再利用できるだけでなく、より良い表現も学べる。
U2O RLは、従来のオフライン-オフラインのRLアプローチにマッチしたり、さらに性能が優れていることを実証的に実証する。
論文 参考訳(メタデータ) (2024-08-27T05:23:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。