論文の概要: REA-RL: Reflection-Aware Online Reinforcement Learning for Efficient Large Reasoning Models
- arxiv url: http://arxiv.org/abs/2505.19862v1
- Date: Mon, 26 May 2025 11:47:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.396227
- Title: REA-RL: Reflection-Aware Online Reinforcement Learning for Efficient Large Reasoning Models
- Title(参考訳): REA-RL: 効率的な大規模推論モデルのための反射型オンライン強化学習
- Authors: Hexuan Deng, Wenxiang Jiao, Xuebo Liu, Jun Rao, Min Zhang,
- Abstract要約: 大規模推論モデル(LRM)は複雑なタスクにおいて強いパフォーマンスを示すが、過度に考え直すという課題に直面していることが多い。
既存のアプローチでは、LRMが学習するための短い推論応答を合成するが、時間を要するデータ生成とフィルタリングプロセスのため、オンライン利用には非効率である。
本稿では,オンライントレーニングにおいて,並列サンプリングとシーケンシャルリビジョンを併用して,効率的なスケーリングを実現するための小さなリフレクションモデルであるREA-RLを提案する。
- 参考スコア(独自算出の注目度): 33.05490585699939
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Reasoning Models (LRMs) demonstrate strong performance in complex tasks but often face the challenge of overthinking, leading to substantially high inference costs. Existing approaches synthesize shorter reasoning responses for LRMs to learn, but are inefficient for online usage due to the time-consuming data generation and filtering processes. Meanwhile, online reinforcement learning mainly adopts a length reward to encourage short reasoning responses, but tends to lose the reflection ability and harm the performance. To address these issues, we propose REA-RL, which introduces a small reflection model for efficient scaling in online training, offering both parallel sampling and sequential revision. Besides, a reflection reward is designed to further prevent LRMs from favoring short yet non-reflective responses. Experiments show that both methods maintain or enhance performance while significantly improving inference efficiency. Their combination achieves a good balance between performance and efficiency, reducing inference costs by 35% without compromising performance. Further analysis demonstrates that our methods are effective by maintaining reflection frequency for hard problems while appropriately reducing it for simpler ones without losing reflection ability. Codes are available at https://github.com/hexuandeng/REA-RL.
- Abstract(参考訳): 大規模推論モデル(LRM)は複雑なタスクにおいて高いパフォーマンスを示すが、過度に考え直すという課題に直面し、推論コストが著しく高くなる。
既存のアプローチでは、LRMが学習するための短い推論応答を合成するが、時間を要するデータ生成とフィルタリングプロセスのため、オンライン利用には非効率である。
一方、オンライン強化学習は主に短い推論応答を促すために長さ報酬を採用するが、反射能力を失い、パフォーマンスを損なう傾向にある。
これらの課題に対処するため、オンライントレーニングにおける効率的なスケーリングのための小さなリフレクションモデルを導入し、並列サンプリングとシーケンシャルリビジョンの両方を提供するREA-RLを提案する。
さらに反射報酬は、LRMが短いが反射しない反応を好まないよう設計されている。
実験により、どちらの手法も性能を維持または向上し、推論効率を大幅に改善することが示された。
それらの組み合わせは性能と効率のバランスが良く、性能を損なうことなく推論コストを35%削減します。
さらに,本手法は, 反射周波数をハード問題に維持し, 反射能を損なうことなく, より単純な問題に適切に還元することで有効であることを示す。
コードはhttps://github.com/hexuandeng/REA-RLで公開されている。
関連論文リスト
- AceReason-Nemotron: Advancing Math and Code Reasoning through Reinforcement Learning [50.02117478165099]
大規模強化学習は, 強大・中小モデルの推論能力を大幅に向上させることができることを示す。
まずは算数のみのプロンプト、次にコードのみのプロンプトのトレーニングを行う。
論文 参考訳(メタデータ) (2025-05-22T08:50:47Z) - Learn to Reason Efficiently with Adaptive Length-based Reward Shaping [23.626013831589212]
大規模共振モデル(LRM)は、強化学習(RL)を通して複雑な問題を解く際、顕著な能力を示した。
本稿では,長さに基づく報酬形成のレンズを用いて,様々な効率的な推論手法を定式化する統一フレームワークを提案する。
DeepSeek-R1-Distill-Qwen-1.5B、DeepSeek-R1-Distill-Qwen-7B、DeepSeek-R1-Distill-Qwen-32Bの実験により、本手法は推論性能と応答長の効率を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2025-05-21T15:03:26Z) - Trust, But Verify: A Self-Verification Approach to Reinforcement Learning with Verifiable Rewards [67.86091419220816]
大規模言語モデル(LLM)は複雑な推論において非常に有望である。
一般的な問題は表面的な自己回帰であり、モデルが自身の出力をしっかりと検証できない。
本稿では、RISE(Reinforce Reasoning with Self-Verification)という新しいオンラインRLフレームワークについて紹介する。
論文 参考訳(メタデータ) (2025-05-19T17:59:31Z) - Efficient RL Training for Reasoning Models via Length-Aware Optimization [108.88337262486819]
大規模推論モデルの強化学習プロセスに直接統合された3つの重要な報酬設計を提案する。
本手法は, 性能を維持・改善しながら, 応答長を著しく低減する。
論文 参考訳(メタデータ) (2025-05-18T07:46:43Z) - Exploring Data Scaling Trends and Effects in Reinforcement Learning from Human Feedback [12.7099489697479]
本稿では、推論タスク検証器(RTV)と生成報酬モデル(GenRM)を組み合わせたハイブリッド報酬システムを導入し、報酬ハッキングを緩和する。
また,応答の多様性を維持し,学習効率を高めるために,新しいプロンプト選択手法であるPre-PPOを提案する。
論文 参考訳(メタデータ) (2025-03-28T08:26:41Z) - GTR: Guided Thought Reinforcement Prevents Thought Collapse in RL-based VLM Agent Training [62.536191233049614]
検証結果報酬(RLVR)を用いた強化学習は、大規模言語モデル(LLM)におけるチェーン・オブ・ソート(CoT)推論を効果的にスケールアップした。
本研究は、24点やALFWorldの具体化タスクなど、複雑なカードゲームに関する広範な実験を通じてこの問題を調査する。
報酬が行動結果にのみ基づく場合、RLはVLMにおけるCoT推論の動機付けに失敗し、代わりに思考崩壊と呼ばれる現象が生じる。
論文 参考訳(メタデータ) (2025-03-11T15:17:02Z) - Reusing Embeddings: Reproducible Reward Model Research in Large Language Model Alignment without GPUs [58.18140409409302]
大規模言語モデル (LLM) は強化学習 (RL) を通じて構造化タスクに大きく進歩した。
チャットボットやコンテンツ生成といった幅広い分野にRLを適用することは、ユニークな課題だ。
埋め込み型報酬モデルを用いた既存の報酬モデルアンサンブル研究の再現事例について述べる。
論文 参考訳(メタデータ) (2025-02-04T19:37:35Z) - Efficient Diffusion as Low Light Enhancer [63.789138528062225]
RATR(Reflectance-Aware Trajectory Refinement)は、イメージの反射成分を用いて教師の軌跡を洗練するための、シンプルで効果的なモジュールである。
textbfReDDiT (textbfDistilled textbfTrajectory) は低照度画像強調(LLIE)に適した効率的で柔軟な蒸留フレームワークである。
論文 参考訳(メタデータ) (2024-10-16T08:07:18Z) - Parameter Efficient Reinforcement Learning from Human Feedback [27.687265760622918]
人間のフィードバックからの強化学習(RLHF)は、事前訓練された大言語と視覚言語モデルと人間の嗜好を効果的に一致させる。
微調整の計算負担を軽減するため、LoRAのような効率的な手法が導入された。
PE-RLHFセットアップを、要約、無害/重厚な応答生成、UI自動化、視覚的質問応答にまたがる6つの多様なデータセットでベンチマークする。
論文 参考訳(メタデータ) (2024-03-15T21:43:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。