論文の概要: Exploring the Potential of Offline RL for Reasoning in LLMs: A Preliminary Study
- arxiv url: http://arxiv.org/abs/2505.02142v1
- Date: Sun, 04 May 2025 15:09:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 18:49:35.447484
- Title: Exploring the Potential of Offline RL for Reasoning in LLMs: A Preliminary Study
- Title(参考訳): LLMにおけるオフラインRLの可能性を探る:予備的検討
- Authors: Xiaoyu Tian, Sitong Zhao, Haotian Wang, Shuaiting Chen, Yiping Peng, Yunjie Ji, Han Zhao, Xiangang Li,
- Abstract要約: 大規模言語モデル(LLM)による長文推論は、かなりの計算コストと複雑さをもたらす。
本研究では,オフラインRL法,特に直接選好最適化(DPO)の有効性について検討する。
実験により、これらの単純なオフラインRL法はモデル性能を大幅に改善し、平均3.3%の強化が達成された。
- 参考スコア(独自算出の注目度): 16.441081996257576
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite significant advances in long-context reasoning by large language models (LLMs), primarily through Online Reinforcement Learning (RL) methods, these approaches incur substantial computational costs and complexity. In contrast, simpler and more economical Offline RL methods remain underexplored. To address this gap, we investigate the effectiveness of Offline RL methods, specifically Direct Preference Optimization (DPO) and its length-desensitized variant LD-DPO, in enhancing the reasoning capabilities of LLMs. Extensive experiments across multiple reasoning benchmarks demonstrate that these simpler Offline RL methods substantially improve model performance, achieving an average enhancement of 3.3\%, with a particularly notable increase of 10.1\% on the challenging Arena-Hard benchmark. Furthermore, we analyze DPO's sensitivity to output length, emphasizing that increasing reasoning length should align with semantic richness, as indiscriminate lengthening may adversely affect model performance. We provide comprehensive descriptions of our data processing and training methodologies, offering empirical evidence and practical insights for developing more cost-effective Offline RL approaches.
- Abstract(参考訳): 大規模言語モデル(LLM)による長文推論は、主にオンライン強化学習(RL)手法によって大幅に進歩したが、これらの手法は相当な計算コストと複雑さを生んでいる。
対照的に、よりシンプルで経済的なオフラインRL法はいまだ研究されていない。
このギャップに対処するために,オフラインRL法,特にDPO(Direct Preference Optimization)とその長さ依存型LD-DPO(LD-DPO)の有効性を検討した。
複数の推論ベンチマークにわたる大規模な実験により、これらの単純なオフラインRL法はモデル性能を大幅に改善し、3.3\%の平均的な向上を実現し、特にアレナ・ハードのベンチマークでは10.1\%が顕著に増加した。
さらに,DPOの出力長に対する感度を解析し,推理長の増大は意味豊かさと一致すべきであることを強調した。
我々はデータ処理とトレーニングの方法論を包括的に記述し、よりコスト効率の良いオフラインRLアプローチを開発するための実証的な証拠と実践的な洞察を提供する。
関連論文リスト
- Enhancing LLM Reasoning with Iterative DPO: A Comprehensive Empirical Investigation [29.579349371114702]
DPO(Direct Preference Optimization)は、大規模言語モデル(LLM)のための強化学習(RL)に代わる費用効率の良い代替手段である。
粗いフィルタ付き1ラウンドのDPOが数学的推論性能を大幅に向上させることを示す。
単純な検証可能な報奨により,計算オーバーヘッドを大幅に低減したRLレベルの性能を実現する。
論文 参考訳(メタデータ) (2025-03-17T06:28:25Z) - Yes, Q-learning Helps Offline In-Context RL [69.26691452160505]
RL目標の最適化は,広く確立されたアルゴリズム蒸留(AD)ベースラインと比較して,平均で約40%向上することを示す。
また、オフラインのRLベースの手法は、オフラインのシナリオに特化して設計されていないオンラインアプローチよりも優れていることも明らかにした。
論文 参考訳(メタデータ) (2025-02-24T21:29:06Z) - Improving Multi-Step Reasoning Abilities of Large Language Models with Direct Advantage Policy Optimization [22.67700436936984]
ステップレベルのオフライン強化学習アルゴリズムであるDAPO(Direct Advantage Policy Optimization)を導入する。
DAPOは、各ステップにおける推論精度を予測するために批判機能を使用し、それによって高密度信号を生成して生成戦略を洗練させる。
その結果,DAPO は SFT モデルと RL モデルの両方の数学的・コード的能力を効果的に向上し,DAPO の有効性を示すことができた。
論文 参考訳(メタデータ) (2024-12-24T08:39:35Z) - Diffusion-Based Offline RL for Improved Decision-Making in Augmented ARC Task [10.046325073900297]
SOLAR(Abstraction and Reasoning)のための拡張オフラインRLデータセットを提案する。
SOLARは、十分な経験データを提供することで、オフラインのRLメソッドの適用を可能にする。
本実験は, 簡単なARCタスクにおけるオフラインRL手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-10-15T06:48:27Z) - Pessimistic Model Selection for Offline Deep Reinforcement Learning [56.282483586473816]
深層強化学習(DRL)は多くのアプリケーションにおいてシーケンシャルな意思決定問題を解決する大きな可能性を示している。
主要な障壁の1つは、DRLが学んだ政策の一般化性の低下につながる過度に適合する問題である。
理論的保証のあるオフラインDRLに対する悲観的モデル選択(PMS)手法を提案する。
論文 参考訳(メタデータ) (2021-11-29T06:29:49Z) - Behavioral Priors and Dynamics Models: Improving Performance and Domain
Transfer in Offline RL [82.93243616342275]
適応行動優先型オフラインモデルに基づくRL(Adaptive Behavioral Priors:MABE)を導入する。
MABEは、ドメイン内の一般化をサポートする動的モデルと、ドメイン間の一般化をサポートする振る舞いの事前が相補的であることの発見に基づいている。
クロスドメインの一般化を必要とする実験では、MABEが先行手法より優れていることが判明した。
論文 参考訳(メタデータ) (2021-06-16T20:48:49Z) - Instabilities of Offline RL with Pre-Trained Neural Representation [127.89397629569808]
オフライン強化学習(RL)では、オフラインデータを利用して、評価対象のポリシーのそれとは大きく異なる分布からデータが収集されるシナリオでポリシーを評価する(または学習する)ことを目指しています。
最近の理論的進歩は、そのようなサンプル効率の良いオフラインRLが確かにある強い表現条件が保持されることを示した。
本研究は,オフラインrlメソッドの安定性を評価するために,経験的視点からこれらの問題を考察する。
論文 参考訳(メタデータ) (2021-03-08T18:06:44Z) - MOReL : Model-Based Offline Reinforcement Learning [49.30091375141527]
オフライン強化学習(RL)では、環境との歴史的相互作用のデータセットのみに基づく高報酬政策を学習することが目的である。
モデルベースオフラインRLのためのアルゴリズムフレームワークMOReLを提案する。
オフラインRLベンチマークにおいてMOReLが最先端の結果と一致するか,あるいは超えるかを示す。
論文 参考訳(メタデータ) (2020-05-12T17:52:43Z) - Comprehensive Review of Deep Reinforcement Learning Methods and
Applications in Economics [9.080472817672264]
DRLの特徴は、高次元問題に適用可能なスケーラビリティと、経済データのノイズおよび非線形パターンとを併用したスケーラビリティである。
DRLのアーキテクチャを経済応用に適用し,複雑性,堅牢性,精度,性能,計算タスク,リスク制約,収益性を明らかにする。
論文 参考訳(メタデータ) (2020-03-21T14:07:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。