論文の概要: Enhancing LLM Reasoning with Iterative DPO: A Comprehensive Empirical Investigation
- arxiv url: http://arxiv.org/abs/2503.12854v1
- Date: Mon, 17 Mar 2025 06:28:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 16:00:02.786477
- Title: Enhancing LLM Reasoning with Iterative DPO: A Comprehensive Empirical Investigation
- Title(参考訳): 反復DPOによるLLM推論の強化--総合的実証的研究
- Authors: Songjun Tu, Jiahao Lin, Xiangyu Tian, Qichao Zhang, Linjing Li, Yuqian Fu, Nan Xu, Wei He, Xiangyuan Lan, Dongmei Jiang, Dongbin Zhao,
- Abstract要約: DPO(Direct Preference Optimization)は、大規模言語モデル(LLM)のための強化学習(RL)に代わる費用効率の良い代替手段である。
粗いフィルタ付き1ラウンドのDPOが数学的推論性能を大幅に向上させることを示す。
単純な検証可能な報奨により,計算オーバーヘッドを大幅に低減したRLレベルの性能を実現する。
- 参考スコア(独自算出の注目度): 29.579349371114702
- License:
- Abstract: Recent advancements in post-training methodologies for large language models (LLMs) have highlighted reinforcement learning (RL) as a critical component for enhancing reasoning. However, the substantial computational costs associated with RL-based approaches have led to growing interest in alternative paradigms, such as Direct Preference Optimization (DPO). In this study, we investigate the effectiveness of DPO in facilitating self-improvement for LLMs through iterative preference-based learning. We demonstrate that a single round of DPO with coarse filtering significantly enhances mathematical reasoning performance, particularly for strong base model. Furthermore, we design an iterative enhancement framework for both the generator and the reward model (RM), enabling their mutual improvement through online interaction across multiple rounds of DPO. Finally, with simple verifiable rewards, our model DPO-VP achieves RL-level performance with significantly lower computational overhead. These findings highlight DPO as a scalable and cost-effective alternative to RL, offering a practical solution for enhancing LLM reasoning in resource-constrained situations.
- Abstract(参考訳): 大規模言語モデル(LLM)のポストトレーニング手法の最近の進歩は、推論を強化する重要な要素として強化学習(RL)を強調している。
しかしながら、RLベースのアプローチに関連するかなりの計算コストは、直接選好最適化(DPO)のような代替パラダイムへの関心を高めている。
本研究では,反復的嗜好に基づく学習を通して,LLMの自己改善を促進する上でのDPOの有効性について検討する。
粗いフィルタを持つ1ラウンドのDPOは、特に強いベースモデルにおいて、数学的推論性能を大幅に向上させることを示した。
さらに,ジェネレータと報奨モデル(RM)の両方を対象とした反復的拡張フレームワークを設計し,DPOの複数ラウンドにわたるオンラインインタラクションによる相互改善を実現する。
最後に,本モデルDPO-VPは,計算オーバーヘッドを大幅に低減したRLレベルの性能を実現する。
これらの結果から,資源制約条件下でのLLM推論の実践的ソリューションとして,DPOはRLに代わるスケーラブルで費用効率のよい代替品として注目されている。
関連論文リスト
- Improving Multi-Step Reasoning Abilities of Large Language Models with Direct Advantage Policy Optimization [22.67700436936984]
ステップレベルのオフライン強化学習アルゴリズムであるDAPO(Direct Advantage Policy Optimization)を導入する。
DAPOは、各ステップにおける推論精度を予測するために批判機能を使用し、それによって高密度信号を生成して生成戦略を洗練させる。
その結果,DAPO は SFT モデルと RL モデルの両方の数学的・コード的能力を効果的に向上し,DAPO の有効性を示すことができた。
論文 参考訳(メタデータ) (2024-12-24T08:39:35Z) - VinePPO: Unlocking RL Potential For LLM Reasoning Through Refined Credit Assignment [66.80143024475635]
VinePPOは不偏のモンテカルロ推定を計算するための簡単な手法である。
我々は、VinePPOが、MATHおよびGSM8Kデータセット間でPPOや他のRLフリーベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2024-10-02T15:49:30Z) - Minor DPO reject penalty to increase training robustness [8.971332948872185]
人間の嗜好からの学習は、ダウンストリームタスクにおいて、事前学習されたLLMを人間の嗜好に合わせるために、大規模言語モデル(LLM)の微調整ステップで使用されるパラダイムである。
近年,簡易なRLフリー手法でアライメント問題を解決するために,DPO(Direct Preference Optimization)が提案されている。
本稿では、DPOにおける$beta$の動作メカニズムを分析し、RLアルゴリズムとDPOの構文差を明らかにし、DPOの単純化による潜在的な不足について理解する。
論文 参考訳(メタデータ) (2024-08-19T09:29:31Z) - Multi-Reference Preference Optimization for Large Language Models [56.84730239046117]
複数の参照モデルを用いた直接選好最適化のための新しいクローズドフォームの定式化を提案する。
得られたアルゴリズムであるMulti-Reference Preference Optimization (MRPO)は、様々な参照モデルからより広範な事前知識を活用する。
MRPOを微調整したLLMは,データ不足や多量性に関わらず,様々な嗜好データにおいてより一般化されていることを示す。
論文 参考訳(メタデータ) (2024-05-26T00:29:04Z) - Weak-to-Strong Extrapolation Expedites Alignment [135.12769233630362]
モデルと人間の嗜好との整合性を高めるために,ExPOと呼ばれる手法を提案する。
ExPOは市販のDPO/RLHFモデルを一貫して改善することを示した。
我々は、アライメントトレーニング中に学んだ報酬信号を増幅するExPOの本質に光を当てた。
論文 参考訳(メタデータ) (2024-04-25T17:39:50Z) - REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。
理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。
我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文 参考訳(メタデータ) (2024-04-25T17:20:45Z) - Back to Basics: Revisiting REINFORCE Style Optimization for Learning
from Human Feedback in LLMs [29.505270680223003]
ヒューマンフィードバックからの強化学習の形でのAIアライメントは、ハイパフォーマンスな大規模言語モデルにとって重要な要素として扱われている。
近年,RLHF の RL 部分の正準法としてPPO ( Proximal Policy Optimization) が位置づけられている。
PPO の多くのコンポーネントは RLHF の文脈では不要であり、より単純な REINFORCE スタイルの最適化は PPO と DPO や RAFT のような新たに提案された "RL-free" 手法の両方より優れていることを示す。
論文 参考訳(メタデータ) (2024-02-22T17:52:34Z) - ICDPO: Effectively Borrowing Alignment Capability of Others via
In-context Direct Preference Optimization [24.55845271377532]
大規模な言語モデルは、安全なコンテンツの生成を保証するためにヒューマン・プライオリエンス・アライメントに依存している。
In-Context Direct Preference Optimization (ICDPO) と呼ばれる新しい手法を提案する。
ICDPOは、上記インスタントスコアラによって推定された整列応答を生成し、最終性能を向上させる。
論文 参考訳(メタデータ) (2024-02-14T17:14:34Z) - Secrets of RLHF in Large Language Models Part I: PPO [81.01936993929127]
大規模言語モデル (LLMs) は、人工知能の進歩のためのブループリントを定式化した。
人間のフィードバックによる強化学習(RLHF)がこの追求を支える重要な技術パラダイムとして出現する。
本稿では、RLHFの枠組みを解明し、PPOの内部構造を再評価し、PPOアルゴリズムを構成する部分が政策エージェントの訓練にどのように影響するかを考察する。
論文 参考訳(メタデータ) (2023-07-11T01:55:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。