論文の概要: Optimistic Model Rollouts for Pessimistic Offline Policy Optimization
- arxiv url: http://arxiv.org/abs/2401.05899v1
- Date: Thu, 11 Jan 2024 13:19:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-12 14:39:54.010497
- Title: Optimistic Model Rollouts for Pessimistic Offline Policy Optimization
- Title(参考訳): 悲観的オフライン政策最適化のための最適モデルロールアウト
- Authors: Yuanzhao Zhai, Yiying Li, Zijian Gao, Xudong Gong, Kele Xu, Dawei
Feng, Ding Bo, Huaimin Wang
- Abstract要約: モデルに基づくオフライン強化学習フレームワークORPOを提案する。
具体的には、O-MDPにおける楽観的なロールアウトポリシーをトレーニングし、より多くのOODモデルロールアウトをサンプリングする。
次に、サンプル状態-作用対にペナル化報酬を付与し、P-MDPの出力ポリシーを最適化する。
- 参考スコア(独自算出の注目度): 15.152633581419133
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Model-based offline reinforcement learning (RL) has made remarkable progress,
offering a promising avenue for improving generalization with synthetic model
rollouts. Existing works primarily focus on incorporating pessimism for policy
optimization, usually via constructing a Pessimistic Markov Decision Process
(P-MDP). However, the P-MDP discourages the policies from learning in
out-of-distribution (OOD) regions beyond the support of offline datasets, which
can under-utilize the generalization ability of dynamics models. In contrast,
we propose constructing an Optimistic MDP (O-MDP). We initially observed the
potential benefits of optimism brought by encouraging more OOD rollouts.
Motivated by this observation, we present ORPO, a simple yet effective
model-based offline RL framework. ORPO generates Optimistic model Rollouts for
Pessimistic offline policy Optimization. Specifically, we train an optimistic
rollout policy in the O-MDP to sample more OOD model rollouts. Then we relabel
the sampled state-action pairs with penalized rewards and optimize the output
policy in the P-MDP. Theoretically, we demonstrate that the performance of
policies trained with ORPO can be lower-bounded in linear MDPs. Experimental
results show that our framework significantly outperforms P-MDP baselines by a
margin of 30%, achieving state-of-the-art performance on the widely-used
benchmark. Moreover, ORPO exhibits notable advantages in problems that require
generalization.
- Abstract(参考訳): モデルベースオフライン強化学習(RL)は、合成モデルロールアウトによる一般化を改善するための有望な道を提供する。
既存の研究は主に、ペシミズムマルコフ決定プロセス(P-MDP)の構築を通じて、政策最適化に悲観的を取り入れることに焦点を当てている。
しかしながら、P-MDPは、オフラインデータセットのサポート以外の、アウト・オブ・ディストリビューション(OOD)領域での学習からポリシーを回避し、ダイナミックスモデルの一般化能力を過小評価することができる。
対照的に,O-MDP (Optimistic MDP) の構築を提案する。
私たちは当初、OODロールアウトの促進による楽観主義の潜在的なメリットを観察しました。
そこで本研究では,シンプルなモデルベースオフラインRLフレームワークORPOを提案する。
ORPOは、悲観的なオフラインポリシー最適化のための最適モデルロールアウトを生成する。
具体的には、O-MDPにおける楽観的なロールアウトポリシーをトレーニングし、より多くのOODモデルロールアウトをサンプリングする。
次に、サンプル状態-作用対にペナル化報酬を付与し、P-MDPの出力ポリシを最適化する。
理論的には、ORPO で訓練されたポリシーの性能は線形 MDP で低境界にすることができる。
実験の結果,本フレームワークはP-MDPベースラインを30%のマージンで大幅に上回り,広く使用されているベンチマークで最先端性能を達成した。
さらに、ORPOは一般化を必要とする問題において顕著な利点を示す。
関連論文リスト
- Entropy-Regularized Process Reward Model [30.279394036823092]
大規模言語モデル(LLM)は、複雑な多段階推論を行う上で有望であるが、数学的推論に苦慮し続けている。
KL規則化マルコフ決定プロセス(MDP)を統合したエントロピー規則化プロセス報酬モデル(ER-PRM)を提案する。
MATHとGSM8Kベンチマークの実証実験により、ER-PRMは既存のプロセス報酬モデルより一貫して優れていることが示された。
論文 参考訳(メタデータ) (2024-12-15T01:09:23Z) - MPPO: Multi Pair-wise Preference Optimization for LLMs with Arbitrary Negative Samples [22.521746860874305]
本研究では,モデル応答の平均確率を利用して報酬関数に適合するMPPOアルゴリズムを提案する。
Pair-wise、Pair-wise、List-wiseの実装の比較により、Pair-wiseアプローチが最高のパフォーマンスを実現することがわかった。
実験の結果、MPPOは様々なベンチマークで優れた性能を示した。
論文 参考訳(メタデータ) (2024-12-13T14:18:58Z) - VinePPO: Unlocking RL Potential For LLM Reasoning Through Refined Credit Assignment [66.80143024475635]
VinePPOは不偏のモンテカルロ推定を計算するための簡単な手法である。
我々は、VinePPOが、MATHおよびGSM8Kデータセット間でPPOや他のRLフリーベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2024-10-02T15:49:30Z) - Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。
目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。
DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文 参考訳(メタデータ) (2024-08-14T11:29:47Z) - Preferred-Action-Optimized Diffusion Policies for Offline Reinforcement Learning [19.533619091287676]
オフライン強化学習のための優先行動最適化拡散政策を提案する。
特に、表現的条件拡散モデルを用いて、行動ポリシーの多様な分布を表現する。
実験により,提案手法は従来のオフラインRL法と比較して,競争力や性能に優れることを示した。
論文 参考訳(メタデータ) (2024-05-29T03:19:59Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Towards Efficient Exact Optimization of Language Model Alignment [93.39181634597877]
嗜好データから直接ポリシーを最適化するために、直接選好最適化(DPO)が提案された。
問題の最適解に基づいて導出されたDPOが,現実の最適解の妥協平均探索近似に繋がることを示す。
本稿では、アライメント目的の効率的な精度最適化(EXO)を提案する。
論文 参考訳(メタデータ) (2024-02-01T18:51:54Z) - Statistical Rejection Sampling Improves Preference Optimization [42.57245965632205]
提案手法は,リジェクションサンプリングを用いた最適ポリシーからのソース選好データに対する新しいアプローチを提案する。
また、嗜好モデルの観点から、SLiC(Sequence Likelihood)とDPO(Direct Preference Optimization)の両方で使用される損失関数を強化する統一フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-13T01:07:25Z) - Fine-Tuning Language Models with Advantage-Induced Policy Alignment [80.96507425217472]
大規模言語モデルと人間の嗜好を整合させる新しいアルゴリズムを提案する。
言語タスクにおいてPPOを常に上回り、大きなマージンを持つことを示す。
また,損失関数の設計を支援する理論的正当性も提供する。
論文 参考訳(メタデータ) (2023-06-04T01:59:40Z) - Sample-efficient Iterative Lower Bound Optimization of Deep Reactive
Policies for Planning in Continuous MDPs [27.41101006357176]
本研究では,最小化-最大化の観点から反復的に最適化する。
w.r.t.は局所的に厳密な下界の目的である。
反復的下界最適化(ILBO)としての学習の新たな定式化は、(i)各ステップが全体目標よりも構造的に容易に最適化できるため、特に魅力的である。
実験的な評価により、ILBOは最先端のプランナーよりもはるかに試料効率が高いことが確認された。
論文 参考訳(メタデータ) (2022-03-23T19:06:16Z) - On Effective Scheduling of Model-based Reinforcement Learning [53.027698625496015]
実データ比率を自動的にスケジュールするAutoMBPOというフレームワークを提案する。
本稿ではまず,政策訓練における実データの役割を理論的に分析し,実際のデータの比率を徐々に高めれば,より優れた性能が得られることを示唆する。
論文 参考訳(メタデータ) (2021-11-16T15:24:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。