Fugu-MT 論文翻訳(概要): Optimistic Model Rollouts for Pessimistic Offline Policy Optimization

論文の概要: Optimistic Model Rollouts for Pessimistic Offline Policy Optimization

arxiv url: http://arxiv.org/abs/2401.05899v1
Date: Thu, 11 Jan 2024 13:19:45 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-12 14:39:54.010497
Title: Optimistic Model Rollouts for Pessimistic Offline Policy Optimization
Title（参考訳）: 悲観的オフライン政策最適化のための最適モデルロールアウト
Authors: Yuanzhao Zhai, Yiying Li, Zijian Gao, Xudong Gong, Kele Xu, Dawei Feng, Ding Bo, Huaimin Wang
Abstract要約: モデルに基づくオフライン強化学習フレームワークORPOを提案する。具体的には、O-MDPにおける楽観的なロールアウトポリシーをトレーニングし、より多くのOODモデルロールアウトをサンプリングする。次に、サンプル状態-作用対にペナル化報酬を付与し、P-MDPの出力ポリシーを最適化する。
参考スコア（独自算出の注目度）: 15.152633581419133
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Model-based offline reinforcement learning (RL) has made remarkable progress, offering a promising avenue for improving generalization with synthetic model rollouts. Existing works primarily focus on incorporating pessimism for policy optimization, usually via constructing a Pessimistic Markov Decision Process (P-MDP). However, the P-MDP discourages the policies from learning in out-of-distribution (OOD) regions beyond the support of offline datasets, which can under-utilize the generalization ability of dynamics models. In contrast, we propose constructing an Optimistic MDP (O-MDP). We initially observed the potential benefits of optimism brought by encouraging more OOD rollouts. Motivated by this observation, we present ORPO, a simple yet effective model-based offline RL framework. ORPO generates Optimistic model Rollouts for Pessimistic offline policy Optimization. Specifically, we train an optimistic rollout policy in the O-MDP to sample more OOD model rollouts. Then we relabel the sampled state-action pairs with penalized rewards and optimize the output policy in the P-MDP. Theoretically, we demonstrate that the performance of policies trained with ORPO can be lower-bounded in linear MDPs. Experimental results show that our framework significantly outperforms P-MDP baselines by a margin of 30%, achieving state-of-the-art performance on the widely-used benchmark. Moreover, ORPO exhibits notable advantages in problems that require generalization.
Abstract（参考訳）: モデルベースオフライン強化学習(RL)は、合成モデルロールアウトによる一般化を改善するための有望な道を提供する。既存の研究は主に、ペシミズムマルコフ決定プロセス(P-MDP)の構築を通じて、政策最適化に悲観的を取り入れることに焦点を当てている。しかしながら、P-MDPは、オフラインデータセットのサポート以外の、アウト・オブ・ディストリビューション(OOD)領域での学習からポリシーを回避し、ダイナミックスモデルの一般化能力を過小評価することができる。対照的に,O-MDP (Optimistic MDP) の構築を提案する。私たちは当初、OODロールアウトの促進による楽観主義の潜在的なメリットを観察しました。そこで本研究では,シンプルなモデルベースオフラインRLフレームワークORPOを提案する。 ORPOは、悲観的なオフラインポリシー最適化のための最適モデルロールアウトを生成する。具体的には、O-MDPにおける楽観的なロールアウトポリシーをトレーニングし、より多くのOODモデルロールアウトをサンプリングする。次に、サンプル状態-作用対にペナル化報酬を付与し、P-MDPの出力ポリシを最適化する。理論的には、ORPO で訓練されたポリシーの性能は線形 MDP で低境界にすることができる。実験の結果,本フレームワークはP-MDPベースラインを30%のマージンで大幅に上回り,広く使用されているベンチマークで最先端性能を達成した。さらに、ORPOは一般化を必要とする問題において顕著な利点を示す。

関連論文リスト

Stable Preference Optimization for LLMs: A Bilevel Approach Beyond Direct Preference Optimization [2.384797824772941]
確率進化の観点からDPOのダイナミクスを包括的に分析する。本稿では,教師付き微調整とDPO目標,すなわち安定な選好最適化とを密に統合する理論的基礎を持つ二段階最適化フレームワークを提案する。
論文参考訳（メタデータ） (2025-07-10T12:57:39Z)
Sequential Monte Carlo for Policy Optimization in Continuous POMDPs [9.690099639375456]
連続的部分観測可能なマルコフ決定プロセス(POMDP)のための新しいポリシー最適化フレームワークを提案する。本手法は,非マルコフ的ファインマン-カックモデルにおいて,政策学習を確率論的推論とみなす。提案手法の有効性を,標準連続ポデムPベンチマークで実証する。
論文参考訳（メタデータ） (2025-05-22T14:45:46Z)
A Survey of Direct Preference Optimization [103.59317151002693]
LLM(Large Language Models)は、前例のない生成能力を示す。人的価値との整合性は、有用で無害なデプロイメントを保証する上で、依然として重要です。直接優先度最適化(DPO)は、最近、合理化された代替案として注目されている。
論文参考訳（メタデータ） (2025-03-12T08:45:15Z)
Entropy-Regularized Process Reward Model [30.279394036823092]
大規模言語モデル(LLM)は、複雑な多段階推論を行う上で有望であるが、数学的推論に苦慮し続けている。 KL規則化マルコフ決定プロセス(MDP)を統合したエントロピー規則化プロセス報酬モデル(ER-PRM)を提案する。 MATHとGSM8Kベンチマークの実証実験により、ER-PRMは既存のプロセス報酬モデルより一貫して優れていることが示された。
論文参考訳（メタデータ） (2024-12-15T01:09:23Z)
MPPO: Multi Pair-wise Preference Optimization for LLMs with Arbitrary Negative Samples [22.521746860874305]
本研究では,モデル応答の平均確率を利用して報酬関数に適合するMPPOアルゴリズムを提案する。 Pair-wise、Pair-wise、List-wiseの実装の比較により、Pair-wiseアプローチが最高のパフォーマンスを実現することがわかった。実験の結果、MPPOは様々なベンチマークで優れた性能を示した。
論文参考訳（メタデータ） (2024-12-13T14:18:58Z)
VinePPO: Unlocking RL Potential For LLM Reasoning Through Refined Credit Assignment [66.80143024475635]
VinePPOは不偏のモンテカルロ推定を計算するための簡単な手法である。我々は、VinePPOが、MATHおよびGSM8Kデータセット間でPPOや他のRLフリーベースラインを一貫して上回ることを示す。
論文参考訳（メタデータ） (2024-10-02T15:49:30Z)
Preferred-Action-Optimized Diffusion Policies for Offline Reinforcement Learning [19.533619091287676]
オフライン強化学習のための優先行動最適化拡散政策を提案する。特に、表現的条件拡散モデルを用いて、行動ポリシーの多様な分布を表現する。実験により,提案手法は従来のオフラインRL法と比較して,競争力や性能に優れることを示した。
論文参考訳（メタデータ） (2024-05-29T03:19:59Z)
Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文参考訳（メタデータ） (2024-05-26T05:38:50Z)
DPO Meets PPO: Reinforced Token Optimization for RLHF [36.97894955691627]
マルコフ決定過程(MDP)としてRLHF問題をモデル化するフレームワークを導入する。このフレームワークでは、優先データからトークンワイド報酬関数を学習するReinforced Token Optimization(textttRTO)と呼ばれるアルゴリズムを導入する。実践的な実装として、texttRTOは、DPO(Direct Preference Optimization)とプロキシポリシー最適化(Proximal Policy Optimization)を革新的に統合している。
論文参考訳（メタデータ） (2024-04-29T17:58:30Z)
REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文参考訳（メタデータ） (2024-04-25T17:20:45Z)
Towards Efficient Exact Optimization of Language Model Alignment [93.39181634597877]
嗜好データから直接ポリシーを最適化するために、直接選好最適化(DPO)が提案された。問題の最適解に基づいて導出されたDPOが,現実の最適解の妥協平均探索近似に繋がることを示す。本稿では、アライメント目的の効率的な精度最適化(EXO)を提案する。
論文参考訳（メタデータ） (2024-02-01T18:51:54Z)
Statistical Rejection Sampling Improves Preference Optimization [42.57245965632205]
提案手法は,リジェクションサンプリングを用いた最適ポリシーからのソース選好データに対する新しいアプローチを提案する。また、嗜好モデルの観点から、SLiC(Sequence Likelihood)とDPO(Direct Preference Optimization)の両方で使用される損失関数を強化する統一フレームワークを提案する。
論文参考訳（メタデータ） (2023-09-13T01:07:25Z)
Fine-Tuning Language Models with Advantage-Induced Policy Alignment [80.96507425217472]
大規模言語モデルと人間の嗜好を整合させる新しいアルゴリズムを提案する。言語タスクにおいてPPOを常に上回り、大きなマージンを持つことを示す。また,損失関数の設計を支援する理論的正当性も提供する。
論文参考訳（メタデータ） (2023-06-04T01:59:40Z)
Sample-efficient Iterative Lower Bound Optimization of Deep Reactive Policies for Planning in Continuous MDPs [27.41101006357176]
本研究では,最小化-最大化の観点から反復的に最適化する。 w.r.t.は局所的に厳密な下界の目的である。反復的下界最適化(ILBO)としての学習の新たな定式化は、(i)各ステップが全体目標よりも構造的に容易に最適化できるため、特に魅力的である。実験的な評価により、ILBOは最先端のプランナーよりもはるかに試料効率が高いことが確認された。
論文参考訳（メタデータ） (2022-03-23T19:06:16Z)
On Effective Scheduling of Model-based Reinforcement Learning [53.027698625496015]
実データ比率を自動的にスケジュールするAutoMBPOというフレームワークを提案する。本稿ではまず,政策訓練における実データの役割を理論的に分析し,実際のデータの比率を徐々に高めれば,より優れた性能が得られることを示唆する。
論文参考訳（メタデータ） (2021-11-16T15:24:59Z)
Iterative Amortized Policy Optimization [147.63129234446197]
政策ネットワークは、継続的制御のための深層強化学習(RL)アルゴリズムの中心的な特徴である。変分推論の観点からは、ポリシーネットワークは、ポリシー分布を直接ではなく、ネットワークパラメータを最適化する、テキスト化最適化の一形態である。我々は,反復的アモート化ポリシ最適化により,ベンチマーク連続制御タスクの直接アモート化よりも性能が向上することが実証された。
論文参考訳（メタデータ） (2020-10-20T23:25:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。