論文の概要: SimuDICE: Offline Policy Optimization Through World Model Updates and DICE Estimation
- arxiv url: http://arxiv.org/abs/2412.06486v1
- Date: Mon, 09 Dec 2024 13:35:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:57:13.905227
- Title: SimuDICE: Offline Policy Optimization Through World Model Updates and DICE Estimation
- Title(参考訳): SimuDICE:世界モデル更新とDICE推定によるオフラインポリシー最適化
- Authors: Catalin E. Brita, Stephan Bongers, Frans A. Oliehoek,
- Abstract要約: オフラインの強化学習では、事前コンパイルされた経験から効果的なポリシーを導出することは困難である。
オフラインデータから生成した初期ポリシーを,合成された経験を用いて反復的に洗練するフレームワークであるSimuDICEを紹介する。
SimuDICEは、既存のアルゴリズムに匹敵するパフォーマンスを達成すると同時に、事前コンパイルされたエクスペリエンスや計画手順を少なくする。
- 参考スコア(独自算出の注目度): 11.030633145295385
- License:
- Abstract: In offline reinforcement learning, deriving an effective policy from a pre-collected set of experiences is challenging due to the distribution mismatch between the target policy and the behavioral policy used to collect the data, as well as the limited sample size. Model-based reinforcement learning improves sample efficiency by generating simulated experiences using a learned dynamic model of the environment. However, these synthetic experiences often suffer from the same distribution mismatch. To address these challenges, we introduce SimuDICE, a framework that iteratively refines the initial policy derived from offline data using synthetically generated experiences from the world model. SimuDICE enhances the quality of these simulated experiences by adjusting the sampling probabilities of state-action pairs based on stationary DIstribution Correction Estimation (DICE) and the estimated confidence in the model's predictions. This approach guides policy improvement by balancing experiences similar to those frequently encountered with ones that have a distribution mismatch. Our experiments show that SimuDICE achieves performance comparable to existing algorithms while requiring fewer pre-collected experiences and planning steps, and it remains robust across varying data collection policies.
- Abstract(参考訳): オフライン強化学習では, 対象方針とデータ収集に使用される行動方針の分布ミスマッチや, 限られたサンプルサイズが原因で, 事前収集した経験から効果的な政策を導出することは困難である。
モデルに基づく強化学習は、学習された環境の動的モデルを用いて模擬体験を生成することにより、サンプル効率を向上させる。
しかし、これらの合成経験は、しばしば同じ分布ミスマッチに悩まされる。
これらの課題に対処するために、世界モデルから合成生成された経験を用いてオフラインデータから導出される初期ポリシーを反復的に洗練するフレームワークであるSimuDICEを紹介した。
SimuDICEは、定常的Distribution Correction Estimation(DICE)に基づいて状態-作用対のサンプリング確率を調整し、モデルの予測に対する信頼度を推定することによって、これらのシミュレーション体験の品質を向上させる。
このアプローチは、分散ミスマッチの場合に頻繁に遭遇するような経験のバランスをとることで、政策改善を導く。
実験の結果、SimuDICEは既存のアルゴリズムに匹敵する性能を達成しつつ、事前コンパイルした経験や計画手順を少なくし、さまざまなデータ収集ポリシーに対して堅牢であることがわかった。
関連論文リスト
- Testing Generalizability in Causal Inference [3.547529079746247]
機械学習アルゴリズムの一般化性を統計的に評価するための公式な手続きは存在しない。
本稿では,因果推論設定におけるモデル一般化可能性を評価するための体系的かつ定量的なフレームワークを提案する。
実データに基づくシミュレーションにより,本手法はより現実的な評価を確実にする。
論文 参考訳(メタデータ) (2024-11-05T11:44:00Z) - On conditional diffusion models for PDE simulations [53.01911265639582]
スパース観測の予測と同化のためのスコアベース拡散モデルについて検討した。
本稿では,予測性能を大幅に向上させる自動回帰サンプリング手法を提案する。
また,条件付きスコアベースモデルに対する新たなトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2024-10-21T18:31:04Z) - MITA: Bridging the Gap between Model and Data for Test-time Adaptation [68.62509948690698]
テスト時間適応(TTA)は、モデルの一般化性を高めるための有望なパラダイムとして登場した。
本稿では,Met-In-The-MiddleをベースとしたMITAを提案する。
論文 参考訳(メタデータ) (2024-10-12T07:02:33Z) - SAMBO-RL: Shifts-aware Model-based Offline Reinforcement Learning [9.88109749688605]
モデルに基づくオフライン強化学習は、事前コンパイルされたデータセットと学習環境モデルを使用してポリシーを訓練する。
本稿では,問題をモデルバイアスとポリシーシフトという2つの基本要素に分解する包括的分析を行う。
本稿では,モデルに基づくオフライン強化学習(SAMBO-RL)について紹介する。
論文 参考訳(メタデータ) (2024-08-23T04:25:09Z) - Combining Experimental and Historical Data for Policy Evaluation [17.89146022336492]
本研究では,実験データと履歴データに基づいて構築された基本方針値推定器を線形に統合する新たなデータ統合手法を提案する。
報奨シフトシナリオの幅広い範囲にわたって、ロバスト性、効率、特性を導出します。
配車会社による数値実験と実データに基づく分析は,提案した推定器の優れた性能を示す。
論文 参考訳(メタデータ) (2024-06-01T06:26:28Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Pessimistic Q-Learning for Offline Reinforcement Learning: Towards
Optimal Sample Complexity [51.476337785345436]
有限水平マルコフ決定過程の文脈におけるQ-ラーニングの悲観的変種について検討する。
ほぼ最適サンプル複雑性を実現するために,分散再現型悲観的Q-ラーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-28T15:39:36Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。
我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。
従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文 参考訳(メタデータ) (2021-02-16T18:50:32Z) - Model-based Policy Optimization with Unsupervised Model Adaptation [37.09948645461043]
本研究では,不正確なモデル推定による実データとシミュレーションデータのギャップを埋めて,より良いポリシ最適化を実現する方法について検討する。
本稿では,教師なしモデル適応を導入したモデルベース強化学習フレームワークAMPOを提案する。
提案手法は,一連の連続制御ベンチマークタスクにおけるサンプル効率の観点から,最先端の性能を実現する。
論文 参考訳(メタデータ) (2020-10-19T14:19:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。