論文の概要: Model-based Offline Policy Optimization with Adversarial Network
- arxiv url: http://arxiv.org/abs/2309.02157v1
- Date: Tue, 5 Sep 2023 11:49:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-06 15:04:01.936721
- Title: Model-based Offline Policy Optimization with Adversarial Network
- Title(参考訳): adversarial networkを用いたモデルベースオフラインポリシー最適化
- Authors: Junming Yang, Xingguo Chen, Shengyuan Wang, Bolei Zhang
- Abstract要約: 本稿では,新たなモデルベースオフラインポリシー最適化フレームワーク(MOAN)を提案する。
主なアイデアは、敵の学習を使って、より良い一般化を伴う遷移モデルを構築することである。
我々の手法は、広く研究されているオフラインRLベンチマークにおいて、最先端のベースラインよりも優れている。
- 参考スコア(独自算出の注目度): 0.36868085124383626
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Model-based offline reinforcement learning (RL), which builds a supervised
transition model with logging dataset to avoid costly interactions with the
online environment, has been a promising approach for offline policy
optimization. As the discrepancy between the logging data and online
environment may result in a distributional shift problem, many prior works have
studied how to build robust transition models conservatively and estimate the
model uncertainty accurately. However, the over-conservatism can limit the
exploration of the agent, and the uncertainty estimates may be unreliable. In
this work, we propose a novel Model-based Offline policy optimization framework
with Adversarial Network (MOAN). The key idea is to use adversarial learning to
build a transition model with better generalization, where an adversary is
introduced to distinguish between in-distribution and out-of-distribution
samples. Moreover, the adversary can naturally provide a quantification of the
model's uncertainty with theoretical guarantees. Extensive experiments showed
that our approach outperforms existing state-of-the-art baselines on widely
studied offline RL benchmarks. It can also generate diverse in-distribution
samples, and quantify the uncertainty more accurately.
- Abstract(参考訳): モデルベースオフライン強化学習(rl)は、オンライン環境とのコストのかかるインタラクションを避けるため、ロギングデータセットと教師付き移行モデルを構築するが、オフラインポリシー最適化にとって有望なアプローチである。
ログデータとオンライン環境の相違が分散シフト問題を引き起こす可能性があるため、多くの先行研究がロバストな遷移モデルの構築方法を保守的に研究し、モデルの不確かさを正確に推定している。
しかし、過保守主義はエージェントの探索を制限する可能性があり、不確実性の推定は信頼できない可能性がある。
本稿では,adversarial network (moan) を用いた新しいモデルベースオフラインポリシー最適化フレームワークを提案する。
鍵となる考え方は、敵の学習を用いてより一般化された移行モデルを構築することである。
さらに、敵は自然にモデルの不確かさを理論的な保証で定量化することができる。
広範な実験により,オフラインのrlベンチマークにおいて,既存の最先端のベースラインよりも優れた手法が得られた。
また、多様な分布サンプルを生成し、不確かさをより正確に定量化することができる。
関連論文リスト
- SeMOPO: Learning High-quality Model and Policy from Low-quality Offline Visual Datasets [32.496818080222646]
モデルに基づくオフライン強化学習のための新しい手法を提案する。
モデルの不確かさとSeMOPOの性能バウンダリに関する理論的保証を提供する。
実験結果から,本手法はベースライン法を著しく上回ることがわかった。
論文 参考訳(メタデータ) (2024-06-13T15:16:38Z) - Bridging Model-Based Optimization and Generative Modeling via Conservative Fine-Tuning of Diffusion Models [54.132297393662654]
本稿では,RLによる報酬モデルの最適化により,最先端拡散モデルを微調整するハイブリッド手法を提案する。
我々は、報酬モデルの補間能力を活用し、オフラインデータにおいて最良の設計を上回るアプローチの能力を実証する。
論文 参考訳(メタデータ) (2024-05-30T03:57:29Z) - Deep autoregressive density nets vs neural ensembles for model-based
offline reinforcement learning [2.9158689853305693]
本稿では、利用可能なデータからシステムダイナミクスを推定し、仮想モデルロールアウトにおけるポリシー最適化を行うモデルベース強化学習アルゴリズムについて考察する。
このアプローチは、実際のシステムで破滅的な失敗を引き起こす可能性のあるモデルエラーを悪用することに対して脆弱である。
D4RLベンチマークの1つのよく校正された自己回帰モデルにより、より良い性能が得られることを示す。
論文 参考訳(メタデータ) (2024-02-05T10:18:15Z) - MOTO: Offline Pre-training to Online Fine-tuning for Model-based Robot
Learning [52.101643259906915]
本研究では,高次元観測による強化学習におけるオフライン事前学習とオンラインファインチューニングの問題について検討する。
既存のモデルベースオフラインRL法は高次元領域におけるオフラインからオンラインへの微調整には適していない。
本稿では,事前データをモデルベース値拡張とポリシー正則化によって効率的に再利用できるオンラインモデルベース手法を提案する。
論文 参考訳(メタデータ) (2024-01-06T21:04:31Z) - Variational Model Perturbation for Source-Free Domain Adaptation [64.98560348412518]
確率的枠組みにおける変分ベイズ推定によるモデルパラメータの摂動を導入する。
本研究では,ベイズニューラルネットワークの学習と理論的関連性を実証し,目的領域に対する摂動モデルの一般化可能性を示す。
論文 参考訳(メタデータ) (2022-10-19T08:41:19Z) - Pessimistic Q-Learning for Offline Reinforcement Learning: Towards
Optimal Sample Complexity [51.476337785345436]
有限水平マルコフ決定過程の文脈におけるQ-ラーニングの悲観的変種について検討する。
ほぼ最適サンプル複雑性を実現するために,分散再現型悲観的Q-ラーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-28T15:39:36Z) - Revisiting Design Choices in Model-Based Offline Reinforcement Learning [39.01805509055988]
オフライン強化学習により、エージェントは環境遷移の大規模な収集済みデータセットを利用して制御ポリシーを学習することができる。
本稿では、モデル数や仮想ロールアウト地平線など、他のハイパーパラメータとの相互作用を研究するための新しいプロトコルを比較し、設計する。
論文 参考訳(メタデータ) (2021-10-08T13:51:34Z) - DROMO: Distributionally Robust Offline Model-based Policy Optimization [0.0]
モデルベース制御によるオフライン強化学習の問題点を考察する。
分散ロバストなオフラインモデルベースポリシー最適化(DROMO)を提案する。
論文 参考訳(メタデータ) (2021-09-15T13:25:14Z) - COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。
我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。
従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文 参考訳(メタデータ) (2021-02-16T18:50:32Z) - MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。
既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。
本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文 参考訳(メタデータ) (2020-05-27T08:46:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。