論文の概要: When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2302.07457v3
- Date: Wed, 28 Feb 2024 22:58:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-01 19:09:32.248454
- Title: When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning
- Title(参考訳): 実演が生成世界モデルに合致する時: オフライン逆強化学習のための最大ラキシブルフレームワーク
- Authors: Siliang Zeng, Chenliang Li, Alfredo Garcia, Mingyi Hong
- Abstract要約: 本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
- 参考スコア(独自算出の注目度): 62.00672284480755
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline inverse reinforcement learning (Offline IRL) aims to recover the
structure of rewards and environment dynamics that underlie observed actions in
a fixed, finite set of demonstrations from an expert agent. Accurate models of
expertise in executing a task has applications in safety-sensitive applications
such as clinical decision making and autonomous driving. However, the structure
of an expert's preferences implicit in observed actions is closely linked to
the expert's model of the environment dynamics (i.e. the ``world'' model).
Thus, inaccurate models of the world obtained from finite data with limited
coverage could compound inaccuracy in estimated rewards. To address this issue,
we propose a bi-level optimization formulation of the estimation task wherein
the upper level is likelihood maximization based upon a conservative model of
the expert's policy (lower level). The policy model is conservative in that it
maximizes reward subject to a penalty that is increasing in the uncertainty of
the estimated model of the world. We propose a new algorithmic framework to
solve the bi-level optimization problem formulation and provide statistical and
computational guarantees of performance for the associated optimal reward
estimator. Finally, we demonstrate that the proposed algorithm outperforms the
state-of-the-art offline IRL and imitation learning benchmarks by a large
margin, over the continuous control tasks in MuJoCo and different datasets in
the D4RL benchmark.
- Abstract(参考訳): オフライン逆強化学習(オフラインirl)は、専門家エージェントによる固定された有限のデモンストレーションで観察された動作を裏付ける報酬と環境ダイナミクスの構造を回復することを目的としている。
タスクの実行に関する専門知識の正確なモデルは、臨床意思決定や自動運転といった安全性に敏感な応用に応用できる。
しかしながら、観察された行動において暗黙的な専門家の選好の構造は、専門家の環境力学のモデル(すなわち「世界」モデル)と密接に関連している。
したがって、限られた範囲の有限データから得られた世界の不正確なモデルは、推定報酬において不正確を複雑にする可能性がある。
この問題に対処するため,我々は,専門家の政策(下位レベル)の保守的モデルに基づいて上層レベルが最大化されるような推定タスクの2レベル最適化手法を提案する。
政策モデルは、世界の推定モデルの不確実性の増大するペナルティの対象となる報酬を最大化するという点で保守的である。
本稿では,二段階最適化問題の定式化を解いた新しいアルゴリズムフレームワークを提案し,関連する最適報酬推定器の性能の統計的および計算的保証を提供する。
最後に、提案アルゴリズムは、MuJoCoの連続制御タスクとD4RLベンチマークの異なるデータセットに対して、最先端のオフラインIRLと模倣学習ベンチマークを大きなマージンで上回ることを示す。
関連論文リスト
- Bayesian Nonparametrics Meets Data-Driven Distributionally Robust Optimization [29.24821214671497]
機械学習と統計モデルのトレーニングは、しばしばデータ駆動型リスク基準の最適化を伴う。
ベイズ的非パラメトリック(ディリクレ過程)理論と、スムーズなあいまいさ-逆選好の最近の決定論的モデルを組み合わせた、新しいロバストな基準を提案する。
実用的な実装として、よく知られたディリクレプロセスの表現に基づいて、評価基準の抽出可能な近似を提案し、研究する。
論文 参考訳(メタデータ) (2024-01-28T21:19:15Z) - Bi-Level Offline Policy Optimization with Limited Exploration [1.8130068086063336]
我々は、固定された事前コンパイルされたデータセットに基づいて良いポリシーを学習しようとするオフライン強化学習(RL)について研究する。
ポリシー(上層)と値関数(下層)の階層的相互作用をモデル化する2レベル構造化ポリシー最適化アルゴリズムを提案する。
我々は、オフラインRLのための合成、ベンチマーク、実世界のデータセットを混合して評価し、最先端の手法と競合することを示す。
論文 参考訳(メタデータ) (2023-10-10T02:45:50Z) - A Bayesian Approach to Robust Inverse Reinforcement Learning [54.24816623644148]
我々は、オフラインモデルに基づく逆強化学習(IRL)に対するベイズ的アプローチを考える。
提案フレームワークは,専門家の報酬関数と環境力学の主観的モデルとを同時推定することにより,既存のオフラインモデルベースIRLアプローチとは異なる。
本分析は, 専門家が環境の高精度なモデルを持つと考えられる場合, 評価政策が堅牢な性能を示すという新たな知見を提示する。
論文 参考訳(メタデータ) (2023-09-15T17:37:09Z) - Provable Guarantees for Generative Behavior Cloning: Bridging Low-Level
Stability and High-Level Behavior [51.60683890503293]
生成モデルを用いた複雑な専門家による実演の行動クローニングに関する理論的枠組みを提案する。
任意の専門的軌跡の時間ごとのステップ分布に一致するトラジェクトリを生成することができることを示す。
論文 参考訳(メタデータ) (2023-07-27T04:27:26Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - Model-based Safe Deep Reinforcement Learning via a Constrained Proximal
Policy Optimization Algorithm [4.128216503196621]
オンライン方式で環境の遷移動態を学習する,オンライン型モデルに基づくセーフディープRLアルゴリズムを提案する。
我々は,本アルゴリズムがより標本効率が高く,制約付きモデルフリーアプローチと比較して累積的ハザード違反が低いことを示す。
論文 参考訳(メタデータ) (2022-10-14T06:53:02Z) - Constrained Policy Optimization via Bayesian World Models [79.0077602277004]
LAMBDAは、マルコフ決定プロセスを通じてモデル化された安全クリティカルタスクにおけるポリシー最適化のためのモデルに基づくアプローチである。
LAMBDA のSafety-Gymベンチマークスイートにおける技術性能について,サンプル効率と制約違反の観点から示す。
論文 参考訳(メタデータ) (2022-01-24T17:02:22Z) - Safe Continuous Control with Constrained Model-Based Policy Optimization [0.0]
制約付き高次元制御のためのモデルベースセーフ探索アルゴリズムを提案する。
また、モデル生成データによるポリシー探索を高速化する実用的なアルゴリズムも導入する。
論文 参考訳(メタデータ) (2021-04-14T15:20:55Z) - COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。
我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。
従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文 参考訳(メタデータ) (2021-02-16T18:50:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。