論文の概要: DITTO: Offline Imitation Learning with World Models
- arxiv url: http://arxiv.org/abs/2302.03086v1
- Date: Mon, 6 Feb 2023 19:41:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-08 18:21:46.477344
- Title: DITTO: Offline Imitation Learning with World Models
- Title(参考訳): ditto: 世界モデルによるオフライン模倣学習
- Authors: Branton DeMoss, Paul Duckworth, Nick Hawes, Ingmar Posner
- Abstract要約: 本研究では,世界モデルとオンライン強化学習を用いたオフライン模倣学習アルゴリズムを提案する。
本手法は,画素単独で困難なAtari環境上でテストし,オフライン環境での最先端性能を実現する。
- 参考スコア(独自算出の注目度): 21.636377126403087
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose DITTO, an offline imitation learning algorithm which uses world
models and on-policy reinforcement learning to addresses the problem of
covariate shift, without access to an oracle or any additional online
interactions. We discuss how world models enable offline, on-policy imitation
learning, and propose a simple intrinsic reward defined in the world model
latent space that induces imitation learning by reinforcement learning.
Theoretically, we show that our formulation induces a divergence bound between
expert and learner, in turn bounding the difference in reward. We test our
method on difficult Atari environments from pixels alone, and achieve
state-of-the-art performance in the offline setting.
- Abstract(参考訳): 本研究では,世界モデルとオンライン強化学習を用いたオフライン模倣学習アルゴリズムであるDITTOを提案する。
本稿では,オフライン・オン・ポリティカル・模倣学習を実現するための世界モデルについて議論し,強化学習による模倣学習を誘発する世界モデル潜在空間で定義される単純な本質的報酬を提案する。
理論的には、我々の定式化は、専門家と学習者の間で分岐を誘導し、報酬の差を束縛することを示す。
本手法は,ピクセルのみから難しいatari環境上でテストし,オフライン環境での最先端性能を実現する。
関連論文リスト
- ELA: Exploited Level Augmentation for Offline Learning in Zero-Sum Games [19.629369435528094]
本稿では,多様なデモ参加者によるゼロサムゲームのオフラインデータセットから,各トラジェクトリの悪用レベルを推定するための新しい手法を提案する。
評価された搾取レベルをオフライン学習に組み込んで,支配的戦略の影響を最大化する。
論文 参考訳(メタデータ) (2024-02-28T17:44:02Z) - Ensemble-based Interactive Imitation Learning [26.821104724576784]
本研究では、対話型模倣学習について研究し、学習者がアクションアノテーションの実証的な専門家に対話的に問い合わせる。
本稿では,この目標を達成するアルゴリズムフレームワークであるEnsemble-based Interactive Imitation Learning (EIIL)を提案する。
論文 参考訳(メタデータ) (2023-12-28T07:05:30Z) - ReCoRe: Regularized Contrastive Representation Learning of World Model [22.842308869723738]
我々は, (i) 対照的な教師なし学習と (ii) 介入不変正規化器を用いて不変特徴を学習する世界モデルを提案する。
提案手法は現状のモデルベースおよびモデルフリーのRL法よりも優れており,iGibsonベンチマークで評価された分布外点ナビゲーションタスクに大きく貢献する。
論文 参考訳(メタデータ) (2023-12-14T15:53:07Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [61.14928315004026]
オフ・ポリティクス強化学習は、インタラクティブな模倣学習よりも近いが、潜在的にさらに実践的な仮定の下で、パフォーマンスを向上させることができる。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Pre-training Contextualized World Models with In-the-wild Videos for
Reinforcement Learning [54.67880602409801]
本稿では,視覚制御タスクの学習を効率的に行うために,Wild 動画を多用した事前学習型世界モデルの課題について検討する。
本稿では、コンテキストと動的モデリングを明確に分離したContextualized World Models(ContextWM)を紹介する。
実験により,ContextWMを内蔵したWildビデオ事前学習は,モデルベース強化学習のサンプル効率を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-05-29T14:29:12Z) - A Unified Framework for Alternating Offline Model Training and Policy
Learning [62.19209005400561]
オフラインモデルに基づく強化学習では、歴史的収集データから動的モデルを学び、学習モデルと固定データセットを用いてポリシー学習を行う。
提案手法は,本手法が期待するリターンを最小限に抑えるための,反復的なオフラインMBRLフレームワークを開発する。
提案する統一型モデル政治学習フレームワークにより、我々は、広範囲の連続制御オフライン強化学習データセット上での競合性能を実現する。
論文 参考訳(メタデータ) (2022-10-12T04:58:51Z) - Autonomous Reinforcement Learning: Formalism and Benchmarking [106.25788536376007]
人間や動物が行うような現実世界の具体的学習は、連続的で非エポゾディックな世界にある。
RLの一般的なベンチマークタスクはエピソジックであり、試行錯誤によってエージェントに複数の試行を行う環境がリセットされる。
この相違は、擬似環境向けに開発されたRLアルゴリズムを現実世界のプラットフォーム上で実行しようとする場合、大きな課題となる。
論文 参考訳(メタデータ) (2021-12-17T16:28:06Z) - Bridging Imagination and Reality for Model-Based Deep Reinforcement
Learning [72.18725551199842]
BrIdging Reality and Dream (BIRD) と呼ばれる新しいモデルに基づく強化学習アルゴリズムを提案する。
虚構と実軌跡の相互情報を最大化し、虚構から学んだ政策改善を実軌跡に容易に一般化できるようにする。
提案手法は, モデルベース計画のサンプル効率を向上し, 挑戦的なビジュアル制御ベンチマークの最先端性能を実現する。
論文 参考訳(メタデータ) (2020-10-23T03:22:01Z) - Non-Adversarial Imitation Learning and its Connections to Adversarial
Methods [21.89749623434729]
非対人模倣学習のための枠組みを提案する。
結果のアルゴリズムは敵のアルゴリズムと似ている。
また, 新たなアルゴリズムを導出するために, 我々の非敵対的定式化が有効であることを示す。
論文 参考訳(メタデータ) (2020-08-08T13:43:06Z) - Strictly Batch Imitation Learning by Energy-based Distribution Matching [104.33286163090179]
すなわち、強化信号へのアクセスがなく、遷移力学の知識がなく、環境とのさらなる相互作用もない。
1つの解決策は、既存のアルゴリズムをオフライン環境で動作させるために、見習いの学習に適合させることである。
しかし、このようなアプローチは、政治外の評価やオフラインモデルの推定に大きく依存しており、間接的で非効率である可能性がある。
優れたソリューションは、ポリシーを明示的にパラメータ化し、ロールアウトダイナミクスから暗黙的に学習し、完全にオフラインで運用できるべきだ、と私たちは主張する。
論文 参考訳(メタデータ) (2020-06-25T03:27:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。