論文の概要: Augmented World Models Facilitate Zero-Shot Dynamics Generalization From
a Single Offline Environment
- arxiv url: http://arxiv.org/abs/2104.05632v1
- Date: Mon, 12 Apr 2021 16:53:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-13 18:58:32.543554
- Title: Augmented World Models Facilitate Zero-Shot Dynamics Generalization From
a Single Offline Environment
- Title(参考訳): 単一のオフライン環境からゼロショットダイナミクスを一般化する拡張現実モデル
- Authors: Philip J. Ball, Cong Lu, Jack Parker-Holder, Stephen Roberts
- Abstract要約: 大規模オフラインデータセットからの強化学習は、潜在的に安全で非現実的な探索なしにポリシを学習する能力を提供します。
オンライン環境にポリシーを移行する際のダイナミクスの変化にはほとんど注意が払われていない。
ロボットの物理的特性の潜在的な変化を捉えるための単純な変換による学習力学モデルを強化する。
- 参考スコア(独自算出の注目度): 10.04587045407742
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning from large-scale offline datasets provides us with the
ability to learn policies without potentially unsafe or impractical
exploration. Significant progress has been made in the past few years in
dealing with the challenge of correcting for differing behavior between the
data collection and learned policies. However, little attention has been paid
to potentially changing dynamics when transferring a policy to the online
setting, where performance can be up to 90% reduced for existing methods. In
this paper we address this problem with Augmented World Models (AugWM). We
augment a learned dynamics model with simple transformations that seek to
capture potential changes in physical properties of the robot, leading to more
robust policies. We not only train our policy in this new setting, but also
provide it with the sampled augmentation as a context, allowing it to adapt to
changes in the environment. At test time we learn the context in a
self-supervised fashion by approximating the augmentation which corresponds to
the new environment. We rigorously evaluate our approach on over 100 different
changed dynamics settings, and show that this simple approach can significantly
improve the zero-shot generalization of a recent state-of-the-art baseline,
often achieving successful policies where the baseline fails.
- Abstract(参考訳): 大規模オフラインデータセットからの強化学習は、潜在的に安全で非現実的な探索なしにポリシを学習する能力を提供します。
過去数年間、データ収集と学習ポリシーの異なる振る舞いを修正するという課題に対処する上で、重要な進歩があった。
しかし、既存の手法でパフォーマンスを最大90%削減できるオンライン環境にポリシーを移行する際のダイナミクスの変化にはほとんど注意が払われていない。
本稿では,AugWM(Augmented World Models)を用いてこの問題に対処する。
我々は,ロボットの物理的特性の潜在的な変化を捉えようとする単純な変換によって学習したダイナミクスモデルを強化し,より強固なポリシーを実現する。
この新しい環境でポリシーをトレーニングするだけでなく、コンテキストとしてサンプル化された拡張を提供することで、環境の変化に適応できるようにしています。
テスト時には、新しい環境に対応する拡張を近似することで、自己教師型でコンテキストを学習する。
我々は,100以上の異なるダイナミックス設定に対する我々のアプローチを厳格に評価し,この単純なアプローチが最近の最先端ベースラインのゼロショット一般化を著しく改善し,ベースラインが失敗するポリシを成功させることを示す。
関連論文リスト
- Efficient Imitation Learning with Conservative World Models [54.52140201148341]
報酬機能のない専門家によるデモンストレーションから政策学習の課題に取り組む。
純粋な強化学習ではなく、微調整問題として模倣学習を再構成する。
論文 参考訳(メタデータ) (2024-05-21T20:53:18Z) - Equivariant Data Augmentation for Generalization in Offline
Reinforcement Learning [10.00979536266327]
オフライン強化学習(RL)における一般化の課題に対処する新しいアプローチを提案する。
具体的には,エージェントのアウト・オブ・ディストリビューション目標への一般化能力の向上を目指す。
我々は、オフラインのオフラインRLアルゴリズムを用いて、拡張データセットに基づいて新しいポリシーをオフラインで学習する。
論文 参考訳(メタデータ) (2023-09-14T10:22:33Z) - Model Generation with Provable Coverability for Offline Reinforcement
Learning [14.333861814143718]
動的対応ポリシーによるオフライン最適化は、ポリシー学習とアウト・オブ・ディストリビューションの一般化の新しい視点を提供する。
しかし、オフライン環境での制限のため、学習したモデルは実際のダイナミクスを十分に模倣することができず、信頼性の高いアウト・オブ・ディストリビューション探索をサポートできなかった。
本研究では,実力学のカバレッジを最適化するモデルを生成するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-01T08:34:09Z) - Transfer learning with causal counterfactual reasoning in Decision
Transformers [5.672132510411465]
本研究では,環境力学の変化による伝達学習の課題について考察する。
具体的には、決定変換器アーキテクチャを用いて、新しい環境に対する新しいポリシーを精査する。
このメカニズムは,報奨のほとんどを維持しつつ,目標環境に対するポリシーのブートストラップを成功させることができることを示す。
論文 参考訳(メタデータ) (2021-10-27T11:23:27Z) - Learning to Continuously Optimize Wireless Resource in a Dynamic
Environment: A Bilevel Optimization Perspective [52.497514255040514]
この研究は、データ駆動メソッドが動的環境でリソース割り当て戦略を継続的に学び、最適化することを可能にする新しいアプローチを開発しています。
学習モデルが新たなエピソードに段階的に適応できるように、連続学習の概念を無線システム設計に組み込むことを提案する。
我々の設計は、異なるデータサンプルにまたがる公平性を保証する、新しい二段階最適化定式化に基づいている。
論文 参考訳(メタデータ) (2021-05-03T07:23:39Z) - Learning to Continuously Optimize Wireless Resource In Episodically
Dynamic Environment [55.91291559442884]
この研究は、データ駆動型手法が動的環境で継続的に学習し、最適化できる方法論を開発する。
本稿では,無線システム学習のモデリングプロセスに連続学習の概念を構築することを提案する。
我々の設計は、異なるデータサンプル間で「一定の公正性を保証する」新しいmin-maxの定式化に基づいている。
論文 参考訳(メタデータ) (2020-11-16T08:24:34Z) - ADAIL: Adaptive Adversarial Imitation Learning [11.270858993502705]
本稿では,動的に変化する環境間で伝達可能な適応型ポリシーを学習するための適応型適応型適応模倣学習(ADAIL)アルゴリズムを提案する。
これはロボット学習において重要な問題であり,1)報酬関数の取得が困難であること,2)ドメイン統計を対象とするさまざまなソースによる学習方針の展開が困難であること,3)動的に知られ制御される複数の環境における専門家によるデモンストレーションの収集が不可能であること,などが挙げられる。
論文 参考訳(メタデータ) (2020-08-23T06:11:00Z) - Deep Reinforcement Learning amidst Lifelong Non-Stationarity [67.24635298387624]
政治以外のRLアルゴリズムは、寿命の長い非定常性に対処できることを示す。
提案手法は潜在変数モデルを用いて,現在および過去の経験から環境表現を学習する。
また, 生涯の非定常性を示すシミュレーション環境もいくつか導入し, 環境変化を考慮しないアプローチを著しく上回っていることを実証的に確認した。
論文 参考訳(メタデータ) (2020-06-18T17:34:50Z) - Non-Stationary Off-Policy Optimization [50.41335279896062]
本研究では,時間的空間的帯域幅の非政治最適化の新たな課題について検討する。
オフライン学習フェーズでは、ログ化されたデータをカテゴリの潜在状態に分割し、各状態に対してほぼ最適のサブポリシーを学ぶ。
オンラインデプロイメントの段階では、学習したサブ政治をそのパフォーマンスに基づいて順応的に切り替える。
論文 参考訳(メタデータ) (2020-06-15T09:16:09Z) - Provably Efficient Model-based Policy Adaptation [22.752774605277555]
有望なアプローチは、事前訓練されたポリシーを新しい環境に迅速に適応させることである。
この政策適応問題の既存の方法は、通常ドメインのランダム化とメタラーニングに依存している。
未確認のターゲット環境でのオンライン適応を可能にする新しいモデルベースメカニズムを提案する。
論文 参考訳(メタデータ) (2020-06-14T23:16:20Z) - Never Stop Learning: The Effectiveness of Fine-Tuning in Robotic
Reinforcement Learning [109.77163932886413]
本稿では,ロボットによるロボット操作ポリシーを,政治以外の強化学習を通じて微調整することで,新たなバリエーションに適応する方法を示す。
この適応は、タスクをゼロから学習するために必要なデータの0.2%未満を使用する。
事前訓練されたポリシーを適用するという私たちのアプローチは、微調整の過程で大きなパフォーマンス向上につながります。
論文 参考訳(メタデータ) (2020-04-21T17:57:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。