論文の概要: Plan Your Target and Learn Your Skills: Transferable State-Only
Imitation Learning via Decoupled Policy Optimization
- arxiv url: http://arxiv.org/abs/2203.02214v1
- Date: Fri, 4 Mar 2022 09:46:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-07 14:18:06.359874
- Title: Plan Your Target and Learn Your Skills: Transferable State-Only
Imitation Learning via Decoupled Policy Optimization
- Title(参考訳): 目標を計画し、スキルを学ぶ - decoupled policy optimizationによる移行可能なステートのみの模倣学習
- Authors: Minghuan Liu, Zhengbang Zhu, Yuzheng Zhuang, Weinan Zhang, Jianye Hao,
Yong Yu, Jun Wang
- Abstract要約: 本稿では,Decoupled Policy Optimization (DePO)を導入し,政策を高レベルな状態プランナと逆ダイナミクスモデルとして明確に分離する。
組込み型疎結合政策勾配と生成的逆行訓練により、DePOは異なる行動空間や状態遷移力学への知識伝達を可能にする。
- 参考スコア(独自算出の注目度): 44.32548301913779
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent progress in state-only imitation learning extends the scope of
applicability of imitation learning to real-world settings by relieving the
need for observing expert actions. However, existing solutions only learn to
extract a state-to-action mapping policy from the data, without considering how
the expert plans to the target. This hinders the ability to leverage
demonstrations and limits the flexibility of the policy. In this paper, we
introduce Decoupled Policy Optimization (DePO), which explicitly decouples the
policy as a high-level state planner and an inverse dynamics model. With
embedded decoupled policy gradient and generative adversarial training, DePO
enables knowledge transfer to different action spaces or state transition
dynamics, and can generalize the planner to out-of-demonstration state regions.
Our in-depth experimental analysis shows the effectiveness of DePO on learning
a generalized target state planner while achieving the best imitation
performance. We demonstrate the appealing usage of DePO for transferring across
different tasks by pre-training, and the potential for co-training agents with
various skills.
- Abstract(参考訳): 状態限定模倣学習の最近の進歩は、専門家の行動を観察する必要性を緩和することで、模倣学習の適用範囲を現実の環境にまで広げている。
しかし、既存のソリューションは、エキスパートがどのようにターゲットに計画するかを考慮せずに、データから状態から行動へのマッピングポリシーを抽出することしか学ばない。
これにより、デモの活用が妨げられ、ポリシーの柔軟性が制限される。
本稿では,Decoupled Policy Optimization (DePO)を導入し,高レベルな状態プランナと逆動的モデルとしてポリシーを明示的に分離する。
組込み型分離政策勾配と生成的敵意訓練により、DePOは異なる行動空間や状態遷移ダイナミクスへの知識伝達を可能にし、プランナーを実証外状態領域に一般化することができる。
実験結果から,DePOが最適模擬性能を達成しつつ,汎用目標状態プランナの学習に有効であることを示す。
プレトレーニングにより,様々なタスクを移動させるDePOの魅力と,様々なスキルを持つ協調学習エージェントの可能性を示す。
関連論文リスト
- Time-Efficient Reinforcement Learning with Stochastic Stateful Policies [20.545058017790428]
我々は,ステートフルな政策を,後者をグラデーションな内部状態カーネルとステートレスなポリシーに分解して訓練するための新しいアプローチを提案する。
我々は、ステートフルなポリシー勾配定理の異なるバージョンを導入し、一般的な強化学習アルゴリズムのステートフルな変種を簡単にインスタンス化できるようにする。
論文 参考訳(メタデータ) (2023-11-07T15:48:07Z) - IOB: Integrating Optimization Transfer and Behavior Transfer for
Multi-Policy Reuse [50.90781542323258]
強化学習(RL)エージェントは、ソースポリシーからの知識を関連する目標タスクに転送することができる。
従来手法では,階層的なポリシやソースポリシの値関数の見積など,新たなコンポーネントが導入されていた。
本稿では,余分なコンポーネントを訓練せずにソースポリシーを選択する新しい転送RL法を提案する。
論文 参考訳(メタデータ) (2023-08-14T09:22:35Z) - A Regularized Implicit Policy for Offline Reinforcement Learning [54.7427227775581]
オフラインの強化学習は、環境とのさらなるインタラクションなしに、固定データセットから学習を可能にする。
フレキシブルだが十分に調整された完全実装ポリシーの学習を支援するフレームワークを提案する。
D4RLデータセットの実験とアブレーション研究により、我々のフレームワークとアルゴリズム設計の有効性が検証された。
論文 参考訳(メタデータ) (2022-02-19T20:22:04Z) - Constructing a Good Behavior Basis for Transfer using Generalized Policy
Updates [63.58053355357644]
そこで我々は,優れた政策集合を学習する問題を考察し,組み合わせることで,目に見えない多種多様な強化学習タスクを解くことができることを示した。
理論的には、独立したポリシーのセットと呼ぶ、特定の多様なポリシーのセットにアクセスできることによって、ハイレベルなパフォーマンスを即時に達成できることが示される。
論文 参考訳(メタデータ) (2021-12-30T12:20:46Z) - Provable Representation Learning for Imitation with Contrastive Fourier
Features [27.74988221252854]
オフライン体験データセットを用いて低次元の状態表現を学習する。
主要な課題は、未知のターゲットポリシー自体が低次元の振る舞いを示さないことである。
我々は、目標ポリシーと最大様態で訓練された低次元ポリシーとの性能差を上限とする表現学習目標を導出する。
論文 参考訳(メタデータ) (2021-05-26T00:31:30Z) - Learn Goal-Conditioned Policy with Intrinsic Motivation for Deep
Reinforcement Learning [9.014110264448371]
目的条件付き政策(GPIM)という新しい教師なし学習手法を提案する。
GPIMは抽象レベルポリシーと目標条件ポリシーの両方を共同で学習する。
提案したGPIM法の有効性と効率性を示す様々なロボットタスクの実験。
論文 参考訳(メタデータ) (2021-04-11T16:26:10Z) - Off-Policy Imitation Learning from Observations [78.30794935265425]
観察からの学習(lfo)は、多くのアプリケーションが利用できる実用的な強化学習シナリオである。
オフポリシ最適化を原則的に実現するサンプル効率の高いLfOアプローチを提案する。
我々のアプローチは、サンプル効率と性能の両面で最先端のロコモーションに匹敵する。
論文 参考訳(メタデータ) (2021-02-25T21:33:47Z) - Efficient Deep Reinforcement Learning via Adaptive Policy Transfer [50.51637231309424]
強化学習(RL)を促進するための政策伝達フレームワーク(PTF)の提案
我々のフレームワークは、いつ、いつ、どのソースポリシーがターゲットポリシーの再利用に最適なのか、いつそれを終了するかを学習する。
実験結果から,学習過程を著しく加速し,最先端の政策伝達手法を超越していることが判明した。
論文 参考訳(メタデータ) (2020-02-19T07:30:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。