論文の概要: Distilling a Hierarchical Policy for Planning and Control via
Representation and Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2011.08345v2
- Date: Tue, 6 Apr 2021 14:06:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-25 01:17:12.574944
- Title: Distilling a Hierarchical Policy for Planning and Control via
Representation and Reinforcement Learning
- Title(参考訳): 表現と強化学習による計画と制御のための階層的政策の蒸留
- Authors: Jung-Su Ha, Young-Jin Park, Hyeok-Joo Chae, Soon-Seo Park, Han-Lim
Choi
- Abstract要約: エージェントが様々なタスクを実行し、新しいタスクに柔軟に対応できる階層的計画制御フレームワークを提案する。
各タスクに対する個別のポリシーを学ぶのではなく、提案するフレームワークであるdisHは、表現と強化学習によって一連のタスクから階層的なポリシーを蒸留する。
- 参考スコア(独自算出の注目度): 18.415568038071306
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a hierarchical planning and control framework that enables an
agent to perform various tasks and adapt to a new task flexibly. Rather than
learning an individual policy for each particular task, the proposed framework,
DISH, distills a hierarchical policy from a set of tasks by representation and
reinforcement learning. The framework is based on the idea of latent variable
models that represent high-dimensional observations using low-dimensional
latent variables. The resulting policy consists of two levels of hierarchy: (i)
a planning module that reasons a sequence of latent intentions that would lead
to an optimistic future and (ii) a feedback control policy, shared across the
tasks, that executes the inferred intention. Because the planning is performed
in low-dimensional latent space, the learned policy can immediately be used to
solve or adapt to new tasks without additional training. We demonstrate the
proposed framework can learn compact representations (3- and 1-dimensional
latent states and commands for a humanoid with 197- and 36-dimensional state
features and actions) while solving a small number of imitation tasks, and the
resulting policy is directly applicable to other types of tasks, i.e.,
navigation in cluttered environments. Video: https://youtu.be/HQsQysUWOhg
- Abstract(参考訳): 本稿では,エージェントが様々なタスクを実行し,フレキシブルに新しいタスクに適応できる階層的計画制御フレームワークを提案する。
提案するフレームワークであるdishは、各タスクの個々のポリシーを学ぶのではなく、一連のタスクから階層的なポリシーを表現と強化学習によって抽出する。
このフレームワークは、低次元潜在変数を用いた高次元観測を表現する潜在変数モデルの概念に基づいている。
結果として得られた政策は2つの階層から構成される。
(i)楽観的な未来につながる潜在的な意図の連続を理由とする計画モジュール
(ii)推測された意図を実行する、タスク間で共有されるフィードバック制御ポリシー。
計画は低次元の潜在空間で行われるため、学習されたポリシーは、追加のトレーニングなしで、即座に新しいタスクの解決や適応に利用できる。
提案手法は, 少数の模倣タスクを解きながら, コンパクトな表現(3次元および1次元の潜伏状態, 197次元および36次元の状態特徴および動作を含むヒューマノイドに対するコマンド)を学習し, 結果として得られるポリシーは, 散在環境におけるナビゲーションなど他のタスクにも直接適用可能であることを示す。
ビデオ: https://youtu.be/HQsQysUWOhg
関連論文リスト
- Imagination Policy: Using Generative Point Cloud Models for Learning Manipulation Policies [25.760946763103483]
Imagination Policy(Imagination Policy)は,高精度ピック・アンド・プレイス・タスクを解くための新しいマルチタスク・キー・フレーム・ポリシー・ネットワークである。
アクションを直接学習する代わりに、Imagination Policy は所望の状態を想像するために点雲を生成し、それが厳密なアクション推定を用いてアクションに変換される。
論文 参考訳(メタデータ) (2024-06-17T17:00:41Z) - Learning adaptive planning representations with natural language
guidance [90.24449752926866]
本稿では,タスク固有の計画表現を自動構築するフレームワークであるAdaについて述べる。
Adaは、プランナー互換の高レベルアクション抽象化と、特定の計画タスク領域に適応した低レベルコントローラのライブラリを対話的に学習する。
論文 参考訳(メタデータ) (2023-12-13T23:35:31Z) - Goal-Conditioned Reinforcement Learning with Disentanglement-based
Reachability Planning [14.370384505230597]
本稿では,Reachability Planning (REPlan) と組み合わせた目標条件付きRLアルゴリズムを提案する。
我々のREPlanは、時間的に拡張されたタスクを解く上で、従来の最先端の手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2023-07-20T13:08:14Z) - Fast Inference and Transfer of Compositional Task Structures for
Few-shot Task Generalization [101.72755769194677]
本稿では,タスクがサブタスクグラフによって特徴づけられる,数発の強化学習問題として定式化する。
我々のマルチタスクサブタスクグラフ推論器(MTSGI)は、トレーニングタスクから、まず、サブタスクグラフの観点から、一般的なハイレベルなタスク構造を推測する。
提案手法は,2次元グリッドワールドおよび複雑なWebナビゲーション領域において,タスクの共通基盤構造を学習し,活用し,未知のタスクへの適応を高速化する。
論文 参考訳(メタデータ) (2022-05-25T10:44:25Z) - Planning to Practice: Efficient Online Fine-Tuning by Composing Goals in
Latent Space [76.46113138484947]
汎用ロボットは、現実世界の非構造環境において困難なタスクを完了するために、多様な行動レパートリーを必要とする。
この問題に対処するため、目標条件強化学習は、コマンド上の幅広いタスクの目標に到達可能なポリシーを取得することを目的としている。
本研究では,長期的課題に対する目標条件付き政策を実践的に訓練する手法であるPlanning to Practiceを提案する。
論文 参考訳(メタデータ) (2022-05-17T06:58:17Z) - Constructing a Good Behavior Basis for Transfer using Generalized Policy
Updates [63.58053355357644]
そこで我々は,優れた政策集合を学習する問題を考察し,組み合わせることで,目に見えない多種多様な強化学習タスクを解くことができることを示した。
理論的には、独立したポリシーのセットと呼ぶ、特定の多様なポリシーのセットにアクセスできることによって、ハイレベルなパフォーマンスを即時に達成できることが示される。
論文 参考訳(メタデータ) (2021-12-30T12:20:46Z) - Towards Coordinated Robot Motions: End-to-End Learning of Motion
Policies on Transform Trees [63.31965375413414]
人間による実証から構造化政策を学習し、マルチタスクの課題解決を提案します。
我々の構造化ポリシーは、異なる空間におけるサブタスクポリシーを組み合わせるためのフレームワークであるRMPflowにインスパイアされている。
マルチタスク問題に適したエンドツーエンドの学習目標関数を導き出します。
論文 参考訳(メタデータ) (2020-12-24T22:46:22Z) - Goal-Aware Prediction: Learning to Model What Matters [105.43098326577434]
学習した前進力学モデルを使用する際の根本的な課題の1つは、学習したモデルの目的と下流のプランナーやポリシーの目標とのミスマッチである。
本稿では,タスク関連情報への直接的予測を提案し,そのモデルが現在のタスクを認識し,状態空間の関連量のみをモデル化することを奨励する。
提案手法は,目標条件付きシーンの関連部分を効果的にモデル化し,その結果,標準タスク非依存のダイナミックスモデルやモデルレス強化学習より優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-14T16:42:59Z) - Learning Functionally Decomposed Hierarchies for Continuous Control
Tasks with Path Planning [36.050432925402845]
我々は、長い水平方向制御タスクをうまく解決する新しい階層型強化学習アーキテクチャであるHiDeを提案する。
実験により,本手法は未知のテスト環境にまたがって一般化され,学習法および非学習法と比較して3倍の地平線長に拡張可能であることが示された。
論文 参考訳(メタデータ) (2020-02-14T10:19:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。