論文の概要: Guided Imitation of Task and Motion Planning
- arxiv url: http://arxiv.org/abs/2112.03386v1
- Date: Mon, 6 Dec 2021 22:22:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-08 14:31:47.414376
- Title: Guided Imitation of Task and Motion Planning
- Title(参考訳): 課題と行動計画の指導的模倣
- Authors: Michael James McDonald and Dylan Hadfield-Menell
- Abstract要約: 我々は,タスクと行動計画の成果を模倣する政策を訓練する。
これにより、感覚データから多段階のタスクを達成できるフィードフォワードポリシが生成される。
7-DoF関節制御によるロボット操作タスクでは、部分的に訓練されたポリシーにより、計画に必要な時間を最大2.6倍に短縮する。
- 参考スコア(独自算出の注目度): 9.072286070266092
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While modern policy optimization methods can do complex manipulation from
sensory data, they struggle on problems with extended time horizons and
multiple sub-goals. On the other hand, task and motion planning (TAMP) methods
scale to long horizons but they are computationally expensive and need to
precisely track world state. We propose a method that draws on the strength of
both methods: we train a policy to imitate a TAMP solver's output. This
produces a feed-forward policy that can accomplish multi-step tasks from
sensory data. First, we build an asynchronous distributed TAMP solver that can
produce supervision data fast enough for imitation learning. Then, we propose a
hierarchical policy architecture that lets us use partially trained control
policies to speed up the TAMP solver. In robotic manipulation tasks with 7-DoF
joint control, the partially trained policies reduce the time needed for
planning by a factor of up to 2.6. Among these tasks, we can learn a policy
that solves the RoboSuite 4-object pick-place task 88% of the time from object
pose observations and a policy that solves the RoboDesk 9-goal benchmark 79% of
the time from RGB images (averaged across the 9 disparate tasks).
- Abstract(参考訳): 現代のポリシー最適化手法は知覚データから複雑な操作をすることができるが、時間軸の延長や複数のサブゴールの問題に苦しむ。
一方、タスク・アンド・モーション・プランニング(TAMP)手法は長い地平線にスケールするが、計算コストが高く、正確に世界状態を追跡する必要がある。
我々は,tampソルバの出力を模倣するポリシをトレーニングする手法を提案する。
これは、感覚データから多段階のタスクを達成できるフィードフォワードポリシーを生成する。
まず、非同期分散TAMPソルバを構築し、模倣学習に十分な速度で監視データを生成する。
そこで我々は,TAMPソルバを高速化するために部分的に訓練された制御ポリシを使用できる階層型ポリシーアーキテクチャを提案する。
7自由度制御のロボット操作タスクでは、部分的に訓練されたポリシーは計画に要する時間を最大2.6パーセント削減する。
これらのタスクのうち、robosuite 4-object pick-placeタスクを解決するポリシーをオブジェクトポーズ観察から88%、robodesk 9-goalベンチマークを79%、rgbイメージ(平均9つのタスク)から解決するポリシーを学習することができる。
関連論文リスト
- Imitating Task and Motion Planning with Visuomotor Transformers [71.41938181838124]
タスク・アンド・モーション・プランニング(TAMP)は、多様なデモンストレーションの大規模なデータセットを自律的に生成できる。
本研究では,TAMPスーパーバイザが生成する大規模データセットと,それらに適合するフレキシブルトランスフォーマーモデルの組み合わせが,ロボット操作の強力なパラダイムであることを示す。
我々は,TAMPエージェントを模倣して大規模ビジュモータトランスフォーマーポリシーを訓練する OPTIMUS という新しい模倣学習システムを提案する。
論文 参考訳(メタデータ) (2023-05-25T17:58:14Z) - Exploration via Planning for Information about the Optimal Trajectory [67.33886176127578]
我々は,タスクと現在の知識を考慮に入れながら,探索を計画できる手法を開発した。
本手法は, 探索基準値よりも2倍少ないサンプルで, 強いポリシーを学習できることを実証する。
論文 参考訳(メタデータ) (2022-10-06T20:28:55Z) - Visual Foresight With a Local Dynamics Model [1.370633147306388]
単一ステップ操作プリミティブのための状態遷移関数を効率的に学習するローカルダイナミクスモデル(LDM)を提案する。
LDMとモデルフリーなポリシー学習を組み合わせることで、ワンステップのルックアヘッド計画を用いて複雑な操作タスクを解くことができるポリシーを学ぶことができる。
論文 参考訳(メタデータ) (2022-06-29T17:58:14Z) - Planning to Practice: Efficient Online Fine-Tuning by Composing Goals in
Latent Space [76.46113138484947]
汎用ロボットは、現実世界の非構造環境において困難なタスクを完了するために、多様な行動レパートリーを必要とする。
この問題に対処するため、目標条件強化学習は、コマンド上の幅広いタスクの目標に到達可能なポリシーを取得することを目的としている。
本研究では,長期的課題に対する目標条件付き政策を実践的に訓練する手法であるPlanning to Practiceを提案する。
論文 参考訳(メタデータ) (2022-05-17T06:58:17Z) - Robot Learning of Mobile Manipulation with Reachability Behavior Priors [38.49783454634775]
モバイルマニピュレーション(MM)システムは、非構造化現実環境におけるパーソナルアシスタントの役割を引き継ぐ上で理想的な候補である。
その他の課題として、MMは移動性と操作性の両方を必要とするタスクを実行するために、ロボットの実施形態を効果的に調整する必要がある。
本研究では,アクタ批判的RL手法におけるロボットの到達可能性の先行性の統合について検討した。
論文 参考訳(メタデータ) (2022-03-08T12:44:42Z) - Policy Search for Model Predictive Control with Application to Agile
Drone Flight [56.24908013905407]
MPCのためのポリシ・フォー・モデル・予測制御フレームワークを提案する。
具体的には、パラメータ化コントローラとしてMPCを定式化し、パラメータ化の難しい決定変数を高レベルポリシーとして表現する。
シミュレーションと実環境の両方において,我々の制御器が堅牢かつリアルタイムに制御性能を発揮することを示す実験を行った。
論文 参考訳(メタデータ) (2021-12-07T17:39:24Z) - Towards Coordinated Robot Motions: End-to-End Learning of Motion
Policies on Transform Trees [63.31965375413414]
人間による実証から構造化政策を学習し、マルチタスクの課題解決を提案します。
我々の構造化ポリシーは、異なる空間におけるサブタスクポリシーを組み合わせるためのフレームワークであるRMPflowにインスパイアされている。
マルチタスク問題に適したエンドツーエンドの学習目標関数を導き出します。
論文 参考訳(メタデータ) (2020-12-24T22:46:22Z) - Human-in-the-Loop Imitation Learning using Remote Teleoperation [72.2847988686463]
6-DoF操作設定に合わせたデータ収集システムを構築します。
システムによって収集された新しいデータに基づいて,ポリシーを反復的にトレーニングするアルゴリズムを開発した。
介入型システムで収集したデータに基づいて訓練されたエージェントと、非介入型デモ参加者が収集した同等数のサンプルで訓練されたアルゴリズムを上回るエージェントを実証する。
論文 参考訳(メタデータ) (2020-12-12T05:30:35Z) - Distilling a Hierarchical Policy for Planning and Control via
Representation and Reinforcement Learning [18.415568038071306]
エージェントが様々なタスクを実行し、新しいタスクに柔軟に対応できる階層的計画制御フレームワークを提案する。
各タスクに対する個別のポリシーを学ぶのではなく、提案するフレームワークであるdisHは、表現と強化学習によって一連のタスクから階層的なポリシーを蒸留する。
論文 参考訳(メタデータ) (2020-11-16T23:58:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。