論文の概要: Towards Coordinated Robot Motions: End-to-End Learning of Motion
Policies on Transform Trees
- arxiv url: http://arxiv.org/abs/2012.13457v2
- Date: Wed, 10 Mar 2021 19:09:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-25 08:05:27.773186
- Title: Towards Coordinated Robot Motions: End-to-End Learning of Motion
Policies on Transform Trees
- Title(参考訳): ロボットの協調運動に向けて : 変換木における運動政策のエンドツーエンド学習
- Authors: M. Asif Rana, Anqi Li, Dieter Fox, Sonia Chernova, Byron Boots, Nathan
Ratliff
- Abstract要約: 人間による実証から構造化政策を学習し、マルチタスクの課題解決を提案します。
我々の構造化ポリシーは、異なる空間におけるサブタスクポリシーを組み合わせるためのフレームワークであるRMPflowにインスパイアされている。
マルチタスク問題に適したエンドツーエンドの学習目標関数を導き出します。
- 参考スコア(独自算出の注目度): 63.31965375413414
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating robot motion that fulfills multiple tasks simultaneously is
challenging due to the geometric constraints imposed by the robot. In this
paper, we propose to solve multi-task problems through learning structured
policies from human demonstrations. Our structured policy is inspired by
RMPflow, a framework for combining subtask policies on different spaces. The
policy structure provides the user an interface to 1) specifying the spaces
that are directly relevant to the completion of the tasks, and 2) designing
policies for certain tasks that do not need to be learned. We derive an
end-to-end learning objective function that is suitable for the multi-task
problem, emphasizing the deviation of motions on task spaces. Furthermore, the
motion generated from the learned policy class is guaranteed to be stable. We
validate the effectiveness of our proposed learning framework through
qualitative and quantitative evaluations on three robotic tasks on a 7-DOF
Rethink Sawyer robot.
- Abstract(参考訳): 複数のタスクを同時にこなすロボットの動きを生成することは、ロボットが課す幾何学的制約のために難しい。
本稿では,人間の実演から構造化ポリシーを学習し,マルチタスク問題を解決することを提案する。
我々の構造化ポリシーは、異なる空間におけるサブタスクポリシーを組み合わせるためのフレームワークであるRMPflowにインスパイアされている。
ポリシー構造は、1)タスクの完了に直接関連するスペースを特定する、2)学習する必要のない特定のタスクのためのポリシーを設計するためのインタフェースを提供する。
タスク空間上の動作の偏りを強調し,マルチタスク問題に適したエンドツーエンド学習目標関数を導出する。
さらに、学習したポリシークラスから発生する動きは安定することが保証される。
7-DOF Rethink Sawyer ロボットを用いた3つのロボット作業の質的,定量的評価により,提案手法の有効性を検証する。
関連論文リスト
- Sparse Diffusion Policy: A Sparse, Reusable, and Flexible Policy for Robot Learning [61.294110816231886]
我々はスパース・リユース・フレキシブル・ポリシー、スパース・ディフュージョン・ポリシー(SDP)を導入する。
SDPは、エキスパートとスキルを選択的に活性化し、モデル全体をトレーニングすることなく、効率的でタスク固有の学習を可能にする。
デモとコードはhttps://forrest-110.io/sparse_diffusion_policy/にある。
論文 参考訳(メタデータ) (2024-07-01T17:59:56Z) - Continual Robot Learning using Self-Supervised Task Inference [19.635428830237842]
新しいタスクを継続的に学習するための自己教師型タスク推論手法を提案する。
我々は、行動マッチング型自己教師型学習目標を用いて、新しいタスク推論ネットワーク(TINet)を訓練する。
マルチタスクポリシはTINet上に構築され、タスクよりもパフォーマンスを最適化するために強化学習でトレーニングされている。
論文 参考訳(メタデータ) (2023-09-10T09:32:35Z) - LEMMA: Learning Language-Conditioned Multi-Robot Manipulation [21.75163634731677]
LanguagE-Conditioned Multi-robot Manipulation (LEMMA)
LeMMAは、手続き的に生成されるタスクが8種類あり、複雑さは様々である。
それぞれのタスクに対して,800の専門的なデモンストレーションと,トレーニングと評価のためのヒューマンインストラクションを提供します。
論文 参考訳(メタデータ) (2023-08-02T04:37:07Z) - Leveraging Sequentiality in Reinforcement Learning from a Single
Demonstration [68.94506047556412]
本稿では,複雑なロボットタスクの制御ポリシーを1つの実演で学習するために,シーケンシャルなバイアスを活用することを提案する。
本研究は, ヒューマノイド移動やスタンドアップなど, 模擬課題のいくつかを, 前例のないサンプル効率で解くことができることを示す。
論文 参考訳(メタデータ) (2022-11-09T10:28:40Z) - Learning Multi-Task Transferable Rewards via Variational Inverse
Reinforcement Learning [10.782043595405831]
我々は、生成的対向ネットワークの枠組みに基づく複数のタスクを伴う状況に対して、エンパワーメントに基づく正規化手法を拡張した。
未知のダイナミクスを持つマルチタスク環境下では、ラベルのない専門家の例から報酬とポリシーを学ぶことに集中する。
提案手法は, 状況的相互情報の変動的下限を導出し, 最適化する。
論文 参考訳(メタデータ) (2022-06-19T22:32:41Z) - Fast Inference and Transfer of Compositional Task Structures for
Few-shot Task Generalization [101.72755769194677]
本稿では,タスクがサブタスクグラフによって特徴づけられる,数発の強化学習問題として定式化する。
我々のマルチタスクサブタスクグラフ推論器(MTSGI)は、トレーニングタスクから、まず、サブタスクグラフの観点から、一般的なハイレベルなタスク構造を推測する。
提案手法は,2次元グリッドワールドおよび複雑なWebナビゲーション領域において,タスクの共通基盤構造を学習し,活用し,未知のタスクへの適応を高速化する。
論文 参考訳(メタデータ) (2022-05-25T10:44:25Z) - Planning to Practice: Efficient Online Fine-Tuning by Composing Goals in
Latent Space [76.46113138484947]
汎用ロボットは、現実世界の非構造環境において困難なタスクを完了するために、多様な行動レパートリーを必要とする。
この問題に対処するため、目標条件強化学習は、コマンド上の幅広いタスクの目標に到達可能なポリシーを取得することを目的としている。
本研究では,長期的課題に対する目標条件付き政策を実践的に訓練する手法であるPlanning to Practiceを提案する。
論文 参考訳(メタデータ) (2022-05-17T06:58:17Z) - Autonomous Open-Ended Learning of Tasks with Non-Stationary
Interdependencies [64.0476282000118]
固有のモチベーションは、目標間のトレーニング時間を適切に割り当てるタスクに依存しないシグナルを生成することが証明されている。
内在的に動機付けられたオープンエンドラーニングの分野におけるほとんどの研究は、目標が互いに独立しているシナリオに焦点を当てているが、相互依存タスクの自律的な獲得を研究するのはごくわずかである。
特に,タスク間の関係に関する情報をアーキテクチャのより高レベルなレベルで組み込むことの重要性を示す。
そして、自律的に取得したシーケンスを格納する新しい学習層を追加することで、前者を拡張する新しいシステムであるH-GRAILを紹介する。
論文 参考訳(メタデータ) (2022-05-16T10:43:01Z) - Autonomous learning of multiple, context-dependent tasks [1.1470070927586016]
複雑な環境では、同じタスクには解決すべきさまざまなスキルセットが必要になるかもしれません。
本稿では,2つの課題を統合的に解決するオープンエンド学習ロボットアーキテクチャC-GRAILを提案する。
アーキテクチャは、自律的に関連する対象物に到達することを学習するロボットを含むシミュレーションされたロボット環境でテストされる。
論文 参考訳(メタデータ) (2020-11-27T17:25:36Z) - Distilling a Hierarchical Policy for Planning and Control via
Representation and Reinforcement Learning [18.415568038071306]
エージェントが様々なタスクを実行し、新しいタスクに柔軟に対応できる階層的計画制御フレームワークを提案する。
各タスクに対する個別のポリシーを学ぶのではなく、提案するフレームワークであるdisHは、表現と強化学習によって一連のタスクから階層的なポリシーを蒸留する。
論文 参考訳(メタデータ) (2020-11-16T23:58:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。