論文の概要: RT-Trajectory: Robotic Task Generalization via Hindsight Trajectory
Sketches
- arxiv url: http://arxiv.org/abs/2311.01977v2
- Date: Mon, 6 Nov 2023 05:53:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-07 11:21:19.039360
- Title: RT-Trajectory: Robotic Task Generalization via Hindsight Trajectory
Sketches
- Title(参考訳): RT-Trajectory:Handsight Trajectory Sketchesによるロボットタスクの一般化
- Authors: Jiayuan Gu, Sean Kirmani, Paul Wohlhart, Yao Lu, Montserrat Gonzalez
Arenas, Kanishka Rao, Wenhao Yu, Chuyuan Fu, Keerthana Gopalakrishnan, Zhuo
Xu, Priya Sundaresan, Peng Xu, Hao Su, Karol Hausman, Chelsea Finn, Quan
Vuong, Ted Xiao
- Abstract要約: 一般化は、ロバストなロボット学習システムにとって最も重要なデシダータの1つである。
粗い軌道スケッチを用いたポリシー条件付け手法を提案する。
RT-Trajectoryは言語条件や目標条件よりも幅広いタスクを実行できることを示す。
- 参考スコア(独自算出の注目度): 74.300116260004
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generalization remains one of the most important desiderata for robust robot
learning systems. While recently proposed approaches show promise in
generalization to novel objects, semantic concepts, or visual distribution
shifts, generalization to new tasks remains challenging. For example, a
language-conditioned policy trained on pick-and-place tasks will not be able to
generalize to a folding task, even if the arm trajectory of folding is similar
to pick-and-place. Our key insight is that this kind of generalization becomes
feasible if we represent the task through rough trajectory sketches. We propose
a policy conditioning method using such rough trajectory sketches, which we
call RT-Trajectory, that is practical, easy to specify, and allows the policy
to effectively perform new tasks that would otherwise be challenging to
perform. We find that trajectory sketches strike a balance between being
detailed enough to express low-level motion-centric guidance while being coarse
enough to allow the learned policy to interpret the trajectory sketch in the
context of situational visual observations. In addition, we show how trajectory
sketches can provide a useful interface to communicate with robotic policies:
they can be specified through simple human inputs like drawings or videos, or
through automated methods such as modern image-generating or
waypoint-generating methods. We evaluate RT-Trajectory at scale on a variety of
real-world robotic tasks, and find that RT-Trajectory is able to perform a
wider range of tasks compared to language-conditioned and goal-conditioned
policies, when provided the same training data.
- Abstract(参考訳): 一般化は、堅牢なロボット学習システムにとって最も重要なデシダータの1つである。
最近提案されたアプローチは、新しい対象への一般化、意味概念、あるいは視覚分布のシフトを示すが、新しいタスクへの一般化は依然として難しい。
例えば、ピック・アンド・プレイス・タスクで訓練された言語条件付きポリシーは、たとえ折り畳みのアーム軌道がピック・アンド・プレイスに似ているとしても、折り畳みタスクに一般化できない。
我々の重要な洞察は、粗い軌道スケッチを通してタスクを表現すれば、この種の一般化が実現可能であるということである。
そこで本研究では,rt-trajectoryと呼ばれる粗軌跡スケッチを用いたポリシー条件付け手法を提案する。
その結果、軌道スケッチは、低レベルの動き中心のガイダンスを表現できるほど詳細であることと、学習したポリシーが状況観察の文脈で軌道スケッチを解釈できるほど粗いことのバランスをとることが判明した。
さらに、軌道スケッチがロボットのポリシーと通信するための有用なインターフェースを提供する方法を示す。図面やビデオのような単純な人間の入力や、最新の画像生成やwaypoint生成といった自動化手法によって特定することができる。
我々は,RT-Trajectoryを実世界の様々なロボットタスクで大規模に評価し,RT-Trajectoryが同じトレーニングデータを提供する場合,言語条件や目標条件のポリシーと比較して幅広いタスクを実行できることを発見した。
関連論文リスト
- RoboTAP: Tracking Arbitrary Points for Few-Shot Visual Imitation [36.43143326197769]
Track-Any-Point (TAP) モデルは、デモ中の関連する動きを分離し、低レベルのコントローラをパラメータ化して、シーン構成の変化をまたいでこの動きを再現する。
この結果は,形状整合,積み重ね,さらには接着や物体の付着といった完全な経路追従といった複雑な物体配置タスクを解くことのできるロバストなロボットポリシーで示される。
論文 参考訳(メタデータ) (2023-08-30T11:57:04Z) - Planning Immediate Landmarks of Targets for Model-Free Skill Transfer
across Agents [34.56191646231944]
我々はPILoT、即時ターゲットのランドマーク計画を提案する。
PILoTはゴール条件のステートプランナーを学習し、ゴールプランナーを蒸留してモデルなしのスタイルで即時ランドマークを計画する。
PILoTは,アクション空間やダイナミックスを横断する数発のショット転送など,様々なトランスファーの課題に対して有効であることを示す。
論文 参考訳(メタデータ) (2022-12-18T08:03:21Z) - Inferring Versatile Behavior from Demonstrations by Matching Geometric
Descriptors [72.62423312645953]
人間は直感的にタスクを多目的に解決し、軌道に基づく計画や個々のステップの行動を変化させる。
現在のImitation Learningアルゴリズムは、通常、単調な専門家によるデモンストレーションのみを考慮し、状態アクションベースの設定で行動する。
代わりに、移動プリミティブの混合と分布マッチングの目的を組み合わせることで、専門家の行動と汎用性にマッチする多目的行動を学ぶ。
論文 参考訳(メタデータ) (2022-10-17T16:42:59Z) - Abstract-to-Executable Trajectory Translation for One-Shot Task
Generalization [21.709054087028946]
本稿では,計画生成と計画実行を分離し,ワンショットタスクの一般化を実現することを提案する。
提案手法は,2組の抽象環境を構築し,抽象トラジェクトリを生成し,抽象から実行可能なトラジェクトリトランスレータによって元のタスクを解くという,複雑な長期タスクを3つのステップで解決する。
論文 参考訳(メタデータ) (2022-10-14T09:17:34Z) - Generalization with Lossy Affordances: Leveraging Broad Offline Data for
Learning Visuomotor Tasks [65.23947618404046]
本研究では,広範囲なデータを用いたオフライン強化学習を通じて,時間的拡張タスクの目標条件付きポリシを取得するフレームワークを提案する。
新たなタスク目標に直面した場合、フレームワークは余裕モデルを使用して、元のタスクをより簡単な問題に分解するサブゴールとして、損失のある表現のシーケンスを計画する。
我々は,従来の作業からロボット体験の大規模データセットを事前学習し,手動の報酬工学を使わずに視覚入力から,新しいタスクを効率的に微調整できることを実証した。
論文 参考訳(メタデータ) (2022-10-12T21:46:38Z) - Planning to Practice: Efficient Online Fine-Tuning by Composing Goals in
Latent Space [76.46113138484947]
汎用ロボットは、現実世界の非構造環境において困難なタスクを完了するために、多様な行動レパートリーを必要とする。
この問題に対処するため、目標条件強化学習は、コマンド上の幅広いタスクの目標に到達可能なポリシーを取得することを目的としている。
本研究では,長期的課題に対する目標条件付き政策を実践的に訓練する手法であるPlanning to Practiceを提案する。
論文 参考訳(メタデータ) (2022-05-17T06:58:17Z) - CLIPort: What and Where Pathways for Robotic Manipulation [35.505615833638124]
広義の意味理解とトランスポーターの空間的精度を組み合わせた言語条件の模倣学習エージェントであるCLIPortを提案する。
我々のフレームワークは、オブジェクトのポーズ、インスタンスのセグメンテーション、メモリ、シンボル状態、構文構造の明示的な表現なしに、様々な言語仕様のテーブルトップタスクを解くことができる。
論文 参考訳(メタデータ) (2021-09-24T17:44:28Z) - Learning to Shift Attention for Motion Generation [55.61994201686024]
ロボット学習を用いた動作生成の課題の1つは、人間のデモが1つのタスククエリに対して複数のモードを持つ分布に従うことである。
以前のアプローチでは、すべてのモードをキャプチャできなかったり、デモの平均モードを取得できないため、無効なトラジェクトリを生成する傾向があった。
この問題を克服する外挿能力を有するモーション生成モデルを提案する。
論文 参考訳(メタデータ) (2021-02-24T09:07:52Z) - Modeling Long-horizon Tasks as Sequential Interaction Landscapes [75.5824586200507]
本稿では,一連のデモビデオからのみ,サブタスク間の依存関係と遷移を学習するディープラーニングネットワークを提案する。
これらのシンボルは、画像観察から直接学習し、予測できることが示される。
我々は,(1)人間によって実行されるパズル片のブロック積み重ね,(2)物体のピック・アンド・プレイスとキャビネットドアを7-DoFロボットアームで滑らせるロボット操作という,2つの長期水平作業において,我々の枠組みを評価する。
論文 参考訳(メタデータ) (2020-06-08T18:07:18Z) - Transferable Task Execution from Pixels through Deep Planning Domain
Learning [46.88867228115775]
階層モデルを学ぶために,DPDL(Deep Planning Domain Learning)を提案する。
DPDLは、現在の象徴的世界状態からなる論理述語セットの値を予測する高レベルモデルを学ぶ。
これにより、ロボットが明示的に訓練されていなくても、複雑なマルチステップタスクを実行できます。
論文 参考訳(メタデータ) (2020-03-08T05:51:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。