論文の概要: RT-Affordance: Affordances are Versatile Intermediate Representations for Robot Manipulation
- arxiv url: http://arxiv.org/abs/2411.02704v1
- Date: Tue, 05 Nov 2024 01:02:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-06 15:02:19.951050
- Title: RT-Affordance: Affordances are Versatile Intermediate Representations for Robot Manipulation
- Title(参考訳): RT-Affordance:Affordances is Versatile Intermediate Representations for Robot Manipulation
- Authors: Soroush Nasiriany, Sean Kirmani, Tianli Ding, Laura Smith, Yuke Zhu, Danny Driess, Dorsa Sadigh, Ted Xiao,
- Abstract要約: 本稿では,タスクの重要段階においてロボットのポーズを捉えた割安条件の条件付けについて提案する。
RT-Affordanceという手法は階層モデルであり,まずタスク言語が与えられた割当計画を提案する。
RT-Affordanceが既存手法の性能を50%以上上回る新しいタスク群を示す。
- 参考スコア(独自算出の注目度): 52.14638923430338
- License:
- Abstract: We explore how intermediate policy representations can facilitate generalization by providing guidance on how to perform manipulation tasks. Existing representations such as language, goal images, and trajectory sketches have been shown to be helpful, but these representations either do not provide enough context or provide over-specified context that yields less robust policies. We propose conditioning policies on affordances, which capture the pose of the robot at key stages of the task. Affordances offer expressive yet lightweight abstractions, are easy for users to specify, and facilitate efficient learning by transferring knowledge from large internet datasets. Our method, RT-Affordance, is a hierarchical model that first proposes an affordance plan given the task language, and then conditions the policy on this affordance plan to perform manipulation. Our model can flexibly bridge heterogeneous sources of supervision including large web datasets and robot trajectories. We additionally train our model on cheap-to-collect in-domain affordance images, allowing us to learn new tasks without collecting any additional costly robot trajectories. We show on a diverse set of novel tasks how RT-Affordance exceeds the performance of existing methods by over 50%, and we empirically demonstrate that affordances are robust to novel settings. Videos available at https://snasiriany.me/rt-affordance
- Abstract(参考訳): 本稿では、操作タスクの実行方法に関するガイダンスを提供することで、中間ポリシー表現が一般化を促進する方法について考察する。
言語、ゴールイメージ、軌跡スケッチなどの既存の表現は有用であることが示されているが、これらの表現は十分なコンテキストを提供していないか、より堅牢なポリシーをもたらす過剰なコンテキストを提供するかのいずれかである。
本稿では,タスクの重要段階においてロボットのポーズを捉えた割安条件の条件付けについて提案する。
Affordancesは表現力豊かで軽量な抽象化を提供し、ユーザが指定しやすく、大規模なインターネットデータセットから知識を転送することで、効率的な学習を容易にする。
我々の手法であるRT-Affordanceは、まずタスク言語に与えられた割当計画を提案し、次に操作を行うための割当計画に関するポリシーを定めている階層モデルである。
我々のモデルは、大規模なウェブデータセットやロボット軌道を含む異種資源を柔軟に橋渡しすることができる。
さらに、我々は、安価なドメイン単位の空き地画像に基づいてモデルをトレーニングし、コストのかかるロボットの軌跡を収集することなく、新しいタスクを学習できるようにします。
RT-Affordanceが既存の手法の性能を50%以上上回るような新しいタスクの多種多様なセットを示し、新しい設定に余裕が強いことを実証的に実証する。
https://snasiriany.me/rt-affordance.comで公開されているビデオ
関連論文リスト
- Flex: End-to-End Text-Instructed Visual Navigation with Foundation Models [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。
この知見はFlex (Fly-lexically) で合成され,VLM(Vision Language Models) をフリーズしたパッチワイド特徴抽出器として利用するフレームワークである。
本研究では,本手法が4段階のフライ・トゥ・ターゲットタスクにおいて有効であることを示す。
論文 参考訳(メタデータ) (2024-10-16T19:59:31Z) - Affordance-Centric Policy Learning: Sample Efficient and Generalisable Robot Policy Learning using Affordance-Centric Task Frames [15.800100875117312]
改善はロボット操作の中心であり、ほとんどのタスクは、オブジェクト上のタスク固有の領域とのインタラクションに単純化することができる。
そこで本稿では,これらの空き領域におけるテキストのテキスト化を適切に行う,空き領域中心のポリシー学習手法を提案する。
提案手法は,10個の実演から305個の実演で訓練された画像ベースのポリシーに準じて,行動クローンを用いて操作タスクを学習できることを実証する。
論文 参考訳(メタデータ) (2024-10-15T23:57:35Z) - Affordance-based Robot Manipulation with Flow Matching [6.863932324631107]
本フレームワークは,ロボット操作のためのフローマッチングにより,相性モデル学習と軌道生成をシームレスに統合する。
評価の結果,提案手法は,言語プロンサによる手軽さを学習し,競争性能を向上することがわかった。
本フレームワークは,ロボット操作のためのフローマッチングにより,相性モデル学習と軌道生成をシームレスに統合する。
論文 参考訳(メタデータ) (2024-09-02T09:11:28Z) - RT-Trajectory: Robotic Task Generalization via Hindsight Trajectory
Sketches [74.300116260004]
一般化は、ロバストなロボット学習システムにとって最も重要なデシダータの1つである。
粗い軌道スケッチを用いたポリシー条件付け手法を提案する。
RT-Trajectoryは言語条件や目標条件よりも幅広いタスクを実行できることを示す。
論文 参考訳(メタデータ) (2023-11-03T15:31:51Z) - RoboAgent: Generalization and Efficiency in Robot Manipulation via
Semantic Augmentations and Action Chunking [54.776890150458385]
マルチタスク操作能力を持つユニバーサルエージェントを訓練するための効率的なシステムを開発した。
私たちは、12のスキルを持つ1つのエージェントを訓練することができ、38のタスクでその一般化を実証することができます。
平均すると、RoboAgentは目に見えない状況において、従来の方法よりも40%以上性能が高い。
論文 参考訳(メタデータ) (2023-09-05T03:14:39Z) - Generalization with Lossy Affordances: Leveraging Broad Offline Data for
Learning Visuomotor Tasks [65.23947618404046]
本研究では,広範囲なデータを用いたオフライン強化学習を通じて,時間的拡張タスクの目標条件付きポリシを取得するフレームワークを提案する。
新たなタスク目標に直面した場合、フレームワークは余裕モデルを使用して、元のタスクをより簡単な問題に分解するサブゴールとして、損失のある表現のシーケンスを計画する。
我々は,従来の作業からロボット体験の大規模データセットを事前学習し,手動の報酬工学を使わずに視覚入力から,新しいタスクを効率的に微調整できることを実証した。
論文 参考訳(メタデータ) (2022-10-12T21:46:38Z) - Visuomotor Control in Multi-Object Scenes Using Object-Aware
Representations [25.33452947179541]
ロボット作業におけるオブジェクト指向表現学習の有効性を示す。
本モデルは,サンプル効率のよい制御ポリシーを学習し,最先端のオブジェクト技術より優れている。
論文 参考訳(メタデータ) (2022-05-12T19:48:11Z) - Learning Sensorimotor Primitives of Sequential Manipulation Tasks from
Visual Demonstrations [13.864448233719598]
本稿では,低レベルポリシーと高レベルポリシーを同時に学習するニューラルネットワークベースの新しいフレームワークについて述べる。
提案手法の重要な特徴は、これらのポリシーがタスクデモの生のビデオから直接学習されることである。
ロボットアームを用いた物体操作タスクの実証実験の結果,提案するネットワークは実際の視覚的な実演から効率よく学習し,タスクを実行することができることがわかった。
論文 参考訳(メタデータ) (2022-03-08T01:36:48Z) - COG: Connecting New Skills to Past Experience with Offline Reinforcement
Learning [78.13740204156858]
我々は、動的プログラミングによって新しいスキルを拡張するために、事前データを再利用できることを示します。
我々は、新しいタスクを解決するために、以前のデータセットに見られるいくつかの動作をチェーンすることで、アプローチの有効性を実証する。
我々は、高次元画像観察を低レベルのロボット制御コマンドにマッピングし、エンドツーエンドでポリシーを訓練する。
論文 参考訳(メタデータ) (2020-10-27T17:57:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。