論文の概要: S$^2$-Diffusion: Generalizing from Instance-level to Category-level Skills in Robot Manipulation
- arxiv url: http://arxiv.org/abs/2502.09389v2
- Date: Mon, 17 Feb 2025 08:38:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:09:34.480892
- Title: S$^2$-Diffusion: Generalizing from Instance-level to Category-level Skills in Robot Manipulation
- Title(参考訳): S$^2$-Diffusion:ロボット操作におけるインスタンスレベルからカテゴリレベルスキルへの一般化
- Authors: Quantao Yang, Michael C. Welle, Danica Kragic, Olov Andersson,
- Abstract要約: 事例レベルの学習データからカテゴリレベルへの一般化を可能にするオープン語彙空間意味拡散政策(S$2$-Diffusion)を提案する。
本研究では, 空間表現と組み合わせて, プロンプト可能なセマンティックモジュールによって, スキルの機能的側面を捉えることができることを示す。
その結果、S$2$-Diffusionはカテゴリ非関連要因の変化に不変であり、同じカテゴリ内の他のインスタンスで、たとえ特定のインスタンスでトレーニングされていなくても、満足できることを示した。
- 参考スコア(独自算出の注目度): 14.36036106689291
- License:
- Abstract: Recent advances in skill learning has propelled robot manipulation to new heights by enabling it to learn complex manipulation tasks from a practical number of demonstrations. However, these skills are often limited to the particular action, object, and environment \textit{instances} that are shown in the training data, and have trouble transferring to other instances of the same category. In this work we present an open-vocabulary Spatial-Semantic Diffusion policy (S$^2$-Diffusion) which enables generalization from instance-level training data to category-level, enabling skills to be transferable between instances of the same category. We show that functional aspects of skills can be captured via a promptable semantic module combined with a spatial representation. We further propose leveraging depth estimation networks to allow the use of only a single RGB camera. Our approach is evaluated and compared on a diverse number of robot manipulation tasks, both in simulation and in the real world. Our results show that S$^2$-Diffusion is invariant to changes in category-irrelevant factors as well as enables satisfying performance on other instances within the same category, even if it was not trained on that specific instance. Full videos of all real-world experiments are available in the supplementary material.
- Abstract(参考訳): 近年のスキル学習の進歩は、実用的な多数のデモンストレーションから複雑な操作タスクを学習できるようにすることで、ロボット操作を新しい高さに推進している。
しかしながら、これらのスキルはトレーニングデータに示される特定のアクション、オブジェクト、環境 \textit{instances} に限られており、同じカテゴリの他のインスタンスに転送するのに苦労しています。
本研究では,事例レベルのトレーニングデータからカテゴリレベルへの一般化を可能にし,同一カテゴリのインスタンス間でスキルの伝達を可能にするオープン語彙空間意味拡散ポリシー(S$^2$-Diffusion)を提案する。
本研究では, 空間表現と組み合わせて, プロンプト可能なセマンティックモジュールによって, スキルの機能的側面を捉えることができることを示す。
さらに,1台のRGBカメラのみを使用できる深さ推定ネットワークを提案する。
本手法は,シミュレーションと実環境の両方において,多様なロボット操作タスクの評価と比較を行う。
S$^2$-Diffusion is invariant to change in category-rerelevant factors and allow to fulfilling performance on other instance in the same category, if it did not trained on that particular instance。
実際の実験の完全なビデオは補足資料で見ることができる。
関連論文リスト
- A Pattern Language for Machine Learning Tasks [0.0]
我々は客観的関数を学習者の行動に関する制約と見なしている。
動作の中核となるタスクと実装の詳細を分離できる形式的なグラフィカル言語を開発する。
概念実証として、「マニピュレータ」と呼ぶ生成モデルに分類器を変換できる新しいタスクを設計する。
論文 参考訳(メタデータ) (2024-07-02T16:50:27Z) - Learning Generalizable Feature Fields for Mobile Manipulation [25.155275186849558]
本稿では,実時間でのナビゲーションと操作の統一表現として機能する,シーンレベルの一般化可能なニューラル特徴場であるGeFFを提案する。
オープンボキャブラリオブジェクト/部分レベルの操作におけるGeFFの能力を定量的に評価し、GeFFが実行時の点ベースラインとストレージ精度のトレードオフよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-03-12T11:51:55Z) - Learning Reusable Manipulation Strategies [86.07442931141634]
人間は「トリック」を習得し、一般化する素晴らしい能力を実証する
本稿では,機械が1つの実演と自己演奏によってこのような操作スキルを習得することを可能にするフレームワークを提案する。
これらの学習メカニズムとサンプルは、標準的なタスクやモーションプランナにシームレスに統合できる。
論文 参考訳(メタデータ) (2023-11-06T17:35:42Z) - Where2Explore: Few-shot Affordance Learning for Unseen Novel Categories
of Articulated Objects [15.989258402792755]
Where2Explore"は、限られた数のインスタンスで最小限のインタラクションを持つ新しいカテゴリを効果的に探求するフレームワークである。
本フレームワークは, 異なるカテゴリ間の幾何学的類似性を明示的に推定し, 効率的な探索のための訓練カテゴリの形状と異なる局所領域を同定する。
論文 参考訳(メタデータ) (2023-09-14T07:11:58Z) - Universal Instance Perception as Object Discovery and Retrieval [90.96031157557806]
UNIは多様なインスタンス認識タスクを統一されたオブジェクト発見・検索パラダイムに再構成する。
入力プロンプトを変更するだけで、さまざまな種類のオブジェクトを柔軟に知覚することができる。
UNIは10のインスタンスレベルのタスクから20の挑戦的なベンチマークで優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2023-03-12T14:28:24Z) - Visual Transformer for Task-aware Active Learning [49.903358393660724]
プールベースのアクティブラーニングのための新しいパイプラインを提案する。
提案手法は,学習中に使用可能なアンラベリング例を利用して,ラベル付き例との相関関係を推定する。
ビジュアルトランスフォーマーは、ラベル付き例と非ラベル付き例の間の非ローカルビジュアル概念依存性をモデル化する。
論文 参考訳(メタデータ) (2021-06-07T17:13:59Z) - Conditional Meta-Learning of Linear Representations [57.90025697492041]
表現学習のための標準メタラーニングは、複数のタスク間で共有される共通の表現を見つけることを目的とする。
本研究では,タスクの側情報を手作業に適した表現にマッピングし,条件付け関数を推定することで,この問題を克服する。
この利点を実用的に活用できるメタアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-30T12:02:14Z) - Learning to Shift Attention for Motion Generation [55.61994201686024]
ロボット学習を用いた動作生成の課題の1つは、人間のデモが1つのタスククエリに対して複数のモードを持つ分布に従うことである。
以前のアプローチでは、すべてのモードをキャプチャできなかったり、デモの平均モードを取得できないため、無効なトラジェクトリを生成する傾向があった。
この問題を克服する外挿能力を有するモーション生成モデルを提案する。
論文 参考訳(メタデータ) (2021-02-24T09:07:52Z) - Transformers for One-Shot Visual Imitation [28.69615089950047]
人間は、意図を推測し、過去の経験を使って同じ目的を達成することで、他人をシームレスに模倣することができる。
ロボット模倣学習の以前の研究は、専門家の人間のオペレーターから多様なスキルを習得できるエージェントを作成した。
本稿では,ロボットが過去の経験を生かして,これらの領域のギャップを部分的に埋めることのできる手法について検討する。
論文 参考訳(メタデータ) (2020-11-11T18:41:07Z) - Visual Imitation Made Easy [102.36509665008732]
本稿では,ロボットへのデータ転送を容易にしながら,データ収集プロセスを単純化する,模倣のための代替インターフェースを提案する。
我々は、データ収集装置やロボットのエンドエフェクターとして、市販のリーチ・グラブラー補助具を使用する。
我々は,非包括的プッシュと包括的積み重ねという2つの課題について実験的に評価した。
論文 参考訳(メタデータ) (2020-08-11T17:58:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。