論文の概要: UAD: Unsupervised Affordance Distillation for Generalization in Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2506.09284v1
- Date: Tue, 10 Jun 2025 22:47:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:02.140042
- Title: UAD: Unsupervised Affordance Distillation for Generalization in Robotic Manipulation
- Title(参考訳): UAD:ロボットマニピュレーションの一般化のための教師なしアフラマンス蒸留法
- Authors: Yihe Tang, Wenlong Huang, Yingke Wang, Chengshu Li, Roy Yuan, Ruohan Zhang, Jiajun Wu, Li Fei-Fei,
- Abstract要約: UAD (Unsupervised Affordance Distillation) は、基礎モデルから手動のアノテーションを使わずにタスク条件付き空調モデルに空調知識を蒸留する方法である。
UADは、シミュレーションにおいてレンダリング対象にのみ訓練されているにもかかわらず、現場でのロボットシーンや様々な人間の活動に顕著な一般化を示す。
- 参考スコア(独自算出の注目度): 26.541933334530043
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding fine-grained object affordances is imperative for robots to manipulate objects in unstructured environments given open-ended task instructions. However, existing methods of visual affordance predictions often rely on manually annotated data or conditions only on a predefined set of tasks. We introduce UAD (Unsupervised Affordance Distillation), a method for distilling affordance knowledge from foundation models into a task-conditioned affordance model without any manual annotations. By leveraging the complementary strengths of large vision models and vision-language models, UAD automatically annotates a large-scale dataset with detailed $<$instruction, visual affordance$>$ pairs. Training only a lightweight task-conditioned decoder atop frozen features, UAD exhibits notable generalization to in-the-wild robotic scenes and to various human activities, despite only being trained on rendered objects in simulation. Using affordance provided by UAD as the observation space, we show an imitation learning policy that demonstrates promising generalization to unseen object instances, object categories, and even variations in task instructions after training on as few as 10 demonstrations. Project website: https://unsup-affordance.github.io/
- Abstract(参考訳): ロボットがオープンエンドのタスク命令を与えられた非構造化環境でオブジェクトを操作するためには、きめ細かいオブジェクトの余裕を理解することが不可欠である。
しかし、既存の視覚的アベイランス予測手法は、事前に定義されたタスクセットにのみ手動で注釈付けされたデータや条件に依存することが多い。
UAD(Unsupervised Affordance Distillation)は,基礎モデルから手動のアノテーションを使わずに,タスク条件付き空調モデルに空調知識を蒸留する方法である。
大規模ビジョンモデルと視覚言語モデルの相補的な強みを活用することで、UDAは、詳細な$<instruction, visual affordance$>$ pairsで、大規模なデータセットを自動的に注釈する。
凍結した特徴の上の軽量のタスクコンディションデコーダのみを訓練するUADは、シミュレーションでレンダリングされたオブジェクトにのみ訓練されているにもかかわらず、その内部のロボットシーンや様々な人間の活動への顕著な一般化を示す。
観察空間としてUADが提供する手頃さを用いて,10件の実証実験を行ない,未確認のオブジェクトインスタンス,オブジェクトカテゴリ,さらにはタスク命令のバリエーションまで,有望な一般化を示す模擬学習方針を示す。
プロジェクトウェブサイト:https://unsup-affordance.github.io/
関連論文リスト
- Explanatory Instructions: Towards Unified Vision Tasks Understanding and Zero-shot Generalization [77.36122979882649]
コンピュータビジョン(CV)は自然言語処理(NLP)で観測されるゼロショットタスクの一般化をまだ完全に達成していない
本稿では,ゼロショットタスクの一般化において重要な障壁となる離散的・用語的タスク定義をCVが採用するという考えを考察する。
我々の仮説は、これらの用語的定義により、以前に見いだされたタスクを真に理解せずに、ディープモデルは新しいタスクに一般化するのに苦労する、というものである。
論文 参考訳(メタデータ) (2024-12-24T16:08:25Z) - Keypoint Abstraction using Large Models for Object-Relative Imitation Learning [78.92043196054071]
多様なタスクや環境にまたがる新しいオブジェクト構成やインスタンスへの一般化は、ロボット工学において重要な課題である。
キーポイントに基づく表現は、本質的なオブジェクトキャプチャ機能のための簡潔な表現として有効であることが証明されている。
本稿では,タスク関連およびクロスインスタンス整合性キーポイントの自動生成に,大規模な事前学習型視覚言語モデルを活用するフレームワークであるKALMを提案する。
論文 参考訳(メタデータ) (2024-10-30T17:37:31Z) - Latent Action Pretraining from Videos [156.88613023078778]
一般行動モデル(LAPA)のための潜在行動事前訓練について紹介する。
LAPA(英: LAPA)は、VLA(Vision-Language-Action)モデルに接地型ロボットアクションラベルを含まない教師なしの訓練方法である。
本稿では,ロボットアクションラベルを持たないインターネット規模のビデオから学習する手法を提案する。
論文 参考訳(メタデータ) (2024-10-15T16:28:09Z) - Robot Instance Segmentation with Few Annotations for Grasping [10.005879464111915]
セミスーパーバイザードラーニング(SSL)とラーニング・スルー・インタラクション(LTI)を組み合わせた新しいフレームワークを提案する。
提案手法は,自己スーパービジョンによる注釈付きデータを利用して,ラベルのない静止画像から生成された擬似シーケンスを用いて時間的コンテキストを組み込む。
本手法をARMBenchmix-object-toteとOCIDの2つのベンチマークで検証し,最先端性能を実現する。
論文 参考訳(メタデータ) (2024-07-01T13:58:32Z) - Policy Adaptation from Foundation Model Feedback [31.5870515250885]
視覚言語基盤モデルの最近の進歩は、汎用ロボットの構築に大きな進歩をもたらした。
事前訓練されたモデルを使用してシーンと命令を意思決定の入力としてエンコードすることで、命令条件付きポリシーはさまざまなオブジェクトやタスクにわたって一般化することができる。
本研究では,基礎モデルフィードバック(PAFF)からのポリシー適応を提案する。
PAFFはすべてのケースにおいて大きなマージンでベースラインを改善することを示す。
論文 参考訳(メタデータ) (2022-12-14T18:31:47Z) - Visuomotor Control in Multi-Object Scenes Using Object-Aware
Representations [25.33452947179541]
ロボット作業におけるオブジェクト指向表現学習の有効性を示す。
本モデルは,サンプル効率のよい制御ポリシーを学習し,最先端のオブジェクト技術より優れている。
論文 参考訳(メタデータ) (2022-05-12T19:48:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。