論文の概要: UAD: Unsupervised Affordance Distillation for Generalization in Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2506.09284v1
- Date: Tue, 10 Jun 2025 22:47:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:02.140042
- Title: UAD: Unsupervised Affordance Distillation for Generalization in Robotic Manipulation
- Title(参考訳): UAD:ロボットマニピュレーションの一般化のための教師なしアフラマンス蒸留法
- Authors: Yihe Tang, Wenlong Huang, Yingke Wang, Chengshu Li, Roy Yuan, Ruohan Zhang, Jiajun Wu, Li Fei-Fei,
- Abstract要約: UAD (Unsupervised Affordance Distillation) は、基礎モデルから手動のアノテーションを使わずにタスク条件付き空調モデルに空調知識を蒸留する方法である。
UADは、シミュレーションにおいてレンダリング対象にのみ訓練されているにもかかわらず、現場でのロボットシーンや様々な人間の活動に顕著な一般化を示す。
- 参考スコア(独自算出の注目度): 26.541933334530043
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding fine-grained object affordances is imperative for robots to manipulate objects in unstructured environments given open-ended task instructions. However, existing methods of visual affordance predictions often rely on manually annotated data or conditions only on a predefined set of tasks. We introduce UAD (Unsupervised Affordance Distillation), a method for distilling affordance knowledge from foundation models into a task-conditioned affordance model without any manual annotations. By leveraging the complementary strengths of large vision models and vision-language models, UAD automatically annotates a large-scale dataset with detailed $<$instruction, visual affordance$>$ pairs. Training only a lightweight task-conditioned decoder atop frozen features, UAD exhibits notable generalization to in-the-wild robotic scenes and to various human activities, despite only being trained on rendered objects in simulation. Using affordance provided by UAD as the observation space, we show an imitation learning policy that demonstrates promising generalization to unseen object instances, object categories, and even variations in task instructions after training on as few as 10 demonstrations. Project website: https://unsup-affordance.github.io/
- Abstract(参考訳): ロボットがオープンエンドのタスク命令を与えられた非構造化環境でオブジェクトを操作するためには、きめ細かいオブジェクトの余裕を理解することが不可欠である。
しかし、既存の視覚的アベイランス予測手法は、事前に定義されたタスクセットにのみ手動で注釈付けされたデータや条件に依存することが多い。
UAD(Unsupervised Affordance Distillation)は,基礎モデルから手動のアノテーションを使わずに,タスク条件付き空調モデルに空調知識を蒸留する方法である。
大規模ビジョンモデルと視覚言語モデルの相補的な強みを活用することで、UDAは、詳細な$<instruction, visual affordance$>$ pairsで、大規模なデータセットを自動的に注釈する。
凍結した特徴の上の軽量のタスクコンディションデコーダのみを訓練するUADは、シミュレーションでレンダリングされたオブジェクトにのみ訓練されているにもかかわらず、その内部のロボットシーンや様々な人間の活動への顕著な一般化を示す。
観察空間としてUADが提供する手頃さを用いて,10件の実証実験を行ない,未確認のオブジェクトインスタンス,オブジェクトカテゴリ,さらにはタスク命令のバリエーションまで,有望な一般化を示す模擬学習方針を示す。
プロジェクトウェブサイト:https://unsup-affordance.github.io/
関連論文リスト
- Improving Generalization of Language-Conditioned Robot Manipulation [29.405161073483175]
いくつかの実演からオブジェクトアレンジメントタスクを学習するフレームワークを提案する。
シミュレーション環境と実世界のロボット環境の両方において,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2025-08-04T13:29:26Z) - FLARE: Robot Learning with Implicit World Modeling [87.81846091038676]
$textbfFLARE$は、予測潜在世界モデリングをロボットポリシー学習に統合する。
$textbfFLARE$は最先端のパフォーマンスを実現し、これまでのポリシー学習のベースラインを最大26%上回っている。
この結果は、暗黙の世界モデリングと高周波ロボット制御を組み合わせた汎用的でスケーラブルなアプローチとして$textbfFLARE$を確立した。
論文 参考訳(メタデータ) (2025-05-21T15:33:27Z) - $π_{0.5}$: a Vision-Language-Action Model with Open-World Generalization [81.73746512639283]
広義の一般化を実現するために異種タスクのコトレーニングを利用する$pi_0.5$に基づく新しいモデルについて述べる。
本研究では,エンド・ツー・エンドの学習支援ロボットシステムが,長期的かつ巧妙な操作能力を発揮することを初めて実証する。
論文 参考訳(メタデータ) (2025-04-22T17:31:29Z) - Explanatory Instructions: Towards Unified Vision Tasks Understanding and Zero-shot Generalization [77.36122979882649]
コンピュータビジョン(CV)は自然言語処理(NLP)で観測されるゼロショットタスクの一般化をまだ完全に達成していない
本稿では,ゼロショットタスクの一般化において重要な障壁となる離散的・用語的タスク定義をCVが採用するという考えを考察する。
我々の仮説は、これらの用語的定義により、以前に見いだされたタスクを真に理解せずに、ディープモデルは新しいタスクに一般化するのに苦労する、というものである。
論文 参考訳(メタデータ) (2024-12-24T16:08:25Z) - Keypoint Abstraction using Large Models for Object-Relative Imitation Learning [78.92043196054071]
多様なタスクや環境にまたがる新しいオブジェクト構成やインスタンスへの一般化は、ロボット工学において重要な課題である。
キーポイントに基づく表現は、本質的なオブジェクトキャプチャ機能のための簡潔な表現として有効であることが証明されている。
本稿では,タスク関連およびクロスインスタンス整合性キーポイントの自動生成に,大規模な事前学習型視覚言語モデルを活用するフレームワークであるKALMを提案する。
論文 参考訳(メタデータ) (2024-10-30T17:37:31Z) - Latent Action Pretraining from Videos [156.88613023078778]
一般行動モデル(LAPA)のための潜在行動事前訓練について紹介する。
LAPA(英: LAPA)は、VLA(Vision-Language-Action)モデルに接地型ロボットアクションラベルを含まない教師なしの訓練方法である。
本稿では,ロボットアクションラベルを持たないインターネット規模のビデオから学習する手法を提案する。
論文 参考訳(メタデータ) (2024-10-15T16:28:09Z) - Robot Instance Segmentation with Few Annotations for Grasping [10.005879464111915]
セミスーパーバイザードラーニング(SSL)とラーニング・スルー・インタラクション(LTI)を組み合わせた新しいフレームワークを提案する。
提案手法は,自己スーパービジョンによる注釈付きデータを利用して,ラベルのない静止画像から生成された擬似シーケンスを用いて時間的コンテキストを組み込む。
本手法をARMBenchmix-object-toteとOCIDの2つのベンチマークで検証し,最先端性能を実現する。
論文 参考訳(メタデータ) (2024-07-01T13:58:32Z) - Visual Affordance Prediction for Guiding Robot Exploration [56.17795036091848]
我々は,ロボット探索を導くための視覚能力の学習手法を開発した。
VQ-VAEの潜伏埋め込み空間における条件分布の学習にはTransformerベースのモデルを用いる。
本稿では,ロボット操作における視覚的目標条件付きポリシー学習において,目標サンプリング分布として機能することで探索を導くために,トレーニングされた余裕モデルをどのように利用できるかを示す。
論文 参考訳(メタデータ) (2023-05-28T17:53:09Z) - Policy Adaptation from Foundation Model Feedback [31.5870515250885]
視覚言語基盤モデルの最近の進歩は、汎用ロボットの構築に大きな進歩をもたらした。
事前訓練されたモデルを使用してシーンと命令を意思決定の入力としてエンコードすることで、命令条件付きポリシーはさまざまなオブジェクトやタスクにわたって一般化することができる。
本研究では,基礎モデルフィードバック(PAFF)からのポリシー適応を提案する。
PAFFはすべてのケースにおいて大きなマージンでベースラインを改善することを示す。
論文 参考訳(メタデータ) (2022-12-14T18:31:47Z) - Visuomotor Control in Multi-Object Scenes Using Object-Aware
Representations [25.33452947179541]
ロボット作業におけるオブジェクト指向表現学習の有効性を示す。
本モデルは,サンプル効率のよい制御ポリシーを学習し,最先端のオブジェクト技術より優れている。
論文 参考訳(メタデータ) (2022-05-12T19:48:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。