論文の概要: ObjectVLA: End-to-End Open-World Object Manipulation Without Demonstration
- arxiv url: http://arxiv.org/abs/2502.19250v1
- Date: Wed, 26 Feb 2025 15:56:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-27 14:56:33.038527
- Title: ObjectVLA: End-to-End Open-World Object Manipulation Without Demonstration
- Title(参考訳): ObjectVLA: デモなしのオープンワールドオブジェクト操作
- Authors: Minjie Zhu, Yichen Zhu, Jinming Li, Zhongyi Zhou, Junjie Wen, Xiaoyu Liu, Chaomin Shen, Yaxin Peng, Feifei Feng,
- Abstract要約: 本稿では,視覚・言語・アクションモデルによるオブジェクトの一般化を実現するための,シンプルで効果的な手法を提案する。
我々の手法は、ターゲットオブジェクトに関する知識を注入する軽量でスケーラブルな方法を提供する。
我々は、実際のロボットプラットフォーム上でObjectVLAを評価し、64%の成功率で100の新規オブジェクトを一般化できることを実証した。
- 参考スコア(独自算出の注目度): 10.558622685760346
- License:
- Abstract: Imitation learning has proven to be highly effective in teaching robots dexterous manipulation skills. However, it typically relies on large amounts of human demonstration data, which limits its scalability and applicability in dynamic, real-world environments. One key challenge in this context is object generalization, where a robot trained to perform a task with one object, such as "hand over the apple," struggles to transfer its skills to a semantically similar but visually different object, such as "hand over the peach." This gap in generalization to new objects beyond those in the same category has yet to be adequately addressed in previous work on end-to-end visuomotor policy learning. In this paper, we present a simple yet effective approach for achieving object generalization through Vision-Language-Action (VLA) models, referred to as \textbf{ObjectVLA}. Our model enables robots to generalize learned skills to novel objects without requiring explicit human demonstrations for each new target object. By leveraging vision-language pair data, our method provides a lightweight and scalable way to inject knowledge about the target object, establishing an implicit link between the object and the desired action. We evaluate ObjectVLA on a real robotic platform, demonstrating its ability to generalize across 100 novel objects with a 64\% success rate in selecting objects not seen during training. Furthermore, we propose a more accessible method for enhancing object generalization in VLA models, using a smartphone to capture a few images and fine-tune the pre-trained model. These results highlight the effectiveness of our approach in enabling object-level generalization and reducing the need for extensive human demonstrations, paving the way for more flexible and scalable robotic learning systems.
- Abstract(参考訳): 模倣学習は、ロボットに巧妙な操作スキルを教えるのに非常に効果的であることが証明されている。
しかし、それは典型的には大量の人間のデモデータに依存しており、動的で現実世界の環境でのスケーラビリティと適用性を制限している。
この文脈における重要な課題の1つは、物体の一般化であり、例えば「リンゴの手」のような一つの物体でタスクを実行するように訓練されたロボットは、そのスキルを意味的に似ているが視覚的に異なる物体(例えば「桃の手」など)に移すことに苦労する。
同じカテゴリのオブジェクト以外の新しいオブジェクトへの一般化のギャップは、エンド・ツー・エンドのビズモータ・ポリシー学習に関する以前の研究において、まだ適切に対処されていない。
本稿では,VLA(Vision-Language-Action)モデルを用いてオブジェクトの一般化を実現するための,単純かつ効果的なアプローチを提案する。
本モデルでは,ロボットが学習したスキルを新しい物体に一般化することを可能にする。
視覚言語対のデータを活用することで,対象オブジェクトに関する知識を注入する軽量でスケーラブルな方法を提供し,対象オブジェクトと所望のアクションとの間に暗黙のリンクを確立する。
我々は、実際のロボットプラットフォーム上でObjectVLAを評価し、トレーニング中に見えないオブジェクトを選択する場合、64倍の成功率で100個の新しいオブジェクトを一般化できることを実証した。
さらに,VLAモデルにおけるオブジェクトの一般化を促進するために,スマートフォンを用いていくつかの画像をキャプチャし,事前学習したモデルを微調整する手法を提案する。
これらの結果は,より柔軟でスケーラブルなロボット学習システムを実現するために,オブジェクトレベルの一般化の実現と,人間の広範なデモンストレーションの必要性の低減に,我々のアプローチの有効性を強調している。
関連論文リスト
- Keypoint Abstraction using Large Models for Object-Relative Imitation Learning [78.92043196054071]
多様なタスクや環境にまたがる新しいオブジェクト構成やインスタンスへの一般化は、ロボット工学において重要な課題である。
キーポイントに基づく表現は、本質的なオブジェクトキャプチャ機能のための簡潔な表現として有効であることが証明されている。
本稿では,タスク関連およびクロスインスタンス整合性キーポイントの自動生成に,大規模な事前学習型視覚言語モデルを活用するフレームワークであるKALMを提案する。
論文 参考訳(メタデータ) (2024-10-30T17:37:31Z) - Latent Action Pretraining from Videos [156.88613023078778]
一般行動モデル(LAPA)のための潜在行動事前訓練について紹介する。
LAPA(英: LAPA)は、VLA(Vision-Language-Action)モデルに接地型ロボットアクションラベルを含まない教師なしの訓練方法である。
本稿では,ロボットアクションラベルを持たないインターネット規模のビデオから学習する手法を提案する。
論文 参考訳(メタデータ) (2024-10-15T16:28:09Z) - Kinematic-aware Prompting for Generalizable Articulated Object
Manipulation with LLMs [53.66070434419739]
汎用的なオブジェクト操作は、ホームアシストロボットにとって不可欠である。
本稿では,物体のキネマティックな知識を持つ大規模言語モデルに対して,低レベル動作経路を生成するキネマティック・アウェア・プロンプト・フレームワークを提案する。
我々のフレームワークは8つのカテゴリで従来の手法よりも優れており、8つの未確認対象カテゴリに対して強力なゼロショット能力を示している。
論文 参考訳(メタデータ) (2023-11-06T03:26:41Z) - Transferring Foundation Models for Generalizable Robotic Manipulation [82.12754319808197]
インターネット規模の基盤モデルによって生成された言語推論セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。
提案手法は,オブジェクトのポーズを効果的かつ堅牢に知覚し,サンプル効率のよい一般化学習を可能にする。
デモは提出されたビデオで見ることができ、より包括的なデモはlink1またはlink2で見ることができます。
論文 参考訳(メタデータ) (2023-06-09T07:22:12Z) - SOS! Self-supervised Learning Over Sets Of Handled Objects In Egocentric
Action Recognition [35.4163266882568]
本稿では,SOS(Self-Supervised Learning Over Sets)を導入し,OIC(ジェネリック・オブジェクト・イン・コンタクト)表現モデルを事前学習する。
OICは複数の最先端ビデオ分類モデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2022-04-10T23:27:19Z) - Affordance Learning from Play for Sample-Efficient Policy Learning [30.701546777177555]
遠隔操作型プレイデータから自己監督型ビジュアルアプライアンスモデルを用いて,効率的なポリシー学習とモーションプランニングを実現する。
モデルベースプランニングとモデルフリーの深層強化学習を組み合わせることで、人々が好む同じ対象領域を好むポリシーを学ぶ。
我々の政策はベースラインよりも4倍速くトレーニングし、新しいオブジェクトを一般化する。
論文 参考訳(メタデータ) (2022-03-01T11:00:35Z) - Generalization in Dexterous Manipulation via Geometry-Aware Multi-Task
Learning [108.08083976908195]
既存の強化学習アルゴリズムで学習したポリシーは、実際は一般化可能であることを示す。
本稿では,100以上の幾何学的に異なる実世界のオブジェクトを,単一のジェネラリストポリシーで手動操作できることを示す。
興味深いことに、オブジェクトポイントクラウド表現によるマルチタスク学習は、より一般化するだけでなく、シングルオブジェクトのスペシャリストポリシーよりも優れています。
論文 参考訳(メタデータ) (2021-11-04T17:59:56Z) - ManiSkill: Learning-from-Demonstrations Benchmark for Generalizable
Manipulation Skills [27.214053107733186]
汎用オブジェクト操作スキルを学習するためのSAPIENマニピュレーションスキルベンチマーク(ManiSkill)を提案する。
ManiSkillは、リッチで多様な調音されたオブジェクトセットを利用することで、オブジェクトレベルのバリエーションをサポートする。
ManiSkillは、ロボットの学習コミュニティに、汎用的なオブジェクト操作スキルの学習を奨励する。
論文 参考訳(メタデータ) (2021-07-30T08:20:22Z) - Attribute-Based Robotic Grasping with One-Grasp Adaptation [9.255994599301712]
本稿では,属性に基づくロボットグリップのエンドツーエンド学習手法を提案する。
提案手法は,作業空間の画像とクエリテキストの埋め込みをゲートアテンション機構を用いて融合し,インスタンスの把握能力の予測を学習する。
シミュレーションと実世界での実験結果は、私たちのアプローチが80%以上のインスタンスで未知のオブジェクトの成功率を把握できることを示しています。
論文 参考訳(メタデータ) (2021-04-06T03:40:46Z) - Model-Based Visual Planning with Self-Supervised Functional Distances [104.83979811803466]
モデルに基づく視覚的目標達成のための自己監視手法を提案する。
私たちのアプローチは、オフラインでラベルなしのデータを使って完全に学習します。
このアプローチは,モデルフリーとモデルベース先行手法の両方で大幅に性能が向上することがわかった。
論文 参考訳(メタデータ) (2020-12-30T23:59:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。