論文の概要: DexGraspVLA: A Vision-Language-Action Framework Towards General Dexterous Grasping
- arxiv url: http://arxiv.org/abs/2502.20900v1
- Date: Fri, 28 Feb 2025 09:57:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-03 13:41:08.104873
- Title: DexGraspVLA: A Vision-Language-Action Framework Towards General Dexterous Grasping
- Title(参考訳): DexGraspVLA: 一般的なデキスタラスグラスピングに向けたビジョンランゲージ・アクションフレームワーク
- Authors: Yifan Zhong, Xuchuan Huang, Ruochong Li, Ceyao Zhang, Yitao Liang, Yaodong Yang, Yuanpei Chen,
- Abstract要約: 汎用ロボットは任意のシナリオで多様な物体を把握できなければならない。
私たちのソリューションはDexGraspVLAです。これは、事前訓練されたビジョンランゲージモデルをハイレベルタスクプランナとして利用する階層的なフレームワークです。
本手法は, 数千の未確認物体, 照明, 背景の組み合わせで90%以上の成功率を達成する。
- 参考スコア(独自算出の注目度): 14.511049253735834
- License:
- Abstract: Dexterous grasping remains a fundamental yet challenging problem in robotics. A general-purpose robot must be capable of grasping diverse objects in arbitrary scenarios. However, existing research typically relies on specific assumptions, such as single-object settings or limited environments, leading to constrained generalization. Our solution is DexGraspVLA, a hierarchical framework that utilizes a pre-trained Vision-Language model as the high-level task planner and learns a diffusion-based policy as the low-level Action controller. The key insight lies in iteratively transforming diverse language and visual inputs into domain-invariant representations, where imitation learning can be effectively applied due to the alleviation of domain shift. Thus, it enables robust generalization across a wide range of real-world scenarios. Notably, our method achieves a 90+% success rate under thousands of unseen object, lighting, and background combinations in a ``zero-shot'' environment. Empirical analysis further confirms the consistency of internal model behavior across environmental variations, thereby validating our design and explaining its generalization performance. We hope our work can be a step forward in achieving general dexterous grasping. Our demo and code can be found at https://dexgraspvla.github.io/.
- Abstract(参考訳): 控えめな把握はロボティクスの根本的かつ困難な問題である。
汎用ロボットは任意のシナリオで多様な物体を把握できなければならない。
しかし、既存の研究は通常、単一対象の設定や限られた環境といった特定の仮定に依存しており、制約のある一般化につながっている。
DexGraspVLAは、事前学習されたビジョンランゲージモデルをハイレベルタスクプランナーとして利用し、低レベルアクションコントローラとして拡散ベースのポリシーを学ぶ階層的なフレームワークである。
重要な洞察は、様々な言語や視覚的な入力をドメイン不変表現に反復的に変換することにある。
これにより、幅広い現実世界のシナリオにまたがる堅牢な一般化が可能になる。
特に, 「ゼロショット」環境下では, 数千の未確認物体, 照明, 背景の組み合わせで90%以上の成功率を達成する。
実験解析により, 環境変動にまたがる内部モデル挙動の整合性を確認し, 設計の妥当性を確認し, その一般化性能を説明する。
私たちの仕事が、全般的な巧妙な把握を達成するための一歩になることを願っています。
私たちのデモとコードはhttps://dexgraspvla.github.io/.com/で公開されています。
関連論文リスト
- HAMSTER: Hierarchical Action Models For Open-World Robot Manipulation [54.03004125910057]
階層型視覚-言語-アクションモデルは、標準的なモノリシックVLAモデルよりも、ドメイン外のデータを利用するのに効果的であることを示す。
階層設計により、高レベルなVLMは、オフドメイン微調整データと実ロボットテストシナリオの間の重要なドメインギャップをまたいで転送可能であることを示す。
論文 参考訳(メタデータ) (2025-02-08T07:50:22Z) - Beyond Sight: Finetuning Generalist Robot Policies with Heterogeneous Sensors via Language Grounding [85.63710017456792]
FuSeは、不均一なセンサのモダリティに対する微調整型ビズモータ一般政策を可能にする新しいアプローチである。
FuSeは視覚,触覚,音などのモーダル性に対して共同で推論を必要とする挑戦的なタスクを実行できることを示す。
実世界での実験では、FuSeisはすべての基準ラインと比較して成功率を20%以上引き上げることができた。
論文 参考訳(メタデータ) (2025-01-08T18:57:33Z) - GHIL-Glue: Hierarchical Control with Filtered Subgoal Images [68.36060286192262]
Generative Hierarchical Imitation Learning-Glue (GHIL-Glue) は、言語条件のイメージやビデオ予測モデルを低レベルな目標条件のポリシーで結合するインタフェースである。
GHIL-Glueはタスクの進行に繋がらないサブゴールをフィルタリングし、有害な視覚的アーティファクトを持つ生成されたサブゴールに対するゴール条件付きポリシーの堅牢性を改善する。
我々は、GHIL-Glueが生成サブゴールを利用する複数の階層モデルに対して25%改善するシミュレーション環境と実環境の両方において、広範な実験を行った。
論文 参考訳(メタデータ) (2024-10-26T00:32:21Z) - GenRL: Multimodal-foundation world models for generalization in embodied agents [12.263162194821787]
強化学習(RL)は、タスクごとに複雑な報酬設計を必要とするため、スケールアップが難しい。
現在の基盤視覚言語モデル(VLM)は、微調整やその他の適応を具体的文脈で適用する必要がある。
このような領域におけるマルチモーダルデータの欠如は、具体化されたアプリケーションの基盤モデルを開発する上での障害である。
論文 参考訳(メタデータ) (2024-06-26T03:41:48Z) - Transferring Foundation Models for Generalizable Robotic Manipulation [82.12754319808197]
インターネット規模の基盤モデルによって生成された言語推論セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。
提案手法は,オブジェクトのポーズを効果的かつ堅牢に知覚し,サンプル効率のよい一般化学習を可能にする。
デモは提出されたビデオで見ることができ、より包括的なデモはlink1またはlink2で見ることができます。
論文 参考訳(メタデータ) (2023-06-09T07:22:12Z) - Pre-Trained Language Models for Interactive Decision-Making [72.77825666035203]
目的と観測を埋め込みのシーケンスとして表現する模倣学習の枠組みを述べる。
このフレームワークは様々な環境にまたがって効果的な一般化を可能にすることを実証する。
新たなゴールや新しいシーンを含むテストタスクでは、言語モデルによる初期化ポリシーはタスク完了率を43.6%改善する。
論文 参考訳(メタデータ) (2022-02-03T18:55:52Z) - Robust Policies via Mid-Level Visual Representations: An Experimental
Study in Manipulation and Navigation [115.4071729927011]
エンド・ツー・エンドのRLフレームワークにおいて,中間レベルの視覚表現を汎用的かつ容易に認識可能な知覚状態として用いることの効果について検討した。
一般化を支援し、サンプルの複雑さを改善し、最終的なパフォーマンスを高めることを示します。
実際には、ドメインのランダム化やスクラッチからの学習が失敗したタスクのポリシーをうまくトレーニングするために、中間レベルの表現が使用できる。
論文 参考訳(メタデータ) (2020-11-13T00:16:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。