論文の概要: DexVLG: Dexterous Vision-Language-Grasp Model at Scale
- arxiv url: http://arxiv.org/abs/2507.02747v1
- Date: Thu, 03 Jul 2025 16:05:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-04 15:37:16.579195
- Title: DexVLG: Dexterous Vision-Language-Grasp Model at Scale
- Title(参考訳): DexVLG:Dexterous Vision-Language-Grasp Model at Scale
- Authors: Jiawei He, Danshi Li, Xinqiang Yu, Zekun Qi, Wenyao Zhang, Jiayi Chen, Zhaoxiang Zhang, Zhizheng Zhang, Li Yi, He Wang,
- Abstract要約: ヒトのような器用な手のための大型モデルを用いた機能的握りの研究はほとんどない。
DexVLGは、言語命令に整合したDexterousグリップポーズ予測のための大型ビジョン言語-Graspモデルである。
シミュレーションでは、174,000個のオブジェクトのセマンティックな部分にマッピングされた1億1千万個のデキスタスなグリップポーズを、詳細な部分レベルのキャプションと組み合わせて生成する。
- 参考スコア(独自算出の注目度): 59.5613919093295
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As large models gain traction, vision-language-action (VLA) systems are enabling robots to tackle increasingly complex tasks. However, limited by the difficulty of data collection, progress has mainly focused on controlling simple gripper end-effectors. There is little research on functional grasping with large models for human-like dexterous hands. In this paper, we introduce DexVLG, a large Vision-Language-Grasp model for Dexterous grasp pose prediction aligned with language instructions using single-view RGBD input. To accomplish this, we generate a dataset of 170 million dexterous grasp poses mapped to semantic parts across 174,000 objects in simulation, paired with detailed part-level captions. This large-scale dataset, named DexGraspNet 3.0, is used to train a VLM and flow-matching-based pose head capable of producing instruction-aligned grasp poses for tabletop objects. To assess DexVLG's performance, we create benchmarks in physics-based simulations and conduct real-world experiments. Extensive testing demonstrates DexVLG's strong zero-shot generalization capabilities-achieving over 76% zero-shot execution success rate and state-of-the-art part-grasp accuracy in simulation-and successful part-aligned grasps on physical objects in real-world scenarios.
- Abstract(参考訳): 大型モデルが勢いを増すにつれ、視覚言語アクション(VLA)システムはロボットがますます複雑なタスクに取り組むことを可能にする。
しかし、データ収集の難しさに制限され、進歩は主に単純なグリップエンドエフェクターの制御に焦点が当てられている。
ヒトのような器用な手のための大型モデルを用いた機能的握りの研究はほとんどない。
本稿では,単一ビューRGBD入力を用いた言語命令に整合したデクサラスグリップポーズ予測のための大型ビジョンランゲージ-グラフモデルであるDexVLGを紹介する。
これを実現するために、174,000個のオブジェクトのセマンティックな部分にマッピングされた1億1千万個のデクスタラスなグリップポーズのデータセットを生成し、詳細な部分レベルのキャプションと組み合わせる。
この大規模なデータセットは、DexGraspNet 3.0と呼ばれ、VLMとフローマッチングベースのポーズヘッドをトレーニングするために使用され、テーブルトップオブジェクトの命令整合型グリップポーズを生成することができる。
DexVLGの性能を評価するため,物理シミュレーションのベンチマークを作成し,実世界の実験を行う。
大規模なテストでは、DexVLGの強力なゼロショット一般化能力が、76%以上のゼロショット実行成功率と、シミュレーションにおける最先端のパートグレープ精度を達成し、実際のシナリオにおける物理オブジェクトに対するパーシャルアライメントを成功させる。
関連論文リスト
- DexGraspVLA: A Vision-Language-Action Framework Towards General Dexterous Grasping [14.511049253735834]
汎用ロボットは任意のシナリオで多様な物体を把握できなければならない。
DexGraspVLA(英語版)は、散らばったシーンにおける一般的なデキスタラス把握のための階層的なフレームワークである。
本手法は, 数千の未確認物体, 照明, 背景の組み合わせで90%以上の成功率を達成する。
論文 参考訳(メタデータ) (2025-02-28T09:57:20Z) - HAMSTER: Hierarchical Action Models For Open-World Robot Manipulation [54.03004125910057]
階層型視覚-言語-アクションモデルは、標準的なモノリシックVLAモデルよりも、ドメイン外のデータを利用するのに効果的であることを示す。
階層設計により、高レベルなVLMは、オフドメイン微調整データと実ロボットテストシナリオの間の重要なドメインギャップをまたいで転送可能であることを示す。
論文 参考訳(メタデータ) (2025-02-08T07:50:22Z) - CogACT: A Foundational Vision-Language-Action Model for Synergizing Cognition and Action in Robotic Manipulation [100.25567121604382]
VLA(Vision-Language-Action)モデルは、言語誘導されたタスクの実行と、目に見えないシナリオへの一般化の観点から、ロボット操作を改善した。
VLM(Vision-Language-Models)に基づく新しい高度なVLAアーキテクチャを提案する。
我々のモデルはタスクパフォーマンスにおいて既存のVLAをはるかに上回るだけでなく、新しいロボットへの顕著な適応と、見えないオブジェクトや背景への一般化も示している。
論文 参考訳(メタデータ) (2024-11-29T12:06:03Z) - EXGRA-MED: Extended Context Graph Alignment for Medical Vision- Language Models [69.40730368630003]
医療用AIにおける視覚言語統合のための新しいフレームワークであるEXGRA-MEDを紹介する。
画像、命令応答、拡張キャプションを共同で調整し、セマンティックグラウンドとクロスモーダルコヒーレンスを前進させる。
LLAVA-MEDのパフォーマンスを10%の事前トレーニングデータで比較し、VQA-RADで20.13%向上し、フルデータパフォーマンスに近づいた。
論文 参考訳(メタデータ) (2024-10-03T15:52:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。