論文の概要: VacuumVLA: Boosting VLA Capabilities via a Unified Suction and Gripping Tool for Complex Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2511.21557v1
- Date: Wed, 26 Nov 2025 16:29:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:59.192451
- Title: VacuumVLA: Boosting VLA Capabilities via a Unified Suction and Gripping Tool for Complex Robotic Manipulation
- Title(参考訳): VacuumVLA:複雑なロボットマニピュレーションのための統一吸引グリップツールによるVLA機能向上
- Authors: Hui Zhou, Siyuan Huang, Minxing Li, Hao Zhang, Lue Fan, Shaoshuai Shi,
- Abstract要約: 視覚言語行動モデルには、大規模な事前訓練された視覚と言語表現を活用することで、汎用的なロボット操作が大幅に進歩している。
既存のアプローチでは、現在のVLAシステムのほとんどは、デフォルトのエンドエフェクタとしてパラレル2本のフィンガーグリップを使用している。
本稿では,機械式2本指グリップと真空吸引ユニットを組み合わせた低コストで統合されたハードウェア設計を行い,単一端エフェクタ内でのデュアルモード操作を実現する。
- 参考スコア(独自算出の注目度): 33.36547546700417
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Vision Language Action models have significantly advanced general purpose robotic manipulation by harnessing large scale pretrained vision and language representations. Among existing approaches, a majority of current VLA systems employ parallel two finger grippers as their default end effectors. However, such grippers face inherent limitations in handling certain real world tasks such as wiping glass surfaces or opening drawers without handles due to insufficient contact area or lack of adhesion. To overcome these challenges, we present a low cost, integrated hardware design that combines a mechanical two finger gripper with a vacuum suction unit, enabling dual mode manipulation within a single end effector. Our system supports flexible switching or synergistic use of both modalities, expanding the range of feasible tasks. We validate the efficiency and practicality of our design within two state of the art VLA frameworks: DexVLA and Pi0. Experimental results demonstrate that with the proposed hybrid end effector, robots can successfully perform multiple complex tasks that are infeasible for conventional two finger grippers alone. All hardware designs and controlling systems will be released.
- Abstract(参考訳): 視覚言語行動モデルには、大規模な事前訓練された視覚と言語表現を活用することで、汎用的なロボット操作が大幅に進歩している。
既存のアプローチでは、現在のVLAシステムのほとんどは、デフォルトのエンドエフェクタとしてパラレル2本のフィンガーグリップを使用している。
しかし、そのような握り手は、接触面積の不足や接着の欠如により、ガラス表面を拭いたり、ハンドルのない引き出しを開くといった現実世界のタスクに固有の制約に直面している。
これらの課題を克服するために、機械式2本の指グリップと真空吸引ユニットを組み合わせた低コストで統合されたハードウェア設計を提案し、単一端エフェクタ内でデュアルモード操作を可能にする。
本システムは,両モードのフレキシブルスイッチングや相乗的使用をサポートし,実現可能なタスクの範囲を拡大する。
DexVLAとPi0の2つの最先端VLAフレームワークで設計の効率性と実用性を検証する。
提案したハイブリッドエンドエフェクタにより,従来の2本の指グリップパだけでは不可能な複数の複雑なタスクをロボットが実行できることが実験的に証明された。
ハードウェア設計と制御システムはすべてリリースされる。
関連論文リスト
- Bridging Embodiment Gaps: Deploying Vision-Language-Action Models on Soft Robots [5.993870098970107]
VLA(Vision-Language-Action)モデルは、実際のロボットのための言語ガイド付き汎用制御フレームワークとして提案されている。
本稿では,VLAモデルのソフト連続マニピュレータへの展開について述べる。
論文 参考訳(メタデータ) (2025-10-20T10:06:39Z) - dVLA: Diffusion Vision-Language-Action Model with Multimodal Chain-of-Thought [66.78110237549087]
VLA(Vision-Language-Action)モデルは、ロボット工学の次世代パラダイムとして登場しつつある。
単一システムにおける視覚認識,言語推論,ロボット制御を統一する拡散型VLAであるdVLAを紹介する。
論文 参考訳(メタデータ) (2025-09-30T02:36:11Z) - Visuomotor Grasping with World Models for Surgical Robots [6.228255257808355]
外科的把握のための視覚的学習フレームワークであるGrasp Anything for Surgery V2 (GASv2)を紹介した。
我々は,ドメインランダム化を用いてシミュレーションの方針を訓練し,ファントムと生体外の両方で実ロボットに展開する。
実験の結果,両設定ともに65%の成功率を示し,未確認の物体やグリップに一般化し,多様な乱れに適応することがわかった。
論文 参考訳(メタデータ) (2025-08-15T04:23:07Z) - VLA-Touch: Enhancing Vision-Language-Action Models with Dual-Level Tactile Feedback [21.08021535027628]
VLA-Touchは、触覚センサを用いた汎用ロボットポリシーを強化するアプローチである。
提案手法では,(1)高レベルタスク計画のためのセマンティックな触覚フィードバックを提供する事前学習された触覚言語モデルを利用するパイプラインと,(2)コンタクトリッチな操作のための触覚信号を用いたVLA生成動作を洗練する拡散型コントローラの2つを導入している。
論文 参考訳(メタデータ) (2025-07-23T07:54:10Z) - ForceVLA: Enhancing VLA Models with a Force-aware MoE for Contact-rich Manipulation [62.58034332427291]
ForceVLAは、新しいエンドツーエンド操作フレームワークである。
外部力センシングは、VLAシステム内の第一級のモダリティとして扱う。
論文 参考訳(メタデータ) (2025-05-28T09:24:25Z) - OpenVLA: An Open-Source Vision-Language-Action Model [131.74098076670103]
我々は、970kの現実世界のロボットデモの多様なコレクションに基づいて訓練されたオープンソースのVLAであるOpenVLAを紹介した。
OpenVLAは汎用的な操作の強力な結果を示し、RT-2-X (55B) のようなクローズドモデルよりも16.5%高い絶対的なタスク成功率を示した。
モデルチェックポイント、微調整ノートブック、そしてOpen X-Embodimentデータセット上で大規模にVLAをトレーニングするためのビルトインサポートを備えたPyTorchをリリースしています。
論文 参考訳(メタデータ) (2024-06-13T15:46:55Z) - Twisting Lids Off with Two Hands [82.21668778600414]
シミュレーションで訓練された政策を実世界へ効果的かつ効率的に移行する方法を示す。
具体的には,ボトル状物体の蓋を両手でねじる問題について考察する。
これは、バイマガル・マルチフィンガーハンドでそのような機能を実現する最初のsim-to-real RLシステムである。
論文 参考訳(メタデータ) (2024-03-04T18:59:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。