論文の概要: GesVLA: Gesture-Aware Vision-Language-Action Model Embedded Representations
- arxiv url: http://arxiv.org/abs/2605.22812v1
- Date: Thu, 21 May 2026 17:57:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:42.390489
- Title: GesVLA: Gesture-Aware Vision-Language-Action Model Embedded Representations
- Title(参考訳): GesVLA:gesture-Aware Vision-Language-Action Model Embedded Representations
- Authors: Wenxuan Guo, Ziyuan Li, Meng Zhang, Yichen Liu, Yimeng Dong, Chuxi Xu, Yunfei Wei, Ze Chen, Erjin Zhou, Jianjiang Feng,
- Abstract要約: VLA(Vision-Language-Action)モデルは、知覚と行動の統一による汎用ロボット操作の強力な可能性を示している。
ジェスチャーを並列命令として導入し,GesVLA(Gesture-Aware Vision-Language-Action Model)を提案する。
実験結果から,ジェスチャを組み込むことにより,目標の接地精度と人間とロボットの相互作用効率が一貫した改善が得られた。
- 参考スコア(独自算出の注目度): 19.347332945780273
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Vision-Language-Action (VLA) models have shown strong potential for general-purpose robot manipulation by unifying perception and action. However, existing VLA systems primarily rely on textual instructions and struggle to resolve spatial ambiguity in complex scenes with multiple similar objects. To address this limitation, we introduce gesture as a parallel instruction modality and propose a Gesture-aware Vision-Language-Action model (GesVLA). Our approach encodes gesture features directly into the latent space, enabling them to participate in both high-level reasoning and low-level action generation, and adopts a dual-VLM architecture to achieve tight coupling between gesture representations and action policies. At the data level, we construct a scalable gesture data generation pipeline by rendering hand models onto real-world scene images. This reduces the sim-to-real visual gap while producing rich data with diverse motion patterns and corresponding pointing annotations. In addition, we employ a two-stage training strategy to equip the model with both gesture perception and action prediction capabilities. We evaluate our approach on multiple real-world robotic tasks, including a controlled block manipulation task for validation and more practical scenarios such as product and produce selection. Experimental results show that incorporating gesture consistently improves target grounding accuracy and human-robot interaction efficiency, especially in complex and cluttered environments. Project page: https://gwxuan.github.io/GesVLA/.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルは、知覚と行動の統一による汎用ロボット操作の強力な可能性を示している。
しかしながら、既存のVLAシステムは主にテキスト命令に依存しており、複数の類似したオブジェクトを持つ複雑なシーンにおける空間的曖昧性を解決するのに苦労している。
この制限に対処するため、ジェスチャーを並列命令として導入し、Gesture-aware Vision-Language-Action Model (GesVLA)を提案する。
提案手法では,ジェスチャ機能を直接潜在空間にエンコードし,ハイレベル推論と低レベルアクション生成の両方に参加できるようにし,ジェスチャ表現とアクションポリシーの密結合を実現するためにデュアルVLMアーキテクチャを採用する。
データレベルでは、実世界のシーンイメージにハンドモデルをレンダリングすることで、スケーラブルなジェスチャーデータ生成パイプラインを構築する。
これにより、多様な動きパターンと対応するポインティングアノテーションを持つリッチなデータを生成しながら、シミュレートとリアルの視覚的ギャップを低減することができる。
さらに,2段階のトレーニング戦略を用いて,ジェスチャー認識と行動予測機能の両方をモデルに組み込む。
検証のための制御ブロック操作タスクや、製品や生産品の選択といったより実践的なシナリオを含む、実世界の複数のロボットタスクに対するアプローチを評価した。
実験結果から,特に複雑で散在した環境において,ジェスチャーを組み込むことにより,目標の接地精度と人間とロボットの相互作用効率が一貫して向上することが示唆された。
プロジェクトページ: https://gwxuan.github.io/GesVLA/。
関連論文リスト
- PokeVLA: Empowering Pocket-Sized Vision-Language-Action Model with Comprehensive World Knowledge Guidance [24.102770290097435]
PokeVLAは、視覚言語理解をアクション学習に注入する、埋め込み操作のための軽量モデルである。
まず、2.4Mサンプルのマルチモーダルデータセット上で、コンパクトな視覚言語モデル(PokeVLM)を事前訓練する。
LIBERO-Plusベンチマークと実世界のデプロイで、最先端のパフォーマンスが実証されている。
論文 参考訳(メタデータ) (2026-04-22T17:58:19Z) - SG-VLA: Learning Spatially-Grounded Vision-Language-Action Models for Mobile Manipulation [43.77409401429281]
VLA(Vision-Language-Action)モデルは、ロボット制御の可能性を秘めているが、複雑な家庭環境におけるパフォーマンスは、まだ準最適である。
モバイル操作には、グローバルなシーンレイアウト、きめ細かい形状、高次元連続的な動作の推論が必要である。
知覚と表現を強化する空間的接地型VLAモデルの学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-24T03:44:25Z) - KineVLA: Towards Kinematics-Aware Vision-Language-Action Models with Bi-Level Action Decomposition [89.7916653471162]
本稿では,多様なキネマティック属性を密に符号化する,新しいキネマティックスリッチな視覚言語アクション(VLA)タスクを提案する。
この設定では、タスクゴールは不変のままであり、実行軌跡は命令レベルのキネマティック仕様に適応する必要がある。
我々は、KineVLAがキネマティクスに敏感なベンチマークで強いVLAベースラインを一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2026-03-18T09:28:49Z) - Universal Pose Pretraining for Generalizable Vision-Language-Action Policies [83.39008378156647]
既存のVision-Language-Action(VLA)モデルは、しばしば機能崩壊と訓練効率の低下に悩まされる。
本稿では,VLAトレーニングを3次元空間前駆体抽出のための事前学習フェーズに分離する,分離されたパラダイムであるPose-VLAを提案する。
我々のフレームワークは2段階の事前学習パイプラインに従い、ポーズと動きのアライメントによる基本的な空間接地を確立する。
論文 参考訳(メタデータ) (2026-02-23T11:00:08Z) - ActiveVLA: Injecting Active Perception into Vision-Language-Action Models for Precise 3D Robotic Manipulation [52.94334113271359]
ActiveVLAは視覚言語によるアクションフレームワークで、ロボットに高い精度できめ細かな操作を可能にする。
我々は,ActiveVLAが3つのシミュレーションベンチマークで高精度な3D操作を実現し,最先端のベースラインを上回っていることを示す。
論文 参考訳(メタデータ) (2026-01-13T08:29:07Z) - iFlyBot-VLA Technical Report [25.330744626382977]
iFlyBot-VLA(iFlyBot-VLA)は、新しいフレームワークでトレーニングされた大規模ビジョン・ランゲージ・アクション(VLA)モデルである。
主なコントリビューションは,(1)大規模人体とロボットの操作映像を徹底的に訓練した潜在行動モデル,(2)視覚言語モデル(VLM)と訓練中のアクションエキスパートを協調的に監督する2段階の行動表現フレームワーク,(3)ロボット軌道データと一般的なQAデータセットと空間QAデータセットを組み合わせた混合トレーニング戦略である。
論文 参考訳(メタデータ) (2025-11-01T06:24:56Z) - cVLA: Towards Efficient Camera-Space VLAs [26.781510474119845]
Vision-Language-Action(VLA)モデルは、複雑なロボット操作タスクに取り組むための魅力的なフレームワークを提供する。
2次元画像上での視覚言語モデルの競合性能を活用する新しいVLA手法を提案する。
我々のモデルは軌道方向の経路を予測し、トレーニングとロボットの実施の両方を効果的に行う。
論文 参考訳(メタデータ) (2025-07-02T22:56:41Z) - CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models [89.44024245194315]
視覚言語行動モデル(VLA)に明示的な視覚連鎖(CoT)推論を組み込む手法を提案する。
視覚およびアクショントークンの理解と生成が可能な最先端の7B VLAであるCoT-VLAを紹介する。
実験の結果,CoT-VLAは実世界の操作タスクでは17%,シミュレーションベンチマークでは6%,最先端のVLAモデルでは6%,高い性能を示した。
論文 参考訳(メタデータ) (2025-03-27T22:23:04Z) - Flex: End-to-End Text-Instructed Visual Navigation from Foundation Model Features [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。
この知見はFlex (Fly lexically) で合成され, 凍結パッチワイド特徴抽出器として, 事前学習された視覚言語モデル (VLM) を用いたフレームワークである。
本研究では,本手法の有効性を,行動クローンによる訓練を実世界のシーンに応用した,四重項フライ・トゥ・ターゲットタスクに適用した。
論文 参考訳(メタデータ) (2024-10-16T19:59:31Z) - LLaRA: Supercharging Robot Learning Data for Vision-Language Policy [56.505551117094534]
我々はLLaRA: Large Language and Robotics Assistantを紹介した。
まず、既存の行動クローニングデータセットからロボットのための会話スタイルの指導データを生成する自動パイプラインを提案する。
このようなデータセットを限定的に微調整したVLMは、ロボット制御において有意義な行動決定を導出できることを示す。
論文 参考訳(メタデータ) (2024-06-28T17:59:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。