論文の概要: Cross-Hand Latent Representation for Vision-Language-Action Models
- arxiv url: http://arxiv.org/abs/2603.10158v1
- Date: Tue, 10 Mar 2026 18:50:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:42.175807
- Title: Cross-Hand Latent Representation for Vision-Language-Action Models
- Title(参考訳): 視覚・言語・行動モデルのためのクロスハンド潜在表現
- Authors: Guangqi Jiang, Yutong Liang, Jianglong Ye, Jia-Yang Huang, Changwei Jing, Rocky Duan, Pieter Abbeel, Xiaolong Wang, Xueyan Zou,
- Abstract要約: 器用な操作のための信頼性の高い視覚言語アクションモデルを訓練するには、多くのロボットハンドにわたる大規模な実演が必要である。
XL-VLAは視覚・言語・アクション・フレームワークであり,多種多様な手間で共有される潜在行動空間と統合される。
- 参考スコア(独自算出の注目度): 49.32460749933983
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dexterous manipulation is essential for real-world robot autonomy, mirroring the central role of human hand coordination in daily activity. Humans rely on rich multimodal perception--vision, sound, and language-guided intent--to perform dexterous actions, motivating vision-based, language-conditioned manipulation systems for robots. However, training reliable vision-language-action (VLA) models for dexterous manipulation requires large-scale demonstrations across many robotic hands. In addition, as new dexterous embodiments appear rapidly, collecting data for each becomes costly and impractical, creating a need for scalable cross-embodiment learning. We introduce XL-VLA, a vision-language-action framework integrated with a unified latent action space shared across diverse dexterous hands. This embodiment-invariant latent space is directly pluggable into standard VLA architectures, enabling seamless cross-embodiment training and efficient reuse of both existing and newly collected data. Experimental results demonstrate that XL-VLA consistently outperforms baseline VLA models operating in raw joint spaces, establishing it as an effective solution for scalable cross-embodiment dexterous manipulation.
- Abstract(参考訳): 現実のロボットの自律にはデクスタース操作が不可欠であり、日常生活における人間の手作業の調整の中心的役割を反映している。
人間は、視覚、音、言語誘導の意図を豊かなマルチモーダルな知覚に頼り、ロボットのための視覚に基づく言語条件の操作システムを動機付け、巧妙な行動を実行する。
しかし、器用な操作のために信頼性の高い視覚言語アクション(VLA)モデルを訓練するには、多くのロボットハンドにわたる大規模な実演が必要である。
さらに、新しい器用な実施形態が急速に出現するにつれて、各データ収集はコストがかかり実用的でないものとなり、スケーラブルなクロスエボディメント学習の必要性が生じる。
XL-VLAは視覚・言語・アクション・フレームワークであり,多種多様な手間で共有される潜在行動空間と統合される。
このエンボディメント不変の潜在空間は、標準VLAアーキテクチャに直接プラグイン可能であり、シームレスなクロスボデーメントトレーニングと、既存のデータと新しく収集されたデータの効率的な再利用を可能にする。
実験結果から,XL-VLAは生の接合空間で動作するベースラインVLAモデルより一貫して優れており,拡張性のある断熱操作のための有効なソリューションとして確立されている。
関連論文リスト
- DexHiL: A Human-in-the-Loop Framework for Vision-Language-Action Model Post-Training in Dexterous Manipulation [14.050551792714083]
ヒューマン・イン・ザ・ループ(HiL)学習は、ロボットポリシーを洗練するための強力なメカニズムであることが証明されている。
DexHiLはDexterous VLAモデルのための最初の統合アームハンドヒューマン・イン・ザ・ループ・フレームワークである。
論文 参考訳(メタデータ) (2026-03-10T02:55:27Z) - MiVLA: Towards Generalizable Vision-Language-Action Model with Human-Robot Mutual Imitation Pre-training [102.850162490626]
人間のロボットによる相互模倣事前学習による視覚-言語-行動モデルであるMiVLAを提案する。
MiVLAは、最先端のVLAよりも優れた、強力な改良された一般化能力を実現する。
論文 参考訳(メタデータ) (2025-12-17T12:59:41Z) - METIS: Multi-Source Egocentric Training for Integrated Dexterous Vision-Language-Action Model [36.82365894983052]
大きなボトルネックは、デクスタラススキルのための大規模でアクションアノテートされたデータの不足にある。
我々は,エゴセントリックなデータセット上で事前学習したデクスタラス操作のための視覚言語アクションモデルMETISを提案する。
提案手法は,6つの実世界のタスクにおける平均成功率を達成し,異常な操作能力を示す。
論文 参考訳(メタデータ) (2025-11-21T16:32:36Z) - X-VLA: Soft-Prompted Transformer as Scalable Cross-Embodiment Vision-Language-Action Model [62.21943953611646]
Vision-Language-Actionモデルは、多様なロボットプラットフォームにわたる効果的なトレーニングに依存している。
最小限のパラメータを付加したソフトプロンプト手法を提案する。
0.9Bのインスタンス化-X-VLA-0.9Bは,ベンチマークの全体にわたってSOTA性能を同時に達成することを示す。
論文 参考訳(メタデータ) (2025-10-11T16:20:17Z) - Align-Then-stEer: Adapting the Vision-Language Action Models through Unified Latent Guidance [63.33213516925946]
textbfAlign-Then-stEer(textttATE)は,新しいデータ効率,プラグアンドプレイ適応フレームワークである。
我々の研究は、新しいロボットプラットフォームやタスクにVLAモデルをデプロイする実用性を大幅に向上させる、汎用的で軽量なソリューションを提供する。
論文 参考訳(メタデータ) (2025-09-02T07:51:59Z) - DexVLA: Vision-Language Model with Plug-In Diffusion Expert for General Robot Control [7.626715427413578]
視覚言語アクション(VLA)モデルは、一般化可能なロボットスキルを約束している。
現在のVLAモデルは視覚言語モデル(VLM)コンポーネントのスケーリングに重点を置いていることが多いが、アクション空間の表現は依然として重要なボトルネックである。
本稿では,複雑な長期タスクに対するVLAの効率性と一般化能力を向上する新しいフレームワークであるDexVLAを紹介する。
論文 参考訳(メタデータ) (2025-02-09T11:25:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。