論文の概要: X-VLA: Soft-Prompted Transformer as Scalable Cross-Embodiment Vision-Language-Action Model
- arxiv url: http://arxiv.org/abs/2510.10274v1
- Date: Sat, 11 Oct 2025 16:20:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.870211
- Title: X-VLA: Soft-Prompted Transformer as Scalable Cross-Embodiment Vision-Language-Action Model
- Title(参考訳): X-VLA:拡張型クロスボデーメント・ビジョン・ランゲージ・アクションモデルとしてのソフトプロンプト変換器
- Authors: Jinliang Zheng, Jianxiong Li, Zhihao Wang, Dongxiu Liu, Xirui Kang, Yuchun Feng, Yinan Zheng, Jiayin Zou, Yilun Chen, Jia Zeng, Ya-Qin Zhang, Jiangmiao Pang, Jingjing Liu, Tai Wang, Xianyuan Zhan,
- Abstract要約: Vision-Language-Actionモデルは、多様なロボットプラットフォームにわたる効果的なトレーニングに依存している。
最小限のパラメータを付加したソフトプロンプト手法を提案する。
0.9Bのインスタンス化-X-VLA-0.9Bは,ベンチマークの全体にわたってSOTA性能を同時に達成することを示す。
- 参考スコア(独自算出の注目度): 62.21943953611646
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Successful generalist Vision-Language-Action (VLA) models rely on effective training across diverse robotic platforms with large-scale, cross-embodiment, heterogeneous datasets. To facilitate and leverage the heterogeneity in rich, diverse robotic data sources, we propose a novel Soft Prompt approach with minimally added parameters, by infusing prompt learning concepts into cross-embodiment robot learning and introducing separate sets of learnable embeddings for each distinct data source. These embeddings serve as embodiment-specific prompts, which in unity empower VLA models with effective exploitation of varying cross-embodiment features. Our new X-VLA, a neat flow-matching-based VLA architecture, relies exclusively on soft-prompted standard Transformer encoders, enjoying both scalability and simplicity. Evaluated across 6 simulations as well as 3 real-world robots, our 0.9B instantiation-X-VLA-0.9B simultaneously achieves SOTA performance over a sweep of benchmarks, demonstrating superior results on a wide axes of capabilities, from flexible dexterity to quick adaptation across embodiments, environments, and tasks. Website: https://thu-air-dream.github.io/X-VLA/
- Abstract(参考訳): 成功したジェネラリストのVision-Language-Action(VLA)モデルは、大規模で横断的、異質なデータセットを持つ多様なロボットプラットフォームにわたる効果的なトレーニングに依存している。
多様な多種多様なデータソースにおける不均一性を促進・活用するために,ロボット間学習に迅速な学習概念を注入し,個別のデータソースに個別に学習可能な埋め込みセットを導入することで,最小限のパラメータを付加した新しいソフト・プロンプト手法を提案する。
これらの埋め込みはエンボディメント固有のプロンプトとして機能し、VLAモデルを統一して様々なクロスボデーメント特徴を効果的に活用する。
私たちの新しいX-VLAは、フローマッチングベースのVLAアーキテクチャで、ソフトプロンプト標準のTransformerエンコーダにのみ依存しており、スケーラビリティとシンプルさの両方を享受しています。
我々の0.9Bインスタンス化-X-VLA-0.9Bは6つのシミュレーションと3つの実世界のロボットで評価され、同時にベンチマークを網羅してSOTAのパフォーマンスを達成し、柔軟性から環境、タスクにまたがる迅速な適応に至るまで、幅広い能力について優れた結果を示す。
ウェブサイト:https://thu-air-dream.github.io/X-VLA/
関連論文リスト
- DexVLA: Vision-Language Model with Plug-In Diffusion Expert for General Robot Control [7.626715427413578]
視覚言語アクション(VLA)モデルは、一般化可能なロボットスキルを約束している。
現在のVLAモデルは視覚言語モデル(VLM)コンポーネントのスケーリングに重点を置いていることが多いが、アクション空間の表現は依然として重要なボトルネックである。
本稿では,複雑な長期タスクに対するVLAの効率性と一般化能力を向上する新しいフレームワークであるDexVLAを紹介する。
論文 参考訳(メタデータ) (2025-02-09T11:25:56Z) - TraceVLA: Visual Trace Prompting Enhances Spatial-Temporal Awareness for Generalist Robotic Policies [95.30717188630432]
VLAモデルの行動予測のための時空間認識を容易にするために,視覚的トレースプロンプトを導入する。
我々は,これまでに収集した150Kロボット操作トラジェクトリのデータセットに基づいてOpenVLAを微調整し,新しいTraceVLAモデルを開発した。
4B Phi-3-Vision に基づくコンパクトな VLA モデルを提案する。
論文 参考訳(メタデータ) (2024-12-13T18:40:51Z) - OpenVLA: An Open-Source Vision-Language-Action Model [131.74098076670103]
我々は、970kの現実世界のロボットデモの多様なコレクションに基づいて訓練されたオープンソースのVLAであるOpenVLAを紹介した。
OpenVLAは汎用的な操作の強力な結果を示し、RT-2-X (55B) のようなクローズドモデルよりも16.5%高い絶対的なタスク成功率を示した。
モデルチェックポイント、微調整ノートブック、そしてOpen X-Embodimentデータセット上で大規模にVLAをトレーニングするためのビルトインサポートを備えたPyTorchをリリースしています。
論文 参考訳(メタデータ) (2024-06-13T15:46:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。