論文の概要: Qwen-VLA: Unifying Vision-Language-Action Modeling across Tasks, Environments, and Robot Embodiments
- arxiv url: http://arxiv.org/abs/2605.30280v1
- Date: Thu, 28 May 2026 17:36:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:56.634521
- Title: Qwen-VLA: Unifying Vision-Language-Action Modeling across Tasks, Environments, and Robot Embodiments
- Title(参考訳): Qwen-VLA:タスク、環境、ロボットの身体における視覚・言語・行動モデリングの統合
- Authors: Qiuyue Wang, Mingsheng Li, Jian Guan, Jinhui Ye, Sicheng Xie, Yitao Liu, Junhao Chen, Zhixuan Liang, Jie Zhang, Xintong Hu, Xuhong Huang, Pei Lin, Junyang Lin, Dayiheng Liu, Shuai Bai, Jingren Zhou, Jiazhao Zhang, Haoqi Yuan, Gengze Zhou, Hang Yin, Ye Wang, Yiyang Huang, Zixing Lei, Wujian Peng, Delin Chen, Yingming Zheng, Jingyang Fan, Xianwei Zhuang, Xin Zhou, Haoyang Li, Anzhe Chen, Tong Zhang, Xuejing Liu, Yuchong Sun, Ruizhe Chen, Zhaohai Li, Chenxu Lü, Zhibo Yang, Tao Yu, Xionghui Chen,
- Abstract要約: 身体的な知性は、操作やナビゲーションといった個々のタスクのための特別なモデルを通してしばしば研究される。
本稿では,Qwenの視覚言語モデリングスタックを連続的な動作と軌道生成に拡張した統一的な基礎モデルであるQwen-VLAを提案する。
- 参考スコア(独自算出の注目度): 96.23886784364997
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Embodied intelligence is often studied through specialized models for individual tasks such as manipulation or navigation, resulting in fragmented capabilities and limited generalization across tasks, environments, and robot embodiments. In this work, we study whether heterogeneous embodied decision-making problems can be unified within a single vision-language-action model. We present Qwen-VLA, a unified embodied foundation model that extends Qwen's vision-language modeling stack from perception, understanding, and reasoning to continuous action and trajectory generation through a DiT-based action decoder. Qwen-VLA is trained with a large-scale joint pretraining recipe over diverse data sources, including robotics manipulation trajectories, human egocentric demonstrations, synthetic simulation data, vision-and-language navigation data, trajectory-centric supervision, and auxiliary vision-language data. To support multiple robot platforms, we introduce embodiment-aware prompt conditioning, where robot-specific textual descriptions specify the current embodiment and control convention. We further cast manipulation, navigation, and trajectory prediction into a unified action-and-trajectory prediction framework, enabling transferable visual grounding, spatial reasoning, and continuous action generation across robot morphologies, task families, and environments. Experiments on manipulation, navigation, and trajectory-centric benchmarks show consistent multi-task performance and out-of-distribution generalization under variations in scene layout, background, lighting, object configuration, and robot embodiment. Qwen-VLA-Instruct achieves 97.9% on LIBERO, 73.7% on Simpler-WidowX, 86.1%/87.2% on RoboTwin-Easy/Hard, 69.0% OSR on R2R, 59.6% SR on RxR, 76.9% average OOD success in real-world ALOHA experiments, and 26.6% zero-shot success on DOMINO dynamic manipulation.
- Abstract(参考訳): 身体的知性は、操作やナビゲーションのような個々のタスクの特殊なモデルを通して研究され、結果として断片化された能力とタスク、環境、ロボットの体現物に対する限定的な一般化をもたらす。
本研究では,不均一な具体化決定問題を単一の視覚-言語-行動モデルで統一できるかどうかを考察する。
本稿では、Qwenの視覚言語モデリングスタックを知覚、理解、推論から、DiTベースのアクションデコーダによる連続的なアクションおよび軌道生成まで拡張する統一的な基盤モデルであるQwen-VLAを提案する。
Qwen-VLAは、ロボット操作軌道、人間中心のデモ、合成シミュレーションデータ、視覚・言語ナビゲーションデータ、軌跡中心の監督、補助視覚言語データなど、さまざまなデータソース上で大規模な共同事前学習のレシピで訓練されている。
複数のロボットプラットフォームをサポートするために,ロボット固有のテキスト記述が現在の実施・制御規約を規定するエンボディメント対応プロンプトコンディショニングを導入する。
我々はさらに、操作、ナビゲーション、軌道予測を統合された行動・軌道予測フレームワークにキャストし、ロボット形態、タスクファミリー、環境をまたいだ移動可能な視覚的接地、空間的推論、連続的な行動生成を可能にする。
操作、ナビゲーション、トラジェクトリ中心のベンチマーク実験は、シーンレイアウト、背景、照明、オブジェクト構成、ロボットエンボディメントのバリエーションの下で、一貫したマルチタスク性能と分散の一般化を示す。
Qwen-VLA-Instruct は LIBERO では 97.9%、Simpler-WidowX では 73.7%、RoboTwin-Easy/Hard では 86.1%/87.2%、R2R では 69.0%、RxR では 59.6%、ALOHA 実験では 76.9%、DOMINO の動的操作では 26.6% のゼロショット成功がある。
関連論文リスト
- Uni-LaViRA: Language-Vision-Robot Actions Translation for Unified Embodied Navigation [60.07205156194741]
身体的なナビゲーションでは、エージェントが言語や視覚的な観察を、実際に見たことのない環境を通して実際のロボットを駆動する空間的な行動の流れにマッピングする必要がある。
統合エージェントアーキテクチャであるUni-LaViRAを4つのタスクファミリと4つの異種実ロボットに拡張する。
論文 参考訳(メタデータ) (2026-05-26T18:52:04Z) - MiVLA: Towards Generalizable Vision-Language-Action Model with Human-Robot Mutual Imitation Pre-training [102.850162490626]
人間のロボットによる相互模倣事前学習による視覚-言語-行動モデルであるMiVLAを提案する。
MiVLAは、最先端のVLAよりも優れた、強力な改良された一般化能力を実現する。
論文 参考訳(メタデータ) (2025-12-17T12:59:41Z) - Mechanistic Finetuning of Vision-Language-Action Models via Few-Shot Demonstrations [76.79742393097358]
Vision-Language Action (VLA)モデルは、視覚言語モデル(VLM)をロボット工学に拡張することを約束している。
既存の微調整手法には特異性がなく、タスクの視覚的、言語的、物理的特性に関わらず、同じパラメータセットを適用する。
神経科学における機能的特異性に触発されて、与えられたタスクに特有のスパースモデル表現を微調整することがより効果的である、という仮説を立てる。
論文 参考訳(メタデータ) (2025-11-27T18:50:21Z) - From Seeing to Doing: Bridging Reasoning and Decision for Robotic Manipulation [35.79160868966466]
FSD(From Seeing to Doing)は空間関係推論により中間表現を生成する新しい視覚言語モデルである。
提案手法は,空間座標を視覚信号と整列する自己整合性機構と,階層的なデータパイプラインを併用する。
我々は、FSDがSimplerEnvで40.6%の成功率、実世界の8つのタスクで72%の成功率を達成したことを示し、最強のベースラインを30%上回った。
論文 参考訳(メタデータ) (2025-05-13T13:20:46Z) - Toward Aligning Human and Robot Actions via Multi-Modal Demonstration Learning [3.9738951919572827]
本稿では,Voxelized RGB-D空間におけるロボットデモを用いて,RGBビデオから人間デモを明示的にモデル化するフレームワークを提案する。
本稿では,人間の意図モデリングのためのResNetベースの視覚符号化と,ボクセルに基づくロボット行動予測のためのPerceiver Transformerを組み合わせる。
論文 参考訳(メタデータ) (2025-04-14T21:14:51Z) - λ: A Benchmark for Data-Efficiency in Long-Horizon Indoor Mobile Manipulation Robotics [11.901933884058021]
本稿では,LAMBDA ベンチマーク-Long-Horizon Actions for Mobile-Manipulation Benchmarking of Directed Activityを紹介する。
私たちのベンチマークには、シミュレーションと実世界の設定において、現実性と多様性を提供する、571人の人間によるデモが含まれています。
予備訓練を受けた場合でも,学習方法は成功率を低く抑えるが,ニューロシンボリックな手法では性能が著しく向上し,データ量も少なくなる。
論文 参考訳(メタデータ) (2024-11-28T19:31:50Z) - ProcTHOR: Large-Scale Embodied AI Using Procedural Generation [55.485985317538194]
ProcTHORは、Embodied AI環境の手続き的生成のためのフレームワークである。
ナビゲーション、アレンジメント、アーム操作のための6つの具体化されたAIベンチマークに対して、最先端の結果を実証する。
論文 参考訳(メタデータ) (2022-06-14T17:09:35Z) - Few-Shot Visual Grounding for Natural Human-Robot Interaction [0.0]
本稿では,人間ユーザによって音声で示される,混み合ったシーンから対象物を分割するソフトウェアアーキテクチャを提案する。
システムのコアでは、視覚的な接地のためにマルチモーダルディープニューラルネットワークを使用します。
公開シーンデータセットから収集した実RGB-Dデータに対して,提案モデルの性能を評価する。
論文 参考訳(メタデータ) (2021-03-17T15:24:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。