論文の概要: OneVLA: A Unified Framework for Embodied Tasks
- arxiv url: http://arxiv.org/abs/2606.01241v2
- Date: Tue, 02 Jun 2026 03:11:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 18:57:50.457604
- Title: OneVLA: A Unified Framework for Embodied Tasks
- Title(参考訳): OneVLA: エンボディされたタスクのための統一されたフレームワーク
- Authors: Lingfeng Zhang, Xiaoshuai Hao, Yingbo Tang, Lei Zhou, Shuyi Zhang, Jinkun Liu, Hongsheng Li, Chenhao Zhang, Qiang Zhang, Hangjun Ye, Xiaojun Liang, Long Chen, Wenbo Ding,
- Abstract要約: ナビゲーションと操作は インテリジェンスの基本能力だ
OneVLAは、これらの異なるタスクを単一の凝集性フレームワークに統合する統一アーキテクチャである。
シミュレーションと実世界の両方の環境での実験は、OneVLAが最先端のパフォーマンスを達成することを示す。
- 参考スコア(独自算出の注目度): 42.816376426057275
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Navigation and manipulation are fundamental capabilities of embodied intelligence, enabling robots to interpret natural language commands and interact physically with their surroundings. However, current Vision-Language-Action (VLA) models remain constrained by task-specific architectures, specializing in either navigation or manipulation, which hinders the development of general-purpose robotic agents. To bridge this gap, we introduce OneVLA, a unified architecture that integrates these distinct tasks into a single, cohesive framework. Specifically, we design a unified action head capable of generating both navigation and manipulation actions without requiring task-specific variants. Furthermore, we propose a multi stage progressive training strategy-incorporating curated data construction and Chain-of-Thought (CoT) fine-tuning that facilitates strong positive transfer and mutual reinforcement between the two domains. Extensive experiments in both simulated and real-world environments demonstrate that OneVLA achieves state-of-the-art performance, significantly outperforming both specialized single-task and existing cross-task models. By unifying these core capabilities, OneVLA paves the way for truly general-purpose robotic systems. The model and source code will be publicly released.
- Abstract(参考訳): ナビゲーションと操作はインテリジェンスの基本的な機能であり、ロボットは自然言語のコマンドを解釈し、周囲と物理的に対話することができる。
しかしながら、現在のVision-Language-Action(VLA)モデルは、汎用ロボットエージェントの開発を妨げるナビゲーションまたは操作に特化して、タスク固有のアーキテクチャによって制約され続けている。
このギャップを埋めるために、私たちは、これらの異なるタスクを単一の凝集性フレームワークに統合する統一アーキテクチャであるOneVLAを紹介します。
具体的には、タスク固有のバリエーションを必要とせず、ナビゲーションと操作の両方を生成できる統一されたアクションヘッドを設計する。
さらに,2つの領域間の強い正の伝達と相互強化を容易にする,キュレートされたデータ構築とCoTファインタニングを組み込んだ多段階プログレッシブトレーニング戦略を提案する。
シミュレーションと実世界の両方の環境における大規模な実験は、OneVLAが最先端のパフォーマンスを達成し、特殊なシングルタスクモデルと既存のクロスタスクモデルの両方を著しく上回っていることを示している。
これらのコア機能を統一することで、OneVLAは真の汎用ロボットシステムへの道を開いた。
モデルとソースコードは公開される予定だ。
関連論文リスト
- PrimitiveVLA: Learning Reusable Motion Primitives for Efficient and Generalizable Robotic Manipulation [50.8450025321217]
Vision-Language-Action(VLA)モデルは、汎用的なロボットポリシーに有望なパラダイムを提供する。
これらのボトルネックは、一般的なダイレクトインストラクション・トゥ・コントロルマッピング(Direct Instruction-to-Control Mapping)に由来すると我々は主張する。
本稿では,このパラダイムをPrimitive-Centric Disassemble & AssembleパラダイムにシフトさせるフレームワークであるPrimitiveVLAを提案する。
論文 参考訳(メタデータ) (2026-05-27T15:41:18Z) - GuidedVLA: Specifying Task-Relevant Factors via Plug-and-Play Action Attention Specialization [101.37117235471709]
本稿では,タスク関連要因に着目したアクション生成を支援するフレームワークである GuidedVLA を紹介する。
私たちの中核的な洞察は、アクションデコーダをモノリシックな学習者としてではなく、機能的なコンポーネントの集合として扱うことです。
この結果から,アクションデコーダ学習を明示的に指導することが,より堅牢で汎用的なVLAモデルを構築する上で有望な方向であることが示唆された。
論文 参考訳(メタデータ) (2026-05-12T16:38:40Z) - ROSClaw: A Hierarchical Semantic-Physical Framework for Heterogeneous Multi-Agent Collaboration [9.434833852972353]
ROSClawは、統一視覚言語モデル(VLM)コントローラにポリシー学習とタスク実行を統合する異種ロボットのためのエージェントフレームワークである。
自律的なクローズループフレームワークを確立することにより、ROSClawはロボット固有の開発への依存を最小限に抑える。
論文 参考訳(メタデータ) (2026-04-06T13:16:24Z) - HiMoE-VLA: Hierarchical Mixture-of-Experts for Generalist Vision-Language-Action Policies [83.41714103649751]
具体的インテリジェンスモデルの開発は、高品質なロボットのデモデータへのアクセスに依存する。
異種多種多様なロボットデータを扱うための視覚言語アクションフレームワークであるHiMoE-VLAを提案する。
HiMoE-VLAは既存のVLAベースラインよりも一貫したパフォーマンス向上を示し、高い精度と堅牢な一般化を実現している。
論文 参考訳(メタデータ) (2025-12-05T13:21:05Z) - dVLA: Diffusion Vision-Language-Action Model with Multimodal Chain-of-Thought [66.78110237549087]
VLA(Vision-Language-Action)モデルは、ロボット工学の次世代パラダイムとして登場しつつある。
単一システムにおける視覚認識,言語推論,ロボット制御を統一する拡散型VLAであるdVLAを紹介する。
論文 参考訳(メタデータ) (2025-09-30T02:36:11Z) - OmniVLA: An Omni-Modal Vision-Language-Action Model for Robot Navigation [49.66156306240961]
視覚に基づくナビゲーションのためのオムニモーダル目標条件付けを可能にするロボット基礎モデルのトレーニングフレームワークを提案する。
提案手法は,高容量な視覚-言語-アクションバックボーンと,3つの主要目標モードを持つトレーニングを利用する。
我々は、OmniVLAが、モダリティにまたがるスペシャリストのベースラインを上回り、新しいモダリティやタスクに微調整するための柔軟な基盤を提供することを示した。
論文 参考訳(メタデータ) (2025-09-23T18:40:29Z) - UniVLA: Learning to Act Anywhere with Task-centric Latent Actions [34.42046035740954]
UniVLAは、クロス・エボディメント・ビジョン・ランゲージ・アクション(VLA)ポリシーを学ぶための新しいフレームワークである。
我々は、潜在アクションモデルを用いたビデオからタスク中心のアクション表現を導出する。
複数の操作やナビゲーションのベンチマーク、実際のロボットの配置など、最先端の結果が得られます。
論文 参考訳(メタデータ) (2025-05-09T15:11:13Z) - RoboAct-CLIP: Video-Driven Pre-training of Atomic Action Understanding for Robotics [22.007302996282085]
本稿では,コントラスト言語-画像事前学習(CLIP)アーキテクチャに基づく時間分解微調整戦略を提案する。
シミュレーション環境での結果は,RoboAct-CLIP事前学習モデルがベースラインのビジュアル言語モデルよりも12%高い成功率を達成することを示す。
論文 参考訳(メタデータ) (2025-04-02T19:02:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。