論文の概要: LoHoVLA: A Unified Vision-Language-Action Model for Long-Horizon Embodied Tasks
- arxiv url: http://arxiv.org/abs/2506.00411v1
- Date: Sat, 31 May 2025 06:01:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:32.905991
- Title: LoHoVLA: A Unified Vision-Language-Action Model for Long-Horizon Embodied Tasks
- Title(参考訳): LoHoVLA:ロングホライゾン・エンボディード・タスクのための統合ビジョン・ランゲージ・アクション・モデル
- Authors: Yi Yang, Jiaxuan Sun, Siqi Kou, Yihan Wang, Zhijie Deng,
- Abstract要約: 実世界のエンボディエージェントは、マルチステップソリューションを必要とするハイレベルな目標に直面します。
ロングホライゾンタスクは、ハイレベルなタスクプランニングと低レベルなモーションコントロールを必要とする。
我々は,LoHoVLAと呼ばれる長期タスクのための統合視覚言語フレームワークを導入する。
- 参考スコア(独自算出の注目度): 31.3295171851909
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Real-world embodied agents face long-horizon tasks, characterized by high-level goals demanding multi-step solutions beyond single actions. Successfully navigating these requires both high-level task planning (i.e., decomposing goals into sub-tasks) and low-level motion control (i.e., generating precise robot actions). While existing vision language action (VLA) models and hierarchical architectures offer potential in embodied tasks, the former often falter in planning, and the latter can suffer from coordination issues, both hampering performance. We introduce a new unified VLA framework for long-horizon tasks, dubbed LoHoVLA, to overcome these limitations. LoHoVLA leverages a large pretrained vision language model (VLM) as the backbone to jointly generate language and action tokens for sub-task generation and robot action prediction, respectively. This shared representation promotes better generalization across tasks. Additionally, LoHoVLA embraces a hierarchical closed-loop control mechanism to mitigate errors originating from both high-level planning and low-level control. To train LoHoVLA, we introduce LoHoSet, a dataset built on the Ravens simulator, containing 20 long-horizon tasks, each with 1,000 expert demonstrations composed of visual observations, linguistic goals, sub-tasks, and robot actions. Experimental results show that LoHoVLA significantly surpasses both hierarchical and standard VLA approaches on long-horizon embodied tasks in the Ravens simulator. These findings underscore the promise of unified architectures for advancing generalizable embodied intelligence.
- Abstract(参考訳): 現実世界のエンボディエージェントは、単一のアクションを超えて多段階のソリューションを要求する高レベルな目標を特徴とする、長期的なタスクに直面します。
これらをうまくナビゲートするには、高レベルのタスク計画(すなわち、目標をサブタスクに分解する)と低レベルのモーションコントロール(つまり、正確なロボット動作を生成する)の両方が必要である。
既存の視覚言語アクション(VLA)モデルと階層アーキテクチャは、具体的タスクにおいて潜在的に有益であるが、前者は計画においてしばしば失敗し、後者はどちらもパフォーマンスを阻害するコーディネーションの問題に悩まされる。
これらの制約を克服するために,LoHoVLAと呼ばれる長期タスクのための新しい統合VLAフレームワークを導入する。
LoHoVLAは、大きな事前訓練された視覚言語モデル(VLM)をバックボーンとして利用し、サブタスク生成のための言語とアクショントークンをそれぞれ生成し、ロボットアクション予測を行う。
この共有表現はタスク間のより良い一般化を促進する。
さらに、LoHoVLAは階層的なクローズドループ制御機構を採用し、高レベル計画と低レベル制御の両方から発生するエラーを軽減する。
LoHoVLAのトレーニングには、20の長距離タスクを含むRavensシミュレータ上に構築されたデータセットであるLoHoSetを導入する。
実験結果から,LoHoVLAはRavensシミュレータの長距離エンボディタスクにおいて,階層的および標準VLAアプローチをはるかに上回ることがわかった。
これらの知見は、一般化可能な具現化インテリジェンスを促進するための統一アーキテクチャの約束を裏付けるものである。
関連論文リスト
- CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models [89.44024245194315]
視覚言語行動モデル(VLA)に明示的な視覚連鎖(CoT)推論を組み込む手法を提案する。
視覚およびアクショントークンの理解と生成が可能な最先端の7B VLAであるCoT-VLAを紹介する。
実験の結果,CoT-VLAは実世界の操作タスクでは17%,シミュレーションベンチマークでは6%,最先端のVLAモデルでは6%,高い性能を示した。
論文 参考訳(メタデータ) (2025-03-27T22:23:04Z) - Data-Agnostic Robotic Long-Horizon Manipulation with Vision-Language-Guided Closed-Loop Feedback [12.600525101342026]
本稿では,言語条件のロングホライズンロボット操作のためのデータに依存しないフレームワークであるDAHLIAを紹介する。
LLMは、リアルタイムタスク計画と実行のための大きな言語モデルである。
本フレームワークは,多種多様な長期タスクにおける最先端性能を実証し,シミュレーションおよび実世界のシナリオにおいて強力な一般化を実現する。
論文 参考訳(メタデータ) (2025-03-27T20:32:58Z) - CHOP: Mobile Operating Assistant with Constrained High-frequency Optimized Subtask Planning [18.826366389246385]
制約付き高周波最適化計画(CHOP)を用いた新しいモバイルアシスタントアーキテクチャを提案する。
提案手法は,人計画サブタスクをベースベクトルとしてGUIシナリオ計画におけるVLMの欠如を克服する。
当社のアーキテクチャを20アプリにわたる英語と中国語のコンテキストで評価し、有効性と効率の両面で大幅に改善したことを示す。
論文 参考訳(メタデータ) (2025-03-05T18:56:16Z) - VLABench: A Large-Scale Benchmark for Language-Conditioned Robotics Manipulation with Long-Horizon Reasoning Tasks [100.3234156027118]
本稿では、ユニバーサルLCMタスク学習を評価するためのオープンソースのベンチマークであるVLABenchを紹介する。
VLABenchは、タスクのカテゴリごとに強いランダム化と合計2000以上のオブジェクトを備えた、慎重に設計された100のタスクカテゴリを提供する。
このベンチマークは、メッシュとテクスチャ、空間関係、意味的命令、物理法則、知識伝達、推論の理解を含む複数の能力を評価する。
論文 参考訳(メタデータ) (2024-12-24T06:03:42Z) - A Dual Process VLA: Efficient Robotic Manipulation Leveraging VLM [0.26334346517416873]
VLA(Vision-Language-Action)モデルでは、視覚コンテキストと言語コマンドを統合することで、ロボットが複雑なタスクを実行できる。
これを解決するために,デュアルプロセス理論に着想を得た階層型フレームワークであるDual Process VLA(DP-VLA)を提案する。
RoboCasaデータセットの実験結果は、DP-VLAがより高速な推論とより高いタスク成功率を達成することを示した。
論文 参考訳(メタデータ) (2024-10-21T00:36:02Z) - A Survey on Vision-Language-Action Models for Embodied AI [71.16123093739932]
エンボディードAIは、人工知能の重要な要素として広く認識されている。
組込みAIにおける言語条件ロボットタスクに対処するために、マルチモーダルモデルの新たなカテゴリが登場した。
具体的AIのための視覚-言語-アクションモデルに関する第1回調査を示す。
論文 参考訳(メタデータ) (2024-05-23T01:43:54Z) - Generalizable Long-Horizon Manipulations with Large Language Models [91.740084601715]
本研究は,Large Language Models (LLMs) の機能を活用して,汎用可能な長距離操作のための原始的なタスク条件を生成するフレームワークを導入する。
我々は,Pybulletに基づくロボット操作タスクスイートを作成し,長期作業評価を行う。
論文 参考訳(メタデータ) (2023-10-03T17:59:46Z) - GRILL: Grounded Vision-language Pre-training via Aligning Text and Image
Regions [92.96783800362886]
未知のタスクへの一般化は、少数の学習者が多様なタスクにおいてより優れたゼロ/フェーショットのパフォーマンスを達成できる重要な能力である。
GRILLは視覚的質問応答やキャプション,接地タスクなどの多様なタスクに,ほとんど,あるいはごく少数のトレーニングインスタンスで一般化可能な,新しいVLモデルである。
論文 参考訳(メタデータ) (2023-05-24T03:33:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。