論文の概要: Anticipation-VLA: Solving Long-Horizon Embodied Tasks via Anticipation-based Subgoal Generation
- arxiv url: http://arxiv.org/abs/2605.01772v1
- Date: Sun, 03 May 2026 08:11:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.931252
- Title: Anticipation-VLA: Solving Long-Horizon Embodied Tasks via Anticipation-based Subgoal Generation
- Title(参考訳): 予測-VLA:予測に基づくサブゴナル生成による長軸エンボディードタスクの解法
- Authors: Zhilong Zhang, Wenyu Luo, Haonan Wang, Yifei Sheng, Yidi Wang, Hanyuan Guo, Haoxiang Ren, Xinghao Du, Yuhan Che, Tongtong Cao, Lei Yuan, Yang Yu,
- Abstract要約: VLA(Vision-Language-Action)モデルは、インテリジェンスを具現化する強力なパラダイムとして登場した。
本稿では,予測モデルを利用して動作可能なサブゴールを生成する階層型VLAモデルであるPrecipation-VLAを提案する。
我々は、高レベルサブゴール生成のための統一マルチモーダルモデル(UMM)を微調整し、低レベル動作実行のための目標条件付きVLAポリシーを実装した予測-VLAを実装した。
- 参考スコア(独自算出の注目度): 23.021987362787225
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Vision-Language-Action (VLA) models have emerged as a powerful paradigm for embodied intelligence, enabling robots to perform tasks based on natural language instructions and current visual input. However, existing VLA models struggle with long-horizon tasks due to compounding errors. Prior methods decompose tasks into subtasks of fixed granularity, which cannot adapt to the varying complexity of execution states, limiting their robustness in long-horizon tasks. To overcome this, we introduce Anticipation Model, which adaptively and recursively generates future subgoals. This model continuously adapts as the task unfolds, adjusting future subgoals in response to evolving dynamics, facilitating more reliable planning paths. Building on this concept, we propose Anticipation-VLA, a hierarchical VLA model that leverages the anticipation model to generate actionable subgoals that guide VLA policy execution. We implement Anticipation-VLA with finetuning a Unified Multimodal Model (UMM) for high-level subgoal generation and a goal-conditioned VLA policy for low-level action execution. Experiments in both simulated and real-world robotic tasks demonstrate the effectiveness of Anticipation-VLA, highlighting the importance of adaptive and recursive subgoal generation for robust policy execution.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルは、インテリジェンスを具現化するための強力なパラダイムとして登場し、自然言語命令と現在の視覚入力に基づいてロボットがタスクを実行できるようになった。
しかしながら、既存のVLAモデルは、複雑なエラーのため、長い水平タスクに苦しむ。
従来の方法は、タスクを固定された粒度のサブタスクに分解するが、実行状態の様々な複雑さに適応できず、長い水平タスクの堅牢性を制限する。
これを解決するために,将来のサブゴールを適応的かつ再帰的に生成する予測モデルを導入する。
このモデルはタスクが展開するにつれて継続的に適応し、進化するダイナミックスに応答して将来のサブゴールを調整し、より信頼性の高い計画パスを容易にします。
この概念に基づいて、予測モデルを利用してVLAポリシーの実行をガイドする実行可能なサブゴールを生成する階層型VLAモデルであるPrecipation-VLAを提案する。
我々は、高レベルサブゴール生成のための統一マルチモーダルモデル(UMM)の微調整と、低レベルアクション実行のための目標条件付きVLAポリシーを実装した予測-VLAを実装した。
シミュレーションと実世界のロボットタスクの両方の実験では、予測-VLAの有効性が示され、ロバストなポリシー実行のための適応的および再帰的なサブゴール生成の重要性が強調された。
関連論文リスト
- PRTS: A Primitive Reasoning and Tasking System via Contrastive Representations [66.94988600664574]
我々は,目標達成型強化学習を通じて事前学習を再構築するVLA基盤モデルであるtextbfPRTS(textbfPrimitive textbfReasoning and textbfTasking textbfSystem)を提案する。
論文 参考訳(メタデータ) (2026-04-30T06:14:02Z) - SpanVLA: Efficient Action Bridging and Learning from Negative-Recovery Samples for Vision-Language-Action Model [16.077387927185917]
VLA(Vision-Language-Action)モデルは、世界知識と推論能力を活用するための有望な自動運転パラダイムを提供する。
既存のVLAモデルは、自動回帰生成フレームワークを使用してアクション生成の高レイテンシに悩まされることが多い。
本稿では、自動回帰推論とフローマッチングアクションエキスパートを統合した、新しいエンドツーエンド自動運転フレームワークであるSpanVLAを提案する。
論文 参考訳(メタデータ) (2026-04-21T17:34:19Z) - Self-Correcting VLA: Online Action Refinement via Sparse World Imagination [55.982504915794514]
本稿では, 自己補正VLA (SC-VLA) を提案する。
SC-VLAは最先端のパフォーマンスを達成し、最高タスクスループットを16%削減し、最高パフォーマンスのベースラインよりも9%高い成功率を得る。
論文 参考訳(メタデータ) (2026-02-25T06:58:06Z) - On-the-Fly VLA Adaptation via Test-Time Reinforcement Learning [61.38273866396522]
ビジョン・ランゲージ・アクションモデルが汎用ロボット学習の強力なパラダイムとして登場した。
現在の手法は、シミュレーションや物理世界の展開に挑戦するには相変わらず適していない。
本稿では,VLA フレームワークのテスト時間強化学習について紹介する。
論文 参考訳(メタデータ) (2026-01-11T01:51:30Z) - Learning Affordances at Inference-Time for Vision-Language-Action Models [50.93181349331096]
ロボット工学において、VLA(Vision-Language-Action Model)は複雑な制御タスクを解くための有望な道を提供する。
本稿では,VLAの低レベルポリシーを過去の経験を条件とした高レベルVLMに接続するLITEN(Learning from Inference-Time Execution)を紹介する。
提案手法は,低レベルVLAの計画の生成と実行を行う推論フェーズと,その結果を反映した評価フェーズとを反復する。
論文 参考訳(メタデータ) (2025-10-22T16:43:29Z) - dVLA: Diffusion Vision-Language-Action Model with Multimodal Chain-of-Thought [66.78110237549087]
VLA(Vision-Language-Action)モデルは、ロボット工学の次世代パラダイムとして登場しつつある。
単一システムにおける視覚認識,言語推論,ロボット制御を統一する拡散型VLAであるdVLAを紹介する。
論文 参考訳(メタデータ) (2025-09-30T02:36:11Z) - LLaDA-VLA: Vision Language Diffusion Action Models [23.653152301133925]
自己回帰モデルとは異なるパラダイムである仮面拡散モデルは、テキスト生成やマルチモーダルアプリケーションにおける競合性能を実証し始めている。
LLaDA-VLAは,ロボット操作のための事前訓練d-VLM上に構築された最初のビジョン・ランゲージ・ディフュージョン・アクションモデルである。
論文 参考訳(メタデータ) (2025-09-08T17:45:40Z) - LoHoVLA: A Unified Vision-Language-Action Model for Long-Horizon Embodied Tasks [31.3295171851909]
実世界のエンボディエージェントは、マルチステップソリューションを必要とするハイレベルな目標に直面します。
ロングホライゾンタスクは、ハイレベルなタスクプランニングと低レベルなモーションコントロールを必要とする。
我々は,LoHoVLAと呼ばれる長期タスクのための統合視覚言語フレームワークを導入する。
論文 参考訳(メタデータ) (2025-05-31T06:01:03Z) - CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models [89.44024245194315]
視覚言語行動モデル(VLA)に明示的な視覚連鎖(CoT)推論を組み込む手法を提案する。
視覚およびアクショントークンの理解と生成が可能な最先端の7B VLAであるCoT-VLAを紹介する。
実験の結果,CoT-VLAは実世界の操作タスクでは17%,シミュレーションベンチマークでは6%,最先端のVLAモデルでは6%,高い性能を示した。
論文 参考訳(メタデータ) (2025-03-27T22:23:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。