論文の概要: BagelVLA: Enhancing Long-Horizon Manipulation via Interleaved Vision-Language-Action Generation
- arxiv url: http://arxiv.org/abs/2602.09849v2
- Date: Wed, 11 Feb 2026 03:54:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.328179
- Title: BagelVLA: Enhancing Long-Horizon Manipulation via Interleaved Vision-Language-Action Generation
- Title(参考訳): BagelVLA:Interleaved Vision-Language-Action Generationによる長距離マニピュレーションの強化
- Authors: Yucheng Hu, Jianke Zhang, Yuanfei Luo, Yanjiang Guo, Xiaoyu Chen, Xinshu Sun, Kun Feng, Qingzhou Lu, Sheng Chen, Yangang Zhang, Wei Li, Jianyu Chen,
- Abstract要約: VLA(Vision-Language-Action)モデルは通常、独立した言語計画や視覚予測に重点を置いている。
本研究では,言語計画,視覚予測,行動生成を統合した統一モデルBagelVLAを提案する。
大規模な実験により、BagelVLAは複数のシミュレーションおよび実世界のベンチマークで既存のベースラインを上回っていることが示されている。
- 参考スコア(独自算出の注目度): 14.657523625592658
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Equipping embodied agents with the ability to reason about tasks, foresee physical outcomes, and generate precise actions is essential for general-purpose manipulation. While recent Vision-Language-Action (VLA) models have leveraged pre-trained foundation models, they typically focus on either linguistic planning or visual forecasting in isolation. These methods rarely integrate both capabilities simultaneously to guide action generation, leading to suboptimal performance in complex, long-horizon manipulation tasks. To bridge this gap, we propose BagelVLA, a unified model that integrates linguistic planning, visual forecasting, and action generation within a single framework. Initialized from a pretrained unified understanding and generative model, BagelVLA is trained to interleave textual reasoning and visual prediction directly into the action execution loop. To efficiently couple these modalities, we introduce Residual Flow Guidance (RFG), which initializes from current observation and leverages single-step denoising to extract predictive visual features, guiding action generation with minimal latency. Extensive experiments demonstrate that BagelVLA outperforms existing baselines by a significant margin on multiple simulated and real-world benchmarks, particularly in tasks requiring multi-stage reasoning.
- Abstract(参考訳): エンボディエージェントにタスクを推論し、物理的な成果を予測し、正確なアクションを生成する能力を持たせることは、汎用的な操作には不可欠である。
近年のVision-Language-Action(VLA)モデルは、事前訓練された基礎モデルを活用しているが、通常は言語計画や視覚予測に重点を置いている。
これらの手法は、アクション生成を誘導するために両方の機能を同時に統合することは滅多になく、複雑なロングホライゾン操作タスクにおいて、最適以下のパフォーマンスをもたらす。
このギャップを埋めるため,言語計画,視覚予測,行動生成を統合した統一モデルBagelVLAを提案する。
事前訓練された統合理解と生成モデルから初期化され、BagelVLAは、テキスト推論と視覚予測を直接アクション実行ループにインターリーブするように訓練される。
これらのモダリティを効率的に結合するために、現在の観測から初期化し、単一ステップの復調を利用して予測的な視覚的特徴を抽出し、最小レイテンシでアクション生成を誘導するResidual Flow Guidance (RFG)を導入する。
大規模な実験により、BagelVLAは複数のシミュレーションされた実世界のベンチマークにおいて、特に多段階の推論を必要とするタスクにおいて、既存のベースラインを著しく上回っていることが示されている。
関連論文リスト
- Reshaping Action Error Distributions for Reliable Vision-Language-Action Models [69.38615670891038]
ロボット操作において、視覚言語アクション(VLA)モデルは、一般化可能でスケーラブルなロボットポリシーを学ぶための有望なパラダイムとして登場した。
連続動作型VLAモデルに焦点をあて、トレーニング中の動作誤差分布を再構成することにより、従来のMSEベースの回帰を超越する。
複数の代表的VLAアーキテクチャ上で、標準、少数ショット、ノイズの多い設定にまたがるアプローチを評価します。
論文 参考訳(メタデータ) (2026-02-04T05:37:09Z) - ActDistill: General Action-Guided Self-Derived Distillation for Efficient Vision-Language-Action Models [14.202025149504715]
本稿では,既存のVLAモデルの動作予測機能を軽量モデルに転送するフレームワークであるActDistillを提案する。
我々は教師としてよく訓練されたVLAモデルを採用し、グラフ構造化カプセル化戦略を導入し、行動予測の階層的進化を明示的にモデル化する。
具現化されたベンチマークの実験では、ActDistillはフルスケールのVLAモデルと同等または優れた性能を達成し、計算を最大1.67倍のスピードアップで50%以上削減した。
論文 参考訳(メタデータ) (2025-11-22T14:44:03Z) - Unified Diffusion VLA: Vision-Language-Action Model via Joint Discrete Denoising Diffusion Process [48.63424123606625]
視覚言語アクション(VLA)モデルは、自然言語の指示や視覚的な観察を理解することを目的としている。
最近の研究は、将来のイメージを理解作用ループに統合し、共同で理解し、生成し、行動する統合されたVLAを生成する。
性能と効率を最適化する2段階のトレーニングパイプラインと,いくつかの推論時間技術を提案する。
論文 参考訳(メタデータ) (2025-11-03T16:26:54Z) - Do What You Say: Steering Vision-Language-Action Models via Runtime Reasoning-Action Alignment Verification [17.948161564138033]
Reasoning Vision Language Action (VLA)モデルは、低レベルアクションの前にステップバイステップのテキストプランを生成することで、ロボットによる命令追従を改善する。
しかし、正しいテキストプランであっても、生成したアクションは計画の意図した結果、特にアウト・オブ・ディストリビューションのシナリオを見逃す可能性がある。
我々は、この現象をCoT忠実性の欠如として定式化し、推論・アクションアライメントのためのトレーニング不要な実行時ポリシーステアリング手法を導入する。
論文 参考訳(メタデータ) (2025-10-18T00:38:45Z) - Hybrid Training for Vision-Language-Action Models [10.451756630631609]
本稿では,視覚言語モデルを用いて思考から学習し,関連するパフォーマンス向上の恩恵を受けることができるフレームワークを提案する。
多様な出力のセットを条件付きで予測することを学ぶことで、HyTは推論時の柔軟性をサポートし、モデルが直接アクションを予測するか、思考を生成するか、指示に従うことができる。
論文 参考訳(メタデータ) (2025-10-01T07:27:15Z) - CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models [89.44024245194315]
視覚言語行動モデル(VLA)に明示的な視覚連鎖(CoT)推論を組み込む手法を提案する。
視覚およびアクショントークンの理解と生成が可能な最先端の7B VLAであるCoT-VLAを紹介する。
実験の結果,CoT-VLAは実世界の操作タスクでは17%,シミュレーションベンチマークでは6%,最先端のVLAモデルでは6%,高い性能を示した。
論文 参考訳(メタデータ) (2025-03-27T22:23:04Z) - HybridVLA: Collaborative Diffusion and Autoregression in a Unified Vision-Language-Action Model [54.64088247291416]
操作ポリシー設計の基本的な目的は、ロボットに人間の指示を理解し、シーンの手がかりを推論し、動的な環境で一般化されたアクションを実行することである。
近年の自己回帰的視覚言語行動(VLA)法は、視覚言語モデル(VLM)から常識推論能力を継承し、次の行動予測を行う。
拡散に基づく行動の連続的な性質と自己回帰の文脈的推論を吸収する統合フレームワークであるHybridVLAを紹介する。
論文 参考訳(メタデータ) (2025-03-13T17:59:52Z) - SimVLM: Simple Visual Language Model Pretraining with Weak Supervision [48.98275876458666]
SimVLM(Simple Visual Language Model)という,最小限の事前学習フレームワークを提案する。
SimVLMは、大規模な弱監視を活用することで、トレーニングの複雑さを低減する。
様々な識別的および生成的視覚言語ベンチマークにおいて、最先端の新たな結果が得られる。
論文 参考訳(メタデータ) (2021-08-24T18:14:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。