論文の概要: ForeAct: Steering Your VLA with Efficient Visual Foresight Planning
- arxiv url: http://arxiv.org/abs/2602.12322v1
- Date: Thu, 12 Feb 2026 18:56:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-16 23:37:53.717853
- Title: ForeAct: Steering Your VLA with Efficient Visual Foresight Planning
- Title(参考訳): ForeAct: 効率的な視野計画でVLAをステアリングする
- Authors: Zhuoyang Zhang, Shang Yang, Qinghao Hu, Luke J. Huang, James Hou, Yufei Sun, Yao Lu, Song Han,
- Abstract要約: 本稿では,ビジョン・ランゲージ・アクションをステップバイステップでガイドする,ビジュアル・フォレスト・プランニング(ForeAct)について紹介する。
将来予想される観測により、VLAは高レベルのセマンティック推論ではなく、ビジュオモービル推論に焦点を合わせることができる。
我々は,11の多段階実世界のタスクからなるベンチマークで,我々のフレームワークを評価した。
- 参考スコア(独自算出の注目度): 21.045262959927246
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language-Action (VLA) models convert high-level language instructions into concrete, executable actions, a task that is especially challenging in open-world environments. We present Visual Foresight Planning (ForeAct), a general and efficient planner that guides a VLA step-by-step using imagined future observations and subtask descriptions. With an imagined future observation, the VLA can focus on visuo-motor inference rather than high-level semantic reasoning, leading to improved accuracy and generalization. Our planner comprises a highly efficient foresight image generation module that predicts a high-quality 640$\times$480 future observation from the current visual input and language instruction within only 0.33s on an H100 GPU, together with a vision-language model that reasons over the task and produces subtask descriptions for both the generator and the VLA. Importantly, state-of-the-art VLAs can integrate our planner seamlessly by simply augmenting their visual inputs, without any architectural modification. The foresight generator is pretrained on over 1 million multi-task, cross-embodiment episodes, enabling it to learn robust embodied dynamics. We evaluate our framework on a benchmark that consists of 11 diverse, multi-step real-world tasks. It achieves an average success rate of 87.4%, demonstrating a +40.9% absolute improvement over the $π_0$ baseline (46.5%) and a +30.3% absolute improvement over $π_0$ augmented with textual subtask guidance (57.1%).
- Abstract(参考訳): VLA(Vision-Language-Action)モデルは、高レベルの言語命令を具体的な実行可能なアクションに変換する。
本稿では,将来的な観測とサブタスク記述を用いて,VLAのステップバイステップをガイドする汎用的で効率的な計画立案者であるVisual Foresight Planning(ForeAct)を紹介する。
将来の展望によって、VLAは高レベルのセマンティック推論よりも、ビジュオモービル推論に焦点を合わせることができ、精度と一般化が向上する。
我々のプランナーは、H100 GPU上の0.33秒以内の現在の視覚入力と言語命令から、高品質な640$\times$480の将来の観測を予測できる高効率なフォレスト画像生成モジュールと、タスクを前提とした視覚言語モデルと、ジェネレータとVLAの両方のサブタスク記述を生成する。
重要なことは、最先端のVLAは、アーキテクチャの変更なしに、単に視覚的なインプットを増強することで、私たちのプランナーをシームレスに統合できます。
フォレスト・ジェネレータは、100万以上のマルチタスク、クロス・エボディメント・エピソードで事前訓練されており、堅牢なエンボディド・ダイナミクスを学習することができる。
我々は,11の多段階実世界のタスクからなるベンチマークで,我々のフレームワークを評価した。
平均成功率は87.4%で、$π_0$ベースライン(46.5%)に対して+40.9%、テキスト・サブタスク・ガイダンス(57.1%)で$π_0$拡張で+30.3%である。
関連論文リスト
- A Pragmatic VLA Foundation Model [66.76609538850478]
我々はLingBot-VLAを開発し、9つの人気のデュアルアームロボット構成から約2万時間のリアルタイムデータを収集した。
我々のモデルは競争相手よりも明らかな優位性を実現し、その強靭な性能と広範な一般化性を示している。
ロボット学習の分野を前進させるために、コード、ベースモデル、ベンチマークデータへのオープンアクセスを提供する。
論文 参考訳(メタデータ) (2026-01-26T17:08:04Z) - Learning to See and Act: Task-Aware View Planning for Robotic Manipulation [88.37482534484627]
Task-Aware View Planning (TAVP)は、アクティブなビュープランニングとタスク固有の表現学習を統合するために設計されたフレームワークである。
提案したTAVPモデルは、最先端の固定ビューアプローチよりも優れた性能を実現する。
論文 参考訳(メタデータ) (2025-08-07T09:21:20Z) - InstructVLA: Vision-Language-Action Instruction Tuning from Understanding to Manipulation [43.83789393525928]
InstructVLAは、大規模な視覚言語モデル(VLM)の柔軟な推論を保存し、主要な操作性能を提供するエンド・ツー・エンドの視覚言語モデルである。
InstructVLAは、新しいトレーニングパラダイムであるVision-Language-Action Instruction Tuning (VLA-IT)を導入している。
ドメイン内のSimplerEnvタスクでは、InstructVLAはSpatialVLAよりも30.5%改善されている。
論文 参考訳(メタデータ) (2025-07-23T13:57:06Z) - World-aware Planning Narratives Enhance Large Vision-Language Model Planner [48.97399087613431]
LVLM(Large Vision-Language Models)は、複雑なシナリオに苦しむ計画タスクを具体化する。
我々は,LVLMを包括的環境理解に注入するフレームワークであるワールド・アウェア・プランニング・ナラティブ・エンハンスメント(WAP)を提案する。
論文 参考訳(メタデータ) (2025-06-26T13:20:55Z) - CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models [89.44024245194315]
視覚言語行動モデル(VLA)に明示的な視覚連鎖(CoT)推論を組み込む手法を提案する。
視覚およびアクショントークンの理解と生成が可能な最先端の7B VLAであるCoT-VLAを紹介する。
実験の結果,CoT-VLAは実世界の操作タスクでは17%,シミュレーションベンチマークでは6%,最先端のVLAモデルでは6%,高い性能を示した。
論文 参考訳(メタデータ) (2025-03-27T22:23:04Z) - EfficientVLM: Fast and Accurate Vision-Language Models via Knowledge
Distillation and Modal-adaptive Pruning [19.354515754130592]
我々は,大規模な視覚言語モデルをより小さく,より速く,より正確なものに圧縮する蒸留精錬フレームワークを導入する。
EfficientVLMは、6つの視覚層、3つのテキスト層、3つのモーダル融合層からなる高速かつ正確な視覚言語モデルである。
効率的なVLMは、教師モデルの98.4%のパフォーマンスを維持し、推論速度を2.2倍に加速する。
論文 参考訳(メタデータ) (2022-10-14T13:26:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。