論文の概要: F1: A Vision-Language-Action Model Bridging Understanding and Generation to Actions
- arxiv url: http://arxiv.org/abs/2509.06951v1
- Date: Mon, 08 Sep 2025 17:58:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:04.306496
- Title: F1: A Vision-Language-Action Model Bridging Understanding and Generation to Actions
- Title(参考訳): F1:行動への理解と生成を橋渡しするビジョンランゲージ・アクションモデル
- Authors: Qi Lv, Weijie Kong, Hao Li, Jia Zeng, Zherui Qiu, Delin Qu, Haoming Song, Qizhi Chen, Xiang Deng, Jiangmiao Pang,
- Abstract要約: 視覚的フォレスト生成を意思決定パイプラインに統合するフレームワークであるF1を紹介する。
F1は、目標条件付き視覚的見通しを明示的な計画目標として合成するために、次のスケールの予測メカニズムを使用する。
実世界のタスクとシミュレーションベンチマークに関する大規模な評価は、F1が既存のアプローチを一貫して上回っていることを示している。
- 参考スコア(独自算出の注目度): 34.70305835171623
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Executing language-conditioned tasks in dynamic visual environments remains a central challenge in embodied AI. Existing Vision-Language-Action (VLA) models predominantly adopt reactive state-to-action mappings, often leading to short-sighted behaviors and poor robustness in dynamic scenes. In this paper, we introduce F1, a pretrained VLA framework which integrates the visual foresight generation into decision-making pipeline. F1 adopts a Mixture-of-Transformer architecture with dedicated modules for perception, foresight generation, and control, thereby bridging understanding, generation, and actions. At its core, F1 employs a next-scale prediction mechanism to synthesize goal-conditioned visual foresight as explicit planning targets. By forecasting plausible future visual states, F1 reformulates action generation as a foresight-guided inverse dynamics problem, enabling actions that implicitly achieve visual goals. To endow F1 with robust and generalizable capabilities, we propose a three-stage training recipe on an extensive dataset comprising over 330k trajectories across 136 diverse tasks. This training scheme enhances modular reasoning and equips the model with transferable visual foresight, which is critical for complex and dynamic environments. Extensive evaluations on real-world tasks and simulation benchmarks demonstrate F1 consistently outperforms existing approaches, achieving substantial gains in both task success rate and generalization ability.
- Abstract(参考訳): 動的視覚環境における言語条件付きタスクの実行は、AIを具現化する上で依然として中心的な課題である。
既存のVision-Language-Action(VLA)モデルは、リアクティブな状態からアクションへのマッピングを主に採用しており、しばしば近視行動や動的シーンでの堅牢性の低下につながる。
本稿では、視覚的フォレスト生成を意思決定パイプラインに統合する、事前訓練されたVLAフレームワークであるF1を紹介する。
F1はMixture-of-Transformerアーキテクチャを採用し、知覚、フォアサイト生成、制御のための専用のモジュールを持ち、それによって理解、生成、アクションをブリッジする。
F1のコアとなるのは、目標条件付き視覚的視野を明確な計画目標として合成する、次のスケールの予測メカニズムである。
有望な将来の視覚状態を予測することにより、F1はフォレスト誘導逆ダイナミクス問題としてアクション生成を再構成し、視覚目標を暗黙的に達成するアクションを可能にする。
頑健で一般化可能なF1を実現するために,136のタスクに330k以上のトラジェクトリからなる広範囲なデータセット上で,3段階のトレーニングレシピを提案する。
このトレーニングスキームはモジュラー推論を強化し、複雑な環境や動的環境に欠かせないトランスファー可能な視覚的フォレストをモデルに装備する。
実世界のタスクとシミュレーションのベンチマークに関する大規模な評価は、F1が既存のアプローチを一貫して上回り、タスクの成功率と一般化能力の両方において大きな成果を上げたことを示している。
関連論文リスト
- ViLaD: A Large Vision Language Diffusion Framework for End-to-End Autonomous Driving [14.486548540613791]
エンド・ツー・エンド・エンドの自動運転のための新しいLarge Vision Language DiffusionフレームワークであるViLaDを紹介する。
ViLaDは、駆動決定シーケンス全体の並列生成を可能にし、計算遅延を大幅に削減する。
我々はnuScenesデータセットの総合的な実験を行い、ViLaDは最先端の自己回帰的VLMベースラインを計画精度と推論速度の両方で上回ります。
論文 参考訳(メタデータ) (2025-08-18T04:01:56Z) - VLMPlanner: Integrating Visual Language Models with Motion Planning [18.633637485218802]
VLMPlannerは、学習ベースのリアルタイムプランナと生画像の推論が可能な視覚言語モデル(VLM)を組み合わせたハイブリッドフレームワークである。
我々は,VLMが人間の運転動作を模倣できるコンテキスト適応推論ゲート機構を開発した。
論文 参考訳(メタデータ) (2025-07-27T16:15:21Z) - Parallels Between VLA Model Post-Training and Human Motor Learning: Progress, Challenges, and Trends [11.678954304546988]
視覚言語アクション(VLA)モデル拡張視覚言語モデル(VLM)
本稿では,人間の運動学習のレンズによるVLAモデルの訓練戦略についてレビューする。
論文 参考訳(メタデータ) (2025-06-26T03:06:57Z) - CronusVLA: Transferring Latent Motion Across Time for Multi-Frame Prediction in Manipulation [67.1520483301709]
CronusVLAはシングルフレームのVLAモデルを効率的な後トレーニング段階を通じてマルチフレームのパラダイムに拡張する統合フレームワークである。
CronusVLAはSimplerEnvの最先端のパフォーマンスを70.9%の成功率で達成し、LIBEROのOpenVLAよりも12.7%改善した。
論文 参考訳(メタデータ) (2025-06-24T17:30:27Z) - VLN-R1: Vision-Language Navigation via Reinforcement Fine-Tuning [77.34267241692706]
Vision-Language Navigation(VLN)は、エージェントが自然言語命令を使用して現実世界の環境をナビゲートする必要がある、AIの実施における中核的な課題である。
本稿では、LVLM(Large Vision-Language Models)を利用して、エゴセントリックな動画ストリームを連続的なナビゲーションアクションに変換するエンドツーエンドフレームワークであるVLN-R1を提案する。
論文 参考訳(メタデータ) (2025-06-20T17:59:59Z) - Unlocking Smarter Device Control: Foresighted Planning with a World Model-Driven Code Execution Approach [82.27842884709378]
本研究では,自然言語理解と構造化推論を優先し,エージェントの環境に対するグローバルな理解を高める枠組みを提案する。
本手法は,従来の手法,特にタスク成功率の44.4%向上を達成している。
論文 参考訳(メタデータ) (2025-05-22T09:08:47Z) - CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models [89.44024245194315]
視覚言語行動モデル(VLA)に明示的な視覚連鎖(CoT)推論を組み込む手法を提案する。
視覚およびアクショントークンの理解と生成が可能な最先端の7B VLAであるCoT-VLAを紹介する。
実験の結果,CoT-VLAは実世界の操作タスクでは17%,シミュレーションベンチマークでは6%,最先端のVLAモデルでは6%,高い性能を示した。
論文 参考訳(メタデータ) (2025-03-27T22:23:04Z) - Generative Planning with 3D-vision Language Pre-training for End-to-End Autonomous Driving [20.33096710167997]
GPVLという名前の3次元言語事前学習モデルによる生成計画がエンドツーエンドの自動運転のために提案されている。
クロスモーダル言語モデルを導入し、総合的な駆動決定と微粒な軌跡を生成する。
GPVLの効果的で堅牢で効率的な性能は、将来の自動運転システムの実用化に不可欠であると考えられている。
論文 参考訳(メタデータ) (2025-01-15T15:20:46Z) - Goal-Conditioned End-to-End Visuomotor Control for Versatile Skill
Primitives [89.34229413345541]
本稿では,制御器とその条件をエンドツーエンドに学習することで,落とし穴を回避する条件付け手法を提案する。
本モデルでは,ロボットの動きのダイナミックな画像表現に基づいて,複雑な動作シーケンスを予測する。
代表的MPCおよびILベースラインに対するタスク成功の大幅な改善を報告した。
論文 参考訳(メタデータ) (2020-03-19T15:04:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。