Fugu-MT 論文翻訳(概要): OneVL: One-Step Latent Reasoning and Planning with Vision-Language Explanation

論文の概要: OneVL: One-Step Latent Reasoning and Planning with Vision-Language Explanation

arxiv url: http://arxiv.org/abs/2604.18486v1
Date: Mon, 20 Apr 2026 16:37:22 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-21 21:52:52.999281
Title: OneVL: One-Step Latent Reasoning and Planning with Vision-Language Explanation
Title（参考訳）: OneVL:視覚言語説明を用いたワンステップ遅延推論と計画
Authors: Jinghui Lu, Jiayi Guan, Zhijian Huang, Jinlong Li, Guang Li, Lingdong Kong, Yingyan Li, Han Wang, Shaoqing Xu, Yuechen Luo, Fang Li, Chenxu Dang, Junli Wang, Tao Xu, Jing Wu, Jianhua Wu, Xiaoshuai Hao, Wen Zhang, Tianyi Jiang, Lingfeng Zhang, Lei Zhou, Yingbo Tang, Jie Wang, Yinfeng Gao, Xizhou Bu, Haochen Tian, Yihang Qiu, Feiyang Jia, Lin Liu, Yigu Ge, Hanbing Li, Yuannan Shen, Jianwei Cui, Hongwei Xie, Bing Wang, Haiyang Sun, Jingwei Zhao, Jiahui Huang, Pei Liu, Zeyu Zhu, Yuncheng Jiang, Zibin Guo, Chuhong Gong, Hanchao Leng, Kun Ma, Naiyang Wang, Guang Chen, Kuiyuan Yang, Hangjun Ye, Long Chen,
Abstract要約: Chain-of-Thought(CoT)推論は、VLAベースの自律運転において、軌道予測の強力なドライバである。本稿では,2つの補助デコーダによって制御されるコンパクトな潜在トークンを通じて推論をルーティングする,統一VLAおよびワールドモデルフレームワークであるOneVLを提案する。 OneVLは、明示的なCoTを超える最初の遅延CoTメソッドとなり、応答のみのレイテンシで最先端の精度を提供する。
参考スコア（独自算出の注目度）: 61.18260993245354
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Chain-of-Thought (CoT) reasoning has become a powerful driver of trajectory prediction in VLA-based autonomous driving, yet its autoregressive nature imposes a latency cost that is prohibitive for real-time deployment. Latent CoT methods attempt to close this gap by compressing reasoning into continuous hidden states, but consistently fall short of their explicit counterparts. We suggest that this is due to purely linguistic latent representations compressing a symbolic abstraction of the world, rather than the causal dynamics that actually govern driving. Thus, we present OneVL (One-step latent reasoning and planning with Vision-Language explanations), a unified VLA and World Model framework that routes reasoning through compact latent tokens supervised by dual auxiliary decoders. Alongside a language decoder that reconstructs text CoT, we introduce a visual world model decoder that predicts future-frame tokens, forcing the latent space to internalize the causal dynamics of road geometry, agent motion, and environmental change. A three-stage training pipeline progressively aligns these latents with trajectory, language, and visual objectives, ensuring stable joint optimization. At inference, the auxiliary decoders are discarded and all latent tokens are prefilled in a single parallel pass, matching the speed of answer-only prediction. Across four benchmarks, OneVL becomes the first latent CoT method to surpass explicit CoT, delivering state-of-the-art accuracy at answer-only latency, and providing direct evidence that tighter compression, when guided in both language and world-model supervision, produces more generalizable representations than verbose token-by-token reasoning. Project Page: https://xiaomi-embodied-intelligence.github.io/OneVL
Abstract（参考訳）: CoT(Chain-of-Thought)推論は、VLAベースの自動運転において、軌道予測の強力な原動力となっているが、その自己回帰的な性質は、リアルタイムデプロイメントを禁止しているレイテンシコストを課している。ラテントCoT法は、推論を連続的に隠された状態に圧縮することでこのギャップを塞ごうとするが、その明示的な状態には一貫して及ばない。これは、運転を実際に支配する因果ダイナミクスではなく、世界の象徴的抽象を圧縮する純粋に言語的な潜在表現によるものであることを示唆する。そこで我々は,2つの補助デコーダによって制御されるコンパクトな潜在トークンを通して推論をルーティングする統一VLAおよびWorld ModelフレームワークであるOneVL(One-step Latent reasoning and planning with Vision-Language explains)を提案する。テキストCoTを再構成する言語デコーダとともに,将来のフレームトークンを予測するビジュアルワールドモデルデコーダを導入し,道路形状,エージェント動作,環境変化の因果ダイナミクスを内部化する。 3段階のトレーニングパイプラインは、これらの潜伏者を軌道、言語、視覚目標と段階的に整列させ、安定した関節最適化を保証する。推論時に補助デコーダは破棄され、全ての潜伏トークンは単一のパラレルパスにプリフィルされ、応答のみ予測の速度に一致する。 4つのベンチマークで、OneVLは明示的なCoTを超える最初の遅延CoTメソッドとなり、応答のみのレイテンシで最先端の精度を提供し、より厳密な圧縮が言語とワールドモデルの両方でガイドされる場合、トークン・バイ・トークンの推論よりもより一般化可能な表現を生み出すという直接的な証拠を提供する。 Project Page: https://xiaomi-embodied-intelligence.github.io/OneVL

関連論文リスト

ThinkJEPA: Empowering Latent World Models with Large Vision-Language Reasoning Model [53.15040805435013]
視覚言語モデル(VLM)は、一様にサンプリングされたフレームを解析することで、強力なセマンティックグラウンドと一般的な知識を提供する。本稿では,高密度フレーム・ダイナミックス・モデリングと長軸意味指導を組み合わせたVLM誘導型JEPA型潜在世界モデリングフレームワークを提案する。
論文参考訳（メタデータ） (2026-03-23T17:59:42Z)
DualCoT-VLA: Visual-Linguistic Chain of Thought via Parallel Reasoning for Vision-Language-Action Models [50.07453075750711]
VLA(Vision-Language-Action)モデルは、視覚的な観察と言語指示を直接ロボット行動にマッピングする。近年の取り組みは、行動能力の前に思考でVLAモデルを育むために、Chain-of-Thought (CoT)推論を取り入れている。並列推論機構を持つVLAモデルの視覚言語的CoT法であるDualCoT-VLAを提案する。
論文参考訳（メタデータ） (2026-03-23T17:59:25Z)
LaST-VLA: Thinking in Latent Spatio-Temporal Space for Vision-Language-Action in Autonomous Driving [21.38662345656532]
VLA(Vision-Language-Action)モデルは、認識と計画の統合によって自動運転に革命をもたらした。明示的なテキスト・オブ・ワット(CoT)への依存は、意味的・知覚的疎結合と知覚的・象徴的対立につながる。潜在的推論への最近のシフトは、連続的な隠れ空間で考えることによって、これらのボトルネックを回避しようとする。
論文参考訳（メタデータ） (2026-03-02T14:42:36Z)
Generative Scenario Rollouts for End-to-End Autonomous Driving [58.99809446189301]
VLA(Vision-Language-Action)モデルは、エンドツーエンドの自動運転システムの高効率な計画モデルとして登場している。本稿では,VLAモデルのためのプラグイン・アンド・プレイフレームワークであるGenerative Scenario Rollouts (GeRo)を提案する。
論文参考訳（メタデータ） (2026-01-16T17:59:28Z)
LaST$_{0}$: Latent Spatio-Temporal Chain-of-Thought for Robotic Vision-Language-Action Model [102.60980325911106]
潜在時空間連鎖(CoT)を介して行動する前に効率的に推論できるフレームワークを提案する。具体的には,未来の視覚力学,3次元構造情報,ロボットの受容状態をモデル化したトークン効率の潜在CoT空間を導入し,時間的に一貫した暗黙的推論軌道を可能にするためにこれらの表現をさらに拡張する。
論文参考訳（メタデータ） (2026-01-08T18:59:53Z)
ColaVLA: Leveraging Cognitive Latent Reasoning for Hierarchical Parallel Trajectory Planning in Autonomous Driving [44.008287454538596]
視覚言語モデル(VLM)は、クロスモーダルな先行とコモンセンス推論を導入することで、このパラダイムを豊かにする。現在のVLMベースのプランナは、(i) 個別のテキスト推論と継続的制御のミスマッチ、(ii) 自己回帰的連鎖のデコーディングからの高い遅延、(iii) リアルタイムデプロイメントを制限する非効率または非因果的なプランナである。テキストから潜在空間へ推論を転送し,それを階層的並列軌道デコーダで結合する統合視覚言語アクションフレームワークColaVLAを提案する。
論文参考訳（メタデータ） (2025-12-28T14:06:37Z)
Latent Chain-of-Thought World Modeling for End-to-End Driving [45.726304769312414]
潜在言語でCoTを表現するモデルであるLatent-CoT-Drive(LCDrive)を提案する。当社のアプローチは,CoT推論と意思決定を,アクションアラインな潜在空間で表現することで統合する。大規模なエンドツーエンド駆動ベンチマークでは、LCDriveはより高速な推論、軌道品質の向上、インタラクティブな強化学習の改善を実現している。
論文参考訳（メタデータ） (2025-12-11T02:22:07Z)
CoT4AD: A Vision-Language-Action Model with Explicit Chain-of-Thought Reasoning for Autonomous Driving [10.836513600206118]
我々は、視覚言語モデル(VLM)における数値推論と因果推論の両方を強化するために、自律運転のためのチェーン・オブ・ソート(CoT)推論を提案する。 CoT4ADは視覚的な観察と言語命令を統合し、セマンティック推論、シーン理解、軌道計画を実行する。 nuScenesやBench2Driveなど、実世界のベンチマークとシミュレーションベンチマークの両方の実験は、CoT4ADがオープンループとクローズループの両方で最先端のパフォーマンスを達成することを実証している。
論文参考訳（メタデータ） (2025-11-27T15:13:13Z)
ReCogDrive: A Reinforced Cognitive Framework for End-to-End Autonomous Driving [49.07731497951963]
ReCogDriveは、エンドツーエンドの自動運転のための新しい強化認知フレームワークである。我々は、人間のドライバーのシーケンシャルな認知過程を模倣する階層的なデータパイプラインを導入する。次に、VLMの学習した運転先を拡散プランナーに注入することで、言語行動ミスマッチに対処する。
論文参考訳（メタデータ） (2025-06-09T03:14:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。