論文の概要: FutureSightDrive: Thinking Visually with Spatio-Temporal CoT for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2505.17685v1
- Date: Fri, 23 May 2025 09:55:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.97762
- Title: FutureSightDrive: Thinking Visually with Spatio-Temporal CoT for Autonomous Driving
- Title(参考訳): FutureSightDrive: 自律運転のための時空間CoTを視覚的に考える
- Authors: Shuang Zeng, Xinyuan Chang, Mengwei Xie, Xinran Liu, Yifan Bai, Zheng Pan, Mu Xu, Xing Wei,
- Abstract要約: 視覚言語モデル(VLM)は、強力な推論能力のため、自動運転への関心が高まっている。
本稿では,モデルが視覚的に考えることを可能にするコテンポラル-T推論手法を提案する。
- 参考スコア(独自算出の注目度): 16.588458512862932
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual language models (VLMs) have attracted increasing interest in autonomous driving due to their powerful reasoning capabilities. However, existing VLMs typically utilize discrete text Chain-of-Thought (CoT) tailored to the current scenario, which essentially represents highly abstract and symbolic compression of visual information, potentially leading to spatio-temporal relationship ambiguity and fine-grained information loss. Is autonomous driving better modeled on real-world simulation and imagination than on pure symbolic logic? In this paper, we propose a spatio-temporal CoT reasoning method that enables models to think visually. First, VLM serves as a world model to generate unified image frame for predicting future world states: where perception results (e.g., lane divider and 3D detection) represent the future spatial relationships, and ordinary future frame represent the temporal evolution relationships. This spatio-temporal CoT then serves as intermediate reasoning steps, enabling the VLM to function as an inverse dynamics model for trajectory planning based on current observations and future predictions. To implement visual generation in VLMs, we propose a unified pretraining paradigm integrating visual generation and understanding, along with a progressive visual CoT enhancing autoregressive image generation. Extensive experimental results demonstrate the effectiveness of the proposed method, advancing autonomous driving towards visual reasoning.
- Abstract(参考訳): 視覚言語モデル(VLM)は、強力な推論能力のため、自動運転への関心が高まっている。
しかしながら、既存のVLMは通常、現在のシナリオに合わせた個別テキストのChain-of-Thought(CoT)を使用し、視覚情報の高度に抽象的で象徴的な圧縮を表現し、時空間的関係の曖昧さときめ細かい情報損失につながる可能性がある。
自律運転は純粋な記号論理よりも現実のシミュレーションと想像をモデルにしているだろうか?
本稿では,モデルが視覚的に考えることのできる時空間CoT推論手法を提案する。
まず、VLMは、将来の世界状態を予測するための統一された画像フレームを生成する世界モデルとして機能し、知覚結果(例えば、車線分割器と3D検出)が将来の空間関係を表し、通常の未来フレームは時間的進化関係を表す。
この時空間CoTは中間的推論ステップとして機能し、VLMは現在の観測と将来の予測に基づく軌道計画の逆ダイナミクスモデルとして機能する。
VLMにおける視覚生成を実現するために,視覚生成と理解を統合した統合事前学習パラダイムと,自動回帰画像生成を向上するプログレッシブビジュアルCoTを提案する。
広範に実験を行った結果,提案手法の有効性が示された。
関連論文リスト
- CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models [89.44024245194315]
視覚言語行動モデル(VLA)に明示的な視覚連鎖(CoT)推論を組み込む手法を提案する。
視覚およびアクショントークンの理解と生成が可能な最先端の7B VLAであるCoT-VLAを紹介する。
実験の結果,CoT-VLAは実世界の操作タスクでは17%,シミュレーションベンチマークでは6%,最先端のVLAモデルでは6%,高い性能を示した。
論文 参考訳(メタデータ) (2025-03-27T22:23:04Z) - Multi-scale Temporal Fusion Transformer for Incomplete Vehicle Trajectory Prediction [23.72022120344089]
運動予測は自律運転システムにおいて重要な役割を果たす。
不完全な車両軌道予測のための新しいエンドツーエンドフレームワークを提案する。
道路交通シナリオと都市交通シナリオから得られた4つのデータセットについて,提案モデルの評価を行った。
論文 参考訳(メタデータ) (2024-09-02T02:36:18Z) - BEVWorld: A Multimodal World Simulator for Autonomous Driving via Scene-Level BEV Latents [56.33989853438012]
BEVWorldは,マルチモーダルセンサ入力を統一的でコンパクトなBird's Eye View潜在空間に変換し,全体的環境モデリングを行うフレームワークである。
提案する世界モデルは,多モードトークン化器と遅延BEVシーケンス拡散モデルという2つの主要成分から構成される。
論文 参考訳(メタデータ) (2024-07-08T07:26:08Z) - AMP: Autoregressive Motion Prediction Revisited with Next Token Prediction for Autonomous Driving [59.94343412438211]
本稿では,GPT方式の次のトークン動作予測を動作予測に導入する。
同種単位-ワードからなる言語データとは異なり、運転シーンの要素は複雑な空間的・時間的・意味的な関係を持つ可能性がある。
そこで本稿では,情報集約と位置符号化スタイルの異なる3つの因子化アテンションモジュールを用いて,それらの関係を捉えることを提案する。
論文 参考訳(メタデータ) (2024-03-20T06:22:37Z) - GenAD: Generative End-to-End Autonomous Driving [13.332272121018285]
GenADは、ジェネレーティブモデリング問題に自律運転を組み込むジェネレーティブフレームワークである。
本稿では,まず周囲のシーンをマップ対応のインスタンストークンに変換するインスタンス中心のシーントークン化手法を提案する。
次に、変動型オートエンコーダを用いて、軌道先行モデリングのための構造潜在空間における将来の軌道分布を学習する。
論文 参考訳(メタデータ) (2024-02-18T08:21:05Z) - Context-Aware Timewise VAEs for Real-Time Vehicle Trajectory Prediction [4.640835690336652]
マルチモーダル車軌道予測のためのコンテキスト認識手法であるContextVAEを提案する。
本手法は,現場のエージェントが提示する社会的特徴と,身体環境の制約を考慮に入れたものである。
すべてのテストデータセットにおいて、ContextVAEモデルはトレーニングが高速で、リアルタイムに高品質なマルチモーダル予測を提供する。
論文 参考訳(メタデータ) (2023-02-21T18:42:24Z) - ST-P3: End-to-end Vision-based Autonomous Driving via Spatial-Temporal
Feature Learning [132.20119288212376]
本稿では,認識,予測,計画タスクを同時に行うための,より代表的な特徴の集合に対する時空間的特徴学習手法を提案する。
私たちの知識を最大限に活用するために、私たちは、解釈可能なエンドツーエンドの自動運転システムの各部分を体系的に調査した最初の人です。
論文 参考訳(メタデータ) (2022-07-15T16:57:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。