論文の概要: UniUGP: Unifying Understanding, Generation, and Planing For End-to-end Autonomous Driving
- arxiv url: http://arxiv.org/abs/2512.09864v1
- Date: Wed, 10 Dec 2025 17:50:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-11 15:14:53.620918
- Title: UniUGP: Unifying Understanding, Generation, and Planing For End-to-end Autonomous Driving
- Title(参考訳): UniUGP: エンドツーエンドの自動運転の理解、生成、計画の統合
- Authors: Hao Lu, Ziyang Liu, Guangfeng Jiang, Yuanfei Luo, Sheng Chen, Yangang Zhang, Ying-Cong Chen,
- Abstract要約: 複雑なシナリオに対する推論と計画アノテーションを提供する特別なデータセットを構築します。
シーン推論,将来の映像生成,軌道計画の相乗化を目的として,UniUGPという統合理解・生成・計画フレームワークを提案する。
実験は、認識、推論、意思決定における最先端のパフォーマンスを示し、ロングテールな状況に挑戦するために優れた一般化を行う。
- 参考スコア(独自算出の注目度): 35.86460001147528
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Autonomous driving (AD) systems struggle in long-tail scenarios due to limited world knowledge and weak visual dynamic modeling. Existing vision-language-action (VLA)-based methods cannot leverage unlabeled videos for visual causal learning, while world model-based methods lack reasoning capabilities from large language models. In this paper, we construct multiple specialized datasets providing reasoning and planning annotations for complex scenarios. Then, a unified Understanding-Generation-Planning framework, named UniUGP, is proposed to synergize scene reasoning, future video generation, and trajectory planning through a hybrid expert architecture. By integrating pre-trained VLMs and video generation models, UniUGP leverages visual dynamics and semantic reasoning to enhance planning performance. Taking multi-frame observations and language instructions as input, it produces interpretable chain-of-thought reasoning, physically consistent trajectories, and coherent future videos. We introduce a four-stage training strategy that progressively builds these capabilities across multiple existing AD datasets, along with the proposed specialized datasets. Experiments demonstrate state-of-the-art performance in perception, reasoning, and decision-making, with superior generalization to challenging long-tail situations.
- Abstract(参考訳): 自律運転(AD)システムは、限られた世界知識と弱い視覚力学モデリングのために、長い尾のシナリオで苦労する。
既存のヴィジュアル・ランゲージ・アクション(VLA)ベースの手法では、視覚因果学習のためのラベルなしビデオは利用できないが、世界モデルベースの手法では大きな言語モデルからの推論能力が欠如している。
本稿では,複雑なシナリオに対する推論と計画アノテーションを提供する,複数の特別なデータセットを構築する。
そこで,UniUGPと名づけられた統合理解・生成・プランニングフレームワークを提案し,シーン推論,将来の映像生成,軌道計画などをハイブリッドな専門家アーキテクチャで連携させる。
事前訓練されたVLMとビデオ生成モデルを統合することで、UniUGPは視覚力学とセマンティック推論を活用して計画性能を向上させる。
複数フレームの観察と言語命令を入力として、解釈可能な連鎖推論、物理的に一貫した軌道、一貫性のある将来のビデオを生成する。
提案した特別なデータセットとともに、複数の既存のADデータセットにまたがって、これらの機能を段階的に構築する4段階のトレーニング戦略を導入します。
実験は、認識、推論、意思決定における最先端のパフォーマンスを示し、ロングテールな状況に挑戦するために優れた一般化を行う。
関連論文リスト
- Planning with Unified Multimodal Models [27.156039833076324]
我々は、統一マルチモーダルモデル(UMM)は、生成した視覚的コンテンツを通して推論を行うことにより、意思決定により大きな可能性を秘めていると論じる。
このフレームワーク内では、単一のモデルがポリシー、ダイナミクスモデル、バリュー関数として同時に機能します。
そこで本研究では, 生成モデルを自己判別器として機能し, 無効な力学予測をフィルタリングする手法を提案する。
論文 参考訳(メタデータ) (2025-09-27T00:13:13Z) - VLMPlanner: Integrating Visual Language Models with Motion Planning [18.633637485218802]
VLMPlannerは、学習ベースのリアルタイムプランナと生画像の推論が可能な視覚言語モデル(VLM)を組み合わせたハイブリッドフレームワークである。
我々は,VLMが人間の運転動作を模倣できるコンテキスト適応推論ゲート機構を開発した。
論文 参考訳(メタデータ) (2025-07-27T16:15:21Z) - Video Event Reasoning and Prediction by Fusing World Knowledge from LLMs with Vision Foundation Models [10.1080193179562]
現在の理解モデルは「何」を認識するのに優れているが、因果推論や将来の予測のような高いレベルの認知タスクでは不足している。
本稿では,知識駆動型推論コアとして機能するLarge Language Model (LLM)を用いて,視覚の深層認識のための強力なビジョン基礎モデルと融合する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-08T09:43:17Z) - STEP: Enhancing Video-LLMs' Compositional Reasoning by Spatio-Temporal Graph-guided Self-Training [87.58996020705258]
Video Large Language Models (Video-LLMs) は近年,ビデオ理解タスクに強い派生性を示している。
ビデオLLMは、多段階の明示的時間的推論を必要とする構成的推論と、オブジェクトの関係、相互作用、イベントに苦労する。
本稿では,ビデオLLMが生ビデオから推論に富んだ微調整データを生成し,自己改善を実現するための,グラフ誘導型自己学習手法STEPを提案する。
論文 参考訳(メタデータ) (2024-11-29T11:54:55Z) - LifelongMemory: Leveraging LLMs for Answering Queries in Long-form Egocentric Videos [15.127197238628396]
LifelongMemoryは、自然言語による質問応答と検索を通じて、長い形式のエゴシックなビデオメモリにアクセスするための新しいフレームワークである。
Ego4D の自然言語クエリ (NLQ) の課題に対して,本手法は質問応答のためのベンチマークの最先端性能を実現し,高い競争力を発揮する。
論文 参考訳(メタデータ) (2023-12-07T19:19:25Z) - Compositional Foundation Models for Hierarchical Planning [52.18904315515153]
本稿では,言語,視覚,行動データを個別に訓練し,長期的課題を解決するための基礎モデルを提案する。
我々は,大規模なビデオ拡散モデルを用いて,環境に根ざした記号的計画を構築するために,大規模言語モデルを用いている。
生成したビデオプランは、生成したビデオからアクションを推論する逆ダイナミクスモデルを通じて、視覚運動制御に基礎を置いている。
論文 参考訳(メタデータ) (2023-09-15T17:44:05Z) - Pre-training Contextualized World Models with In-the-wild Videos for
Reinforcement Learning [54.67880602409801]
本稿では,視覚制御タスクの学習を効率的に行うために,Wild 動画を多用した事前学習型世界モデルの課題について検討する。
本稿では、コンテキストと動的モデリングを明確に分離したContextualized World Models(ContextWM)を紹介する。
実験により,ContextWMを内蔵したWildビデオ事前学習は,モデルベース強化学習のサンプル効率を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-05-29T14:29:12Z) - Object Relational Graph with Teacher-Recommended Learning for Video
Captioning [92.48299156867664]
本稿では,新しいモデルと効果的なトレーニング戦略の両方を含む完全なビデオキャプションシステムを提案する。
具体的には,オブジェクトリレーショナルグラフ(ORG)に基づくエンコーダを提案する。
一方,教師推薦学習(TRL)手法を設計し,成功した外部言語モデル(ELM)をフル活用し,豊富な言語知識をキャプションモデルに統合する。
論文 参考訳(メタデータ) (2020-02-26T15:34:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。