論文の概要: Infrastructure-Centric World Models: Bridging Temporal Depth and Spatial Breadth for Roadside Perception
- arxiv url: http://arxiv.org/abs/2604.17651v1
- Date: Sun, 19 Apr 2026 22:50:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.618854
- Title: Infrastructure-Centric World Models: Bridging Temporal Depth and Spatial Breadth for Roadside Perception
- Title(参考訳): インフラ中心の世界モデル:道路側知覚のための時間的深さと空間的幅
- Authors: Siyuan Meng, Chengbo Ai,
- Abstract要約: 本稿では,インフラ中心の世界モデル(I-WM)を3段階に展開する。
本稿では,マルチモーダルなデータエンジンとして,多層アーキテクチャ,アノテーションなし認識,エンド・ツー・エンドな生成世界モデルを提案する。
我々は,世界モデルを駆動するパラダイムの分類,LeCunのJEPA,Li Fei-Feiの空間知性,VLAアーキテクチャに対するI-WMの位置づけを確立する。
- 参考スコア(独自算出の注目度): 3.3242611619309614
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: World models, generative AI systems that simulate how environments evolve, are transforming autonomous driving, yet all existing approaches adopt an ego-vehicle perspective, leaving the infrastructure viewpoint unexplored. We argue that infrastructure-centric world models offer a fundamentally complementary capability: the bird's-eye, multi-sensor, persistent viewpoint that roadside systems uniquely possess. Central to our thesis is a spatio-temporal complementarity: fixed roadside sensors excel at temporal depth, accumulating long-term behavioral distributions including rare safety-critical events, while vehicle-borne sensors excel at spatial breadth, sampling diverse scenes across large road networks. This paper presents a vision for Infrastructure-centric World Models (I-WM) in three phases: (I) generative scene understanding with quality-aware uncertainty propagation, (II) physics-informed predictive dynamics with multi-agent counterfactual reasoning, and (III) collaborative world models for V2X communication via latent space alignment. We propose a dual-layer architecture, annotation-free perception as a multi-modal data engine feeding end-to-end generative world models, with a phased sensor strategy from LiDAR through 4D radar and signal phase data to event cameras. We establish a taxonomy of driving world model paradigms, position I-WM relative to LeCun's JEPA, Li Fei-Fei's spatial intelligence, and VLA architectures, and introduce Infrastructure VLA (I-VLA) as a novel unification of roadside perception, language commands, and traffic control actions. Our vision builds upon existing multi-LiDAR pipelines and identifies open-source foundations for each phase, providing a path toward infrastructure that understands and anticipates traffic.
- Abstract(参考訳): 世界モデル、環境の進化をシミュレートする生成AIシステムは、自動運転を変革していますが、既存のアプローチはすべて、Ego-Vhicleの視点を採用しています。
我々は、インフラ中心の世界モデルは基本的に相補的な能力をもたらすと論じている。
固定された道路側センサーは時間的深さで、稀な安全クリティカルなイベントを含む長期的な行動分布を蓄積し、車両搭載センサーは空間的幅で、多様な道路網を網羅する多様なシーンを抽出する。
本稿では, インフラストラクチャ中心の世界モデル(I-WM)を, (I) 品質を意識した不確実性伝播を伴う生成的シーン理解, (II) 物理インフォームド予測力学と, (III) 潜在空間アライメントによるV2X通信のための協調的世界モデルという3段階のビジョンを示す。
我々は,LDARから4Dレーダ,およびイベントカメラへの信号位相データを通じて,エンド・ツー・エンドの世代モデルを提供するマルチモーダルデータエンジンとしての2層アーキテクチャ,アノテーションなし認識を提案する。
我々は,LeCunのJEPA,Li Fei-Feiの空間知性,VLAアーキテクチャと相対的な位置I-WMを駆動する世界モデルパラダイムの分類を確立し,道路側の認識,言語コマンド,交通制御行動の新たな統合としてインフラストラクチャVLA(I-VLA)を導入する。
私たちのビジョンは、既存のマルチLiDARパイプラインの上に構築され、各フェーズのオープンソース基盤を特定し、トラフィックを理解し、予測するインフラストラクチャへのパスを提供します。
関連論文リスト
- Telecom World Models: Unifying Digital Twins, Foundation Models, and Predictive Planning for 6G [60.29349053952935]
本稿では,テレコムシステムダイナミクスの学習,行動条件,不確実性を考慮したモデリングのためのアーキテクチャであるTWM(Telecom World Model)の概念を紹介する。
本研究では,空間環境予測のためのフィールドワールドモデル,動作条件付きキーパフォーマンス指標(KPI)軌道予測のための制御/力学ワールドモデル,意図翻訳とオーケストレーションのための通信基盤モデルレイヤからなる3層アーキテクチャを提案する。
論文 参考訳(メタデータ) (2026-04-08T09:41:58Z) - SGDrive: Scene-to-Goal Hierarchical World Cognition for Autonomous Driving [52.02379432801349]
本稿では,運転特化知識階層に関するVLMの表現学習を構築する新しいフレームワークであるSGDriveを提案する。
トレーニング済みのVLMバックボーン上に構築されたSGDriveは、人間の運転認知を反映するシーンエージェントゴール階層に、駆動理解を分解する。
論文 参考訳(メタデータ) (2026-01-09T08:55:42Z) - All You Need for Object Detection: From Pixels, Points, and Prompts to Next-Gen Fusion and Multimodal LLMs/VLMs in Autonomous Vehicles [7.863490977061713]
自律走行車(AV)は、インテリジェントな認識、意思決定、制御システムの進歩を通じて、交通の未来を変えつつある。
彼らの成功は、複雑でマルチモーダルな環境での信頼性の高いオブジェクト検出という、ひとつのコア能力と結びついている。
コンピュータビジョン(CV)と人工知能(AI)の最近の進歩は目覚ましい進歩をもたらした。
この調査は、AVにおける物体検出の前方的な分析を提供することによって、そのギャップを埋める。
論文 参考訳(メタデータ) (2025-10-30T16:08:25Z) - Towards Intelligent Transportation with Pedestrians and Vehicles In-the-Loop: A Surveillance Video-Assisted Federated Digital Twin Framework [62.47416496137193]
本稿では,歩行者や車いすによるITSを支援するための監視ビデオ支援型デジタルツイン(SV-FDT)フレームワークを提案する。
i)複数のソースからトラフィック監視ビデオを収集するエンドレイヤ、(ii)セマンティックセグメンテーションに基づく視覚理解、ツインエージェントベースのインタラクションモデリング、およびローカルデジタルツインシステム(LDTS)をローカルで作成するエッジレイヤ、(iii)異なるリージョンにわたるLDTSを統合してグローバルDTモデルをリアルタイムで構築するクラウドレイヤの3層で構成されている。
論文 参考訳(メタデータ) (2025-03-06T07:36:06Z) - A Survey of World Models for Autonomous Driving [55.520179689933904]
自律運転の最近の進歩は、堅牢な世界モデリングの進歩によって推進されている。
世界モデルは、マルチセンサーデータ、セマンティックキュー、時間ダイナミクスを統合する駆動環境の高忠実度表現を提供する。
今後の研究は、自己指導型表現学習、マルチモーダル融合、高度なシミュレーションにおける重要な課題に対処する必要がある。
論文 参考訳(メタデータ) (2025-01-20T04:00:02Z) - Exploring the Interplay Between Video Generation and World Models in Autonomous Driving: A Survey [61.39993881402787]
世界モデルとビデオ生成は、自動運転の領域において重要な技術である。
本稿では,この2つの技術の関係について検討する。
映像生成モデルと世界モデルとの相互作用を分析することにより,重要な課題と今後の研究方向性を明らかにする。
論文 参考訳(メタデータ) (2024-11-05T08:58:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。