論文の概要: Towards Safe Mobility: A Unified Transportation Foundation Model enabled by Open-Ended Vision-Language Dataset
- arxiv url: http://arxiv.org/abs/2604.22260v1
- Date: Fri, 24 Apr 2026 06:09:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-27 15:36:26.363219
- Title: Towards Safe Mobility: A Unified Transportation Foundation Model enabled by Open-Ended Vision-Language Dataset
- Title(参考訳): 安全なモビリティを目指して:オープンエンドビジョンランゲージデータセットによって実現された統一交通基盤モデル
- Authors: Wenhui Huang, Songyan Zhang, Collister Chua, Yang Liang, Zhiqi Mao, Heng Yang, Chen Lv,
- Abstract要約: 都市交通環境におけるオープンエンド推論のための大規模オープンソースビジョン言語データセットを提案する。
LTDは、異機種の道路カメラから収集された11.6Kの高品質なVQAペアを含み、多様な道路測地、交通参加者、照明条件、悪天候をカバーしている。
我々は,カリキュラムベースの知識伝達によって訓練された交通基盤モデルUniVLTを提案し,単一のアーキテクチャ内でのAD推論とマクロトラフィック解析を統一する。
- 参考スコア(独自算出の注目度): 34.90914943734208
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Urban transportation systems face growing safety challenges that require scalable intelligence for emerging smart mobility infrastructures. While recent advances in foundation models and large-scale multimodal datasets have strengthened perception and reasoning in intelligent transportation systems (ITS), existing research remains largely centered on microscopic autonomous driving (AD), with limited attention to city-scale traffic analysis. In particular, open-ended safety-oriented visual question answering (VQA) and corresponding foundation models for reasoning over heterogeneous roadside camera observations remain underexplored. To address this gap, we introduce the Land Transportation Dataset (LTD), a large-scale open-source vision-language dataset for open-ended reasoning in urban traffic environments. LTD contains 11.6K high-quality VQA pairs collected from heterogeneous roadside cameras, spanning diverse road geometries, traffic participants, illumination conditions, and adverse weather. The dataset integrates three complementary tasks: fine-grained multi-object grounding, multi-image camera selection, and multi-image risk analysis, requiring joint reasoning over minimally correlated views to infer hazardous objects, contributing factors, and risky road directions. To ensure annotation fidelity, we combine multi-model vision-language generation with cross-validation and human-in-the-loop refinement. Building upon LTD, we further propose UniVLT, a transportation foundation model trained via curriculum-based knowledge transfer to unify microscopic AD reasoning and macroscopic traffic analysis within a single architecture. Extensive experiments on LTD and multiple AD benchmarks demonstrate that UniVLT achieves SOTA performance on open-ended reasoning tasks across diverse domains, while exposing limitations of existing foundation models in complex multi-view traffic scenarios.
- Abstract(参考訳): 都市交通システムは、新興のスマートモビリティインフラにスケーラブルなインテリジェンスを必要とする、ますます安全な課題に直面している。
近年の基盤モデルや大規模マルチモーダルデータセットの進歩により、インテリジェント交通システム(ITS)の認識と推論が強化されているが、既存の研究は、都市規模の交通分析に限られた注意を払って、顕微鏡自律運転(AD)に重点を置いている。
特に、不均一な路面カメラ観測に対する推論のためのオープンエンドセーフティ指向視覚質問応答(VQA)とそれに対応する基礎モデルについて、未検討のままである。
このギャップに対処するために、都市交通環境におけるオープンエンド推論のための大規模オープンソースビジョン言語データセットであるLand Transportation Dataset (LTD)を紹介した。
LTDは、異機種の道路カメラから収集された11.6Kの高品質なVQAペアを含み、多様な道路測地、交通参加者、照明条件、悪天候をカバーしている。
このデータセットは、3つの補完的なタスクを統合している: きめ細かなマルチオブジェクトグラウンド、マルチイメージカメラの選択、そしてマルチイメージのリスク分析。
アノテーションの忠実性を確保するため、多モデル視覚言語生成とクロスバリデーションとヒューマン・イン・ザ・ループ・リファインメントを組み合わせる。
LTD上に構築したUniVLTは,カリキュラムベースの知識伝達によって訓練された交通基盤モデルであり,単一アーキテクチャ内でのAD推論とマクロトラフィック解析を統一する。
LTDと複数のADベンチマークに関する大規模な実験により、UniVLTは様々な領域にわたるオープンエンド推論タスクにおいてSOTAのパフォーマンスを達成し、複雑なマルチビュートラフィックシナリオにおいて既存の基盤モデルの制限を明らかにした。
関連論文リスト
- Perception-Aware Multimodal Spatial Reasoning from Monocular Images [57.42071289037214]
単眼画像からの空間的推論は 自律運転には不可欠です
現在のヴィジュアルランゲージモデル(VLM)は、微粒な幾何学的知覚に苦慮している。
本稿では,VLMを明示的な対象中心の接地能力を持つ知覚認識型マルチモーダル推論フレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-07T02:05:12Z) - AerialMind: Towards Referring Multi-Object Tracking in UAV Scenarios [64.51320327698231]
UAVシナリオにおける最初の大規模RMOTベンチマークであるAerialMindを紹介する。
我々は、革新的な半自動協調型エージェントベースラベリングアシスタントフレームワークを開発した。
また,視覚言語表現学習を協調的に強化する新しい手法であるHawkEyeTrackを提案する。
論文 参考訳(メタデータ) (2025-11-26T04:44:27Z) - WaymoQA: A Multi-View Visual Question Answering Dataset for Safety-Critical Reasoning in Autonomous Driving [33.850069933308994]
安全クリティカルなシナリオにおける高レベルの推論は、依然として大きな課題である。
我々は、この課題に対処するために、マルチビューインプットを活用する新しいタスクとして安全批判推論を定義する。
複雑でリスクの高い運転シナリオをカバーする35,000の人手による質問応答ペアのデータセットであるQAを紹介する。
論文 参考訳(メタデータ) (2025-11-25T07:47:27Z) - RoadSceneVQA: Benchmarking Visual Question Answering in Roadside Perception Systems for Intelligent Transportation System [15.222742182076459]
RoadSceneVQAは、ロードサイドシナリオに特化した、大規模な視覚的質問応答データセットである。
データセットは、様々な天候、照明、交通条件の下で収集された34,736種類のQAペアで構成されている。
RoadSceneVQAは、明示的な認識と暗黙的な常識推論の両方を実行するモデルに挑戦する。
論文 参考訳(メタデータ) (2025-11-23T04:40:50Z) - All You Need for Object Detection: From Pixels, Points, and Prompts to Next-Gen Fusion and Multimodal LLMs/VLMs in Autonomous Vehicles [7.863490977061713]
自律走行車(AV)は、インテリジェントな認識、意思決定、制御システムの進歩を通じて、交通の未来を変えつつある。
彼らの成功は、複雑でマルチモーダルな環境での信頼性の高いオブジェクト検出という、ひとつのコア能力と結びついている。
コンピュータビジョン(CV)と人工知能(AI)の最近の進歩は目覚ましい進歩をもたらした。
この調査は、AVにおける物体検出の前方的な分析を提供することによって、そのギャップを埋める。
論文 参考訳(メタデータ) (2025-10-30T16:08:25Z) - Progressive Bird's Eye View Perception for Safety-Critical Autonomous Driving: A Comprehensive Survey [20.7823289124196]
Bird's-Eye-View (BEV) の認識は、自動運転の基本的なパラダイムとなっている。
この調査は、安全クリティカルな観点からのBEVの認識に関する、初めての包括的なレビューを提供する。
論文 参考訳(メタデータ) (2025-08-11T02:40:46Z) - Large Language Models and Their Applications in Roadway Safety and Mobility Enhancement: A Comprehensive Review [14.611584622270405]
本稿では,道路の安全性と移動性を高めるため,大規模言語モデル(LLM)の適用とカスタマイズについて概説する。
重要な焦点は、LLMがアーキテクチャ、トレーニング、プロンプト、マルチモーダル戦略を通じて、交通機関のユニークな時間的および物理的データで"モダリティギャップ"を埋める方法である。
潜在的な可能性にもかかわらず、固有のLLM制限(ハロシン化、推論欠陥)、データガバナンス(プライバシ、バイアスの複雑さ)、複雑さ(シモン・トゥ・リアル、レイテンシ)、厳格な安全保証に関する課題が続いている。
論文 参考訳(メタデータ) (2025-05-19T21:51:18Z) - Towards Intelligent Transportation with Pedestrians and Vehicles In-the-Loop: A Surveillance Video-Assisted Federated Digital Twin Framework [62.47416496137193]
本稿では,歩行者や車いすによるITSを支援するための監視ビデオ支援型デジタルツイン(SV-FDT)フレームワークを提案する。
i)複数のソースからトラフィック監視ビデオを収集するエンドレイヤ、(ii)セマンティックセグメンテーションに基づく視覚理解、ツインエージェントベースのインタラクションモデリング、およびローカルデジタルツインシステム(LDTS)をローカルで作成するエッジレイヤ、(iii)異なるリージョンにわたるLDTSを統合してグローバルDTモデルをリアルタイムで構築するクラウドレイヤの3層で構成されている。
論文 参考訳(メタデータ) (2025-03-06T07:36:06Z) - Leveraging Driver Field-of-View for Multimodal Ego-Trajectory Prediction [69.29802752614677]
RouteFormerは、GPSデータ、環境コンテキスト、運転者の視野を組み合わせた新しいエゴ軌道予測ネットワークである。
データ不足に対処し、多様性を高めるために、同期運転場と視線データに富んだ都市運転シナリオのデータセットであるGEMを導入する。
論文 参考訳(メタデータ) (2023-12-13T23:06:30Z) - Federated Deep Learning Meets Autonomous Vehicle Perception: Design and
Verification [168.67190934250868]
フェデレーテッド・ラーニング・パワード・コネクテッド・オートモービル(FLCAV)が提案されている。
FLCAVは通信とアノテーションのコストを削減しながらプライバシを保存する。
マルチステージトレーニングのためのネットワークリソースと道路センサのポーズを決定することは困難である。
論文 参考訳(メタデータ) (2022-06-03T23:55:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。