論文の概要: Traffic-MLLM: A Spatio-Temporal MLLM with Retrieval-Augmented Generation for Causal Inference in Traffic
- arxiv url: http://arxiv.org/abs/2509.11165v1
- Date: Sun, 14 Sep 2025 08:53:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:22.956117
- Title: Traffic-MLLM: A Spatio-Temporal MLLM with Retrieval-Augmented Generation for Causal Inference in Traffic
- Title(参考訳): 交通MLLM:交通の因果推論のための検索拡張生成を備えた時空間MLLM
- Authors: Waikit Xiu, Qiang Lu, Xiying Li, Chen Hu, Shengbo Sun,
- Abstract要約: 本稿では,詳細なトラフィック解析に適した多モーダル大規模言語モデルであるTraffic-LMを提案する。
我々のモデルは、高品質な交通特化マルチモーダルデータセットを活用し、軽量な微調整にLowRanktemporal Adaptation (LoRA) を用いる。
また、検索ロッドジェネレーション(LoRAG)による最先端推論を融合した革新的な知識モジュールも導入する。
- 参考スコア(独自算出の注目度): 8.754321713184483
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As intelligent transportation systems advance, traffic video understanding plays an increasingly pivotal role in comprehensive scene perception and causal analysis. Yet, existing approaches face notable challenges in accurately modeling spatiotemporal causality and integrating domain-specific knowledge, limiting their effectiveness in complex scenarios. To address these limitations, we propose Traffic-MLLM, a multimodal large language model tailored for fine-grained traffic analysis. Built on the Qwen2.5-VL backbone, our model leverages high-quality traffic-specific multimodal datasets and uses Low-Rank Adaptation (LoRA) for lightweight fine-tuning, significantly enhancing its capacity to model continuous spatiotemporal features in video sequences. Furthermore, we introduce an innovative knowledge prompting module fusing Chain-of-Thought (CoT) reasoning with Retrieval-Augmented Generation (RAG), enabling precise injection of detailed traffic regulations and domain knowledge into the inference process. This design markedly boosts the model's logical reasoning and knowledge adaptation capabilities. Experimental results on TrafficQA and DriveQA benchmarks show Traffic-MLLM achieves state-of-the-art performance, validating its superior ability to process multimodal traffic data. It also exhibits remarkable zero-shot reasoning and cross-scenario generalization capabilities.
- Abstract(参考訳): インテリジェントな交通システムの発展に伴い、交通映像理解は、総合的なシーン認識と因果分析において、ますます重要な役割を担っている。
しかし、既存のアプローチでは、時空間因果関係を正確にモデル化し、ドメイン固有の知識を統合することで、複雑なシナリオにおけるそれらの有効性を制限している。
これらの制約に対処するため,我々は,細粒度トラフィック解析に適した多モーダル大規模言語モデルであるTraffic-MLLMを提案する。
我々のモデルはQwen2.5-VLのバックボーン上に構築され、高品質なトラフィック固有のマルチモーダルデータセットを活用し、低ランク適応(LoRA)を軽量な微調整に使用し、ビデオシーケンスの連続時空間特性をモデル化する能力を大幅に向上させる。
さらに、我々は、検索型拡張生成(RAG)によるChain-of-Thought(CoT)推論を融合させる革新的な知識を導入し、詳細な交通規制やドメイン知識を推論プロセスに正確に注入できるようにする。
この設計により、モデルの論理的推論と知識適応能力が著しく向上する。
TrafficQAとDriveQAのベンチマークによる実験結果から、Traffic-MLLMは最先端のパフォーマンスを実現しており、マルチモーダルトラフィックデータの処理能力に優れていたことが判明した。
また、卓越したゼロショット推論とクロスシナリオの一般化能力も備えている。
関連論文リスト
- Wireless Traffic Prediction with Large Language Model [54.07581399989292]
TIDESは、無線トラフィック予測のための空間時間相関をキャプチャする新しいフレームワークである。
TIDESは過剰なトレーニングオーバーヘッドを発生させることなく、ドメイン固有のパターンへの効率的な適応を実現する。
この結果から,将来の6Gシステムにおいて,空間認識をLCMベースの予測器に統合することが,スケーラブルでインテリジェントなネットワーク管理の鍵であることが示唆された。
論文 参考訳(メタデータ) (2025-12-19T04:47:40Z) - RoadSceneVQA: Benchmarking Visual Question Answering in Roadside Perception Systems for Intelligent Transportation System [15.222742182076459]
RoadSceneVQAは、ロードサイドシナリオに特化した、大規模な視覚的質問応答データセットである。
データセットは、様々な天候、照明、交通条件の下で収集された34,736種類のQAペアで構成されている。
RoadSceneVQAは、明示的な認識と暗黙的な常識推論の両方を実行するモデルに挑戦する。
論文 参考訳(メタデータ) (2025-11-23T04:40:50Z) - Exploring the Roles of Large Language Models in Reshaping Transportation Systems: A Survey, Framework, and Roadmap [51.198001060683296]
大型言語モデル(LLM)は、輸送上の課題に対処するための変革的な可能性を提供する。
LLM4TRは,交通におけるLSMの役割を体系的に分類する概念的枠組みである。
それぞれの役割について,交通予測や自律運転,安全分析,都市移動最適化など,さまざまな応用について検討した。
論文 参考訳(メタデータ) (2025-03-27T11:56:27Z) - TeLL-Drive: Enhancing Autonomous Driving with Teacher LLM-Guided Deep Reinforcement Learning [61.33599727106222]
TeLL-Driveは、Teacher LLMを統合して、注意に基づく学生DRLポリシーをガイドするハイブリッドフレームワークである。
自己維持機構はDRLエージェントの探索とこれらの戦略を融合させ、政策収束を加速し、堅牢性を高める。
論文 参考訳(メタデータ) (2025-02-03T14:22:03Z) - Strada-LLM: Graph LLM for traffic prediction [62.2015839597764]
交通予測における大きな課題は、非常に異なる交通条件によって引き起こされる多様なデータ分散を扱うことである。
近位交通情報を考慮した交通予測のためのグラフ対応LLMを提案する。
我々は、新しいデータ分散に直面する際に、ドメイン適応を効率的にするための軽量なアプローチを採用する。
論文 参考訳(メタデータ) (2024-10-28T09:19:29Z) - Probing Multimodal LLMs as World Models for Driving [72.18727651074563]
自律運転におけるMLLM(Multimodal Large Language Models)の適用について検討する。
GPT-4oのようなモデルの開発は進んでいるが、複雑な運転環境における性能は未解明のままである。
論文 参考訳(メタデータ) (2024-05-09T17:52:42Z) - Towards Explainable Traffic Flow Prediction with Large Language Models [36.86937188565623]
本稿では,Large Language Models (LLMs) に基づく交通流予測モデルを提案する。
マルチモーダルなトラフィックデータを自然言語記述に転送することで、xTP-LLMは複雑な時系列パターンと外部要因を包括的なトラフィックデータからキャプチャする。
経験的に、xTP-LLMは、ディープラーニングのベースラインと比較して、競争の正確さを示すと同時に、予測の直感的で信頼性の高い説明を提供する。
論文 参考訳(メタデータ) (2024-04-03T07:14:15Z) - A Holistic Framework Towards Vision-based Traffic Signal Control with
Microscopic Simulation [53.39174966020085]
交通信号制御(TSC)は交通渋滞を低減し、交通の流れを円滑にし、アイドリング時間を短縮し、CO2排出量を減らすために重要である。
本研究では,道路交通の流れを視覚的観察によって調節するTSCのコンピュータビジョンアプローチについて検討する。
我々は、視覚ベースのTSCとそのベンチマークに向けて、TrafficDojoと呼ばれる総合的なトラフィックシミュレーションフレームワークを導入する。
論文 参考訳(メタデータ) (2024-03-11T16:42:29Z) - TPLLM: A Traffic Prediction Framework Based on Pretrained Large Language Models [27.306180426294784]
大規模言語モデル(LLM)を利用した新しい交通予測フレームワークであるTPLLMを紹介する。
本フレームワークでは,Lonal Neural Networks (LoCNNs) に基づくシーケンス埋め込み層と,Graph Contemporalal Networks (GCNs) に基づくグラフ埋め込み層を構築し,シーケンスの特徴と空間的特徴を抽出する。
実世界の2つのデータセットの実験では、フルサンプルと数ショットの予測シナリオの両方で、満足できるパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-03-04T17:08:57Z) - Language-Guided Traffic Simulation via Scene-Level Diffusion [46.47977644226296]
本稿では,シーンレベルの条件拡散モデルであるCTG++について述べる。
まず,現実的で制御可能なトラフィックを生成する時間的バックボーンを備えたシーンレベルの拡散モデルを提案する。
次に、大きな言語モデル(LLM)を用いて、ユーザクエリを、拡散モデルをクエリに準拠した生成に導く損失関数に変換する。
論文 参考訳(メタデータ) (2023-06-10T05:20:30Z) - Guided Conditional Diffusion for Controllable Traffic Simulation [42.198185904248994]
制御可能で現実的な交通シミュレーションは、自動運転車の開発と検証に不可欠である。
データ駆動アプローチは現実的で人間的な振る舞いを生成し、シミュレートされたトラフィックから現実のトラフィックへの移行を改善する。
本研究では,制御可能なトラヒック生成(CTG)のための条件拡散モデルを構築し,テスト時に所望のトラジェクトリ特性を制御できるようにする。
論文 参考訳(メタデータ) (2022-10-31T14:44:59Z) - Multi-intersection Traffic Optimisation: A Benchmark Dataset and a
Strong Baseline [85.9210953301628]
交通信号の制御は、都市部の交通渋滞の緩和に必要不可欠である。
問題モデリングの複雑さが高いため、現在の作業の実験的な設定はしばしば矛盾する。
エンコーダ・デコーダ構造を用いた深層強化学習に基づく新規で強力なベースラインモデルを提案する。
論文 参考訳(メタデータ) (2021-01-24T03:55:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。