論文の概要: Traffic-MLLM: A Spatio-Temporal MLLM with Retrieval-Augmented Generation for Causal Inference in Traffic
- arxiv url: http://arxiv.org/abs/2509.11165v1
- Date: Sun, 14 Sep 2025 08:53:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:22.956117
- Title: Traffic-MLLM: A Spatio-Temporal MLLM with Retrieval-Augmented Generation for Causal Inference in Traffic
- Title(参考訳): 交通MLLM:交通の因果推論のための検索拡張生成を備えた時空間MLLM
- Authors: Waikit Xiu, Qiang Lu, Xiying Li, Chen Hu, Shengbo Sun,
- Abstract要約: 本稿では,詳細なトラフィック解析に適した多モーダル大規模言語モデルであるTraffic-LMを提案する。
我々のモデルは、高品質な交通特化マルチモーダルデータセットを活用し、軽量な微調整にLowRanktemporal Adaptation (LoRA) を用いる。
また、検索ロッドジェネレーション(LoRAG)による最先端推論を融合した革新的な知識モジュールも導入する。
- 参考スコア(独自算出の注目度): 8.754321713184483
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As intelligent transportation systems advance, traffic video understanding plays an increasingly pivotal role in comprehensive scene perception and causal analysis. Yet, existing approaches face notable challenges in accurately modeling spatiotemporal causality and integrating domain-specific knowledge, limiting their effectiveness in complex scenarios. To address these limitations, we propose Traffic-MLLM, a multimodal large language model tailored for fine-grained traffic analysis. Built on the Qwen2.5-VL backbone, our model leverages high-quality traffic-specific multimodal datasets and uses Low-Rank Adaptation (LoRA) for lightweight fine-tuning, significantly enhancing its capacity to model continuous spatiotemporal features in video sequences. Furthermore, we introduce an innovative knowledge prompting module fusing Chain-of-Thought (CoT) reasoning with Retrieval-Augmented Generation (RAG), enabling precise injection of detailed traffic regulations and domain knowledge into the inference process. This design markedly boosts the model's logical reasoning and knowledge adaptation capabilities. Experimental results on TrafficQA and DriveQA benchmarks show Traffic-MLLM achieves state-of-the-art performance, validating its superior ability to process multimodal traffic data. It also exhibits remarkable zero-shot reasoning and cross-scenario generalization capabilities.
- Abstract(参考訳): インテリジェントな交通システムの発展に伴い、交通映像理解は、総合的なシーン認識と因果分析において、ますます重要な役割を担っている。
しかし、既存のアプローチでは、時空間因果関係を正確にモデル化し、ドメイン固有の知識を統合することで、複雑なシナリオにおけるそれらの有効性を制限している。
これらの制約に対処するため,我々は,細粒度トラフィック解析に適した多モーダル大規模言語モデルであるTraffic-MLLMを提案する。
我々のモデルはQwen2.5-VLのバックボーン上に構築され、高品質なトラフィック固有のマルチモーダルデータセットを活用し、低ランク適応(LoRA)を軽量な微調整に使用し、ビデオシーケンスの連続時空間特性をモデル化する能力を大幅に向上させる。
さらに、我々は、検索型拡張生成(RAG)によるChain-of-Thought(CoT)推論を融合させる革新的な知識を導入し、詳細な交通規制やドメイン知識を推論プロセスに正確に注入できるようにする。
この設計により、モデルの論理的推論と知識適応能力が著しく向上する。
TrafficQAとDriveQAのベンチマークによる実験結果から、Traffic-MLLMは最先端のパフォーマンスを実現しており、マルチモーダルトラフィックデータの処理能力に優れていたことが判明した。
また、卓越したゼロショット推論とクロスシナリオの一般化能力も備えている。
関連論文リスト
- Exploring the Roles of Large Language Models in Reshaping Transportation Systems: A Survey, Framework, and Roadmap [51.198001060683296]
大型言語モデル(LLM)は、輸送上の課題に対処するための変革的な可能性を提供する。
LLM4TRは,交通におけるLSMの役割を体系的に分類する概念的枠組みである。
それぞれの役割について,交通予測や自律運転,安全分析,都市移動最適化など,さまざまな応用について検討した。
論文 参考訳(メタデータ) (2025-03-27T11:56:27Z) - Strada-LLM: Graph LLM for traffic prediction [62.2015839597764]
交通予測における大きな課題は、非常に異なる交通条件によって引き起こされる多様なデータ分散を扱うことである。
近位交通情報を考慮した交通予測のためのグラフ対応LLMを提案する。
我々は、新しいデータ分散に直面する際に、ドメイン適応を効率的にするための軽量なアプローチを採用する。
論文 参考訳(メタデータ) (2024-10-28T09:19:29Z) - Probing Multimodal LLMs as World Models for Driving [72.18727651074563]
自律運転におけるMLLM(Multimodal Large Language Models)の適用について検討する。
GPT-4oのようなモデルの開発は進んでいるが、複雑な運転環境における性能は未解明のままである。
論文 参考訳(メタデータ) (2024-05-09T17:52:42Z) - Towards Explainable Traffic Flow Prediction with Large Language Models [36.86937188565623]
本稿では,Large Language Models (LLMs) に基づく交通流予測モデルを提案する。
マルチモーダルなトラフィックデータを自然言語記述に転送することで、xTP-LLMは複雑な時系列パターンと外部要因を包括的なトラフィックデータからキャプチャする。
経験的に、xTP-LLMは、ディープラーニングのベースラインと比較して、競争の正確さを示すと同時に、予測の直感的で信頼性の高い説明を提供する。
論文 参考訳(メタデータ) (2024-04-03T07:14:15Z) - TPLLM: A Traffic Prediction Framework Based on Pretrained Large Language Models [27.306180426294784]
大規模言語モデル(LLM)を利用した新しい交通予測フレームワークであるTPLLMを紹介する。
本フレームワークでは,Lonal Neural Networks (LoCNNs) に基づくシーケンス埋め込み層と,Graph Contemporalal Networks (GCNs) に基づくグラフ埋め込み層を構築し,シーケンスの特徴と空間的特徴を抽出する。
実世界の2つのデータセットの実験では、フルサンプルと数ショットの予測シナリオの両方で、満足できるパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-03-04T17:08:57Z) - Multi-intersection Traffic Optimisation: A Benchmark Dataset and a
Strong Baseline [85.9210953301628]
交通信号の制御は、都市部の交通渋滞の緩和に必要不可欠である。
問題モデリングの複雑さが高いため、現在の作業の実験的な設定はしばしば矛盾する。
エンコーダ・デコーダ構造を用いた深層強化学習に基づく新規で強力なベースラインモデルを提案する。
論文 参考訳(メタデータ) (2021-01-24T03:55:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。