論文の概要: ExpressMind: A Multimodal Pretrained Large Language Model for Expressway Operation
- arxiv url: http://arxiv.org/abs/2603.16495v1
- Date: Tue, 17 Mar 2026 13:22:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.296563
- Title: ExpressMind: A Multimodal Pretrained Large Language Model for Expressway Operation
- Title(参考訳): ExpressMind:高速道路運用のためのマルチモーダル事前学習型大規模言語モデル
- Authors: Zihe Wang, Yihuan Wang, Haiyang Yu. Zhiyong Cui, Xiaojian Liao, Chengcheng Wang, Yonglin Tian, Yongxin Tong,
- Abstract要約: 本稿では,高速道路のための事前学習型マルチモーダル大言語モデルであるExpressMindを構築し,知的高速道路運転の認知的コアとして機能する。
本稿では,交通情報テキスト,緊急推論チェーン,注釈付きビデオイベントを含む,業界初のフルスタック高速道路データセットを構築した。
新たにリリースしたマルチモーダル高速道路ベンチマークの実験では、ExpressMindはイベント検出、安全応答生成、複雑なトラフィック解析において、既存のベースラインを総合的に上回ります。
- 参考スコア(独自算出の注目度): 15.229240986097304
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The current expressway operation relies on rule-based and isolated models, which limits the ability to jointly analyze knowledge across different systems. Meanwhile, Large Language Models (LLMs) are increasingly applied in intelligent transportation, advancing traffic models from algorithmic to cognitive intelligence. However, general LLMs are unable to effectively understand the regulations and causal relationships of events in unconventional scenarios in the expressway field. Therefore, this paper constructs a pre-trained multimodal large language model (MLLM) for expressways, ExpressMind, which serves as the cognitive core for intelligent expressway operations. This paper constructs the industry's first full-stack expressway dataset, encompassing traffic knowledge texts, emergency reasoning chains, and annotated video events to overcome data scarcity. This paper proposes a dual-layer LLM pre-training paradigm based on self-supervised training and unsupervised learning. Additionally, this study introduces a Graph-Augmented RAG framework to dynamically index the expressway knowledge base. To enhance reasoning for expressway incident response strategies, we develop a RL-aligned Chain-of-Thought (RL-CoT) mechanism that enforces consistency between model reasoning and expert problem-solving heuristics for incident handling. Finally, ExpressMind integrates a cross-modal encoder to align the dynamic feature sequences under the visual and textual channels, enabling it to understand traffic scenes in both video and image modalities. Extensive experiments on our newly released multi-modal expressway benchmark demonstrate that ExpressMind comprehensively outperforms existing baselines in event detection, safety response generation, and complex traffic analysis. The code and data are available at: https://wanderhee.github.io/ExpressMind/.
- Abstract(参考訳): 現在の高速道路の運用はルールベースと独立したモデルに依存しており、異なるシステム間で知識を共同で分析する能力を制限する。
一方、Large Language Models (LLMs) はインテリジェントトランスポートにますます適用され、アルゴリズムから認知的インテリジェンスへトラフィックモデルを前進させています。
しかし, LLM は高速道路の非従来シナリオにおける事象の規則や因果関係を効果的に理解できない。
そこで本稿では,高速道路のための事前学習型マルチモーダル大言語モデルであるExpressMindについて述べる。
本稿では,交通情報テキスト,緊急推論チェーン,注釈付きビデオイベントを含む,業界初のフルスタック高速道路データセットを構築し,データの不足を克服する。
本稿では,自己教師付き学習と教師なし学習に基づく2層LLM事前学習パラダイムを提案する。
さらに,高速道路の知識ベースを動的にインデクシングするグラフ拡張RAGフレームワークを提案する。
高速道路事故対応戦略の推論を強化するため,モデル推論とエキスパート問題解決ヒューリスティックスとの整合性を実現するRL-aligned Chain-of-Thought (RL-CoT) 機構を開発した。
最後に、ExpressMindはクロスモーダルエンコーダを統合して、動的特徴シーケンスを視覚的およびテキスト的チャネルの下に整列させ、ビデオと画像の両方のモダリティにおけるトラフィックシーンを理解することができる。
新たにリリースしたマルチモーダル高速道路ベンチマークの大規模な実験により、ExpressMindはイベント検出、安全応答生成、複雑なトラフィック解析において、既存のベースラインを総合的に上回っていることが示された。
コードとデータは、https://wanderhee.github.io/ExpressMind/.com/で入手できる。
関連論文リスト
- Perception-Aware Multimodal Spatial Reasoning from Monocular Images [57.42071289037214]
単眼画像からの空間的推論は 自律運転には不可欠です
現在のヴィジュアルランゲージモデル(VLM)は、微粒な幾何学的知覚に苦慮している。
本稿では,VLMを明示的な対象中心の接地能力を持つ知覚認識型マルチモーダル推論フレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-07T02:05:12Z) - Beyond Unimodal Shortcuts: MLLMs as Cross-Modal Reasoners for Grounded Named Entity Recognition [51.68340973140949]
GMNER(Multimodal Named Entity Recognition)は、テキストベースのエンティティを抽出し、セマンティックカテゴリを割り当て、それらを対応する視覚領域に接地することを目的としている。
MLLMは、視覚バイアスやテキストバイアスを含む$textbfmodality bias$を示す。
本稿では,モダリティを考慮した一貫性推論(bfMCR$)を提案する。
論文 参考訳(メタデータ) (2026-02-04T12:12:49Z) - RoadSceneVQA: Benchmarking Visual Question Answering in Roadside Perception Systems for Intelligent Transportation System [15.222742182076459]
RoadSceneVQAは、ロードサイドシナリオに特化した、大規模な視覚的質問応答データセットである。
データセットは、様々な天候、照明、交通条件の下で収集された34,736種類のQAペアで構成されている。
RoadSceneVQAは、明示的な認識と暗黙的な常識推論の両方を実行するモデルに挑戦する。
論文 参考訳(メタデータ) (2025-11-23T04:40:50Z) - Traffic-MLLM: A Spatio-Temporal MLLM with Retrieval-Augmented Generation for Causal Inference in Traffic [8.754321713184483]
本稿では,詳細なトラフィック解析に適した多モーダル大規模言語モデルであるTraffic-LMを提案する。
我々のモデルは、高品質な交通特化マルチモーダルデータセットを活用し、軽量な微調整にLowRanktemporal Adaptation (LoRA) を用いる。
また、検索ロッドジェネレーション(LoRAG)による最先端推論を融合した革新的な知識モジュールも導入する。
論文 参考訳(メタデータ) (2025-09-14T08:53:06Z) - TransLLM: A Unified Multi-Task Foundation Framework for Urban Transportation via Learnable Prompting [26.764515296168145]
大規模ディープラーニングモデルはタスクハングリーとデータハングリーであり、さまざまなシナリオにおける一般化性を制限する。
学習可能なプロンプト合成により,大規模言語モデルとモデリングを統合した統合フレームワークであるTransLLMを提案する。
提案手法は,拡張時間畳み込みと2つの隣接グラフアテンションネットワークによって複雑な依存関係をキャプチャする軽量エンコーダを備える。
論文 参考訳(メタデータ) (2025-08-20T15:27:49Z) - Exploring the Effect of Reinforcement Learning on Video Understanding: Insights from SEED-Bench-R1 [53.894789613838654]
ビデオ理解におけるMLLMのポストトレーニング手法を評価するためのベンチマークであるSEED-Bench-R1を紹介する。
複雑な現実世界のビデオや、複数の質問の形式での複雑な日常的な計画タスクも含んでいる。
Qwen2-VL-Instruct-7Bをベースモデルとして、RLと教師付き微調整(SFT)を比較した。
我々の詳細な分析では、RLは視覚知覚を増強するが、しばしばコヒーレント推論連鎖を減少させる。
論文 参考訳(メタデータ) (2025-03-31T17:55:23Z) - TeLL-Drive: Enhancing Autonomous Driving with Teacher LLM-Guided Deep Reinforcement Learning [61.33599727106222]
TeLL-Driveは、Teacher LLMを統合して、注意に基づく学生DRLポリシーをガイドするハイブリッドフレームワークである。
自己維持機構はDRLエージェントの探索とこれらの戦略を融合させ、政策収束を加速し、堅牢性を高める。
論文 参考訳(メタデータ) (2025-02-03T14:22:03Z) - Hints of Prompt: Enhancing Visual Representation for Multimodal LLMs in Autonomous Driving [55.609997552148826]
Hints of Prompt (HoP) フレームワークを提案する。
これらのヒントはHint Fusionモジュールを通じて融合され、限られたドメインデータで駆動関連表現をキャプチャすることで視覚表現を豊かにする。
大規模な実験により、HoPフレームワークの有効性が確認され、すべての主要な指標において、従来の最先端メソッドよりも大幅に優れていることが示されている。
論文 参考訳(メタデータ) (2024-11-20T06:58:33Z) - Traj-LLM: A New Exploration for Empowering Trajectory Prediction with Pre-trained Large Language Models [12.687494201105066]
本稿では,Traj-LLMを提案する。Large Language Models (LLMs) を用いて,エージェントの過去の/観測された軌跡やシーンセマンティクスから将来の動きを生成する可能性について検討する。
LLMの強力な理解能力は、ハイレベルなシーン知識とインタラクティブな情報のスペクトルを捉えている。
人為的な車線焦点認知機能を模倣し,先駆的なMambaモジュールを用いた車線認識確率論的学習を導入する。
論文 参考訳(メタデータ) (2024-05-08T09:28:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。