論文の概要: MCAM: Multimodal Causal Analysis Model for Ego-Vehicle-Level Driving Video Understanding
- arxiv url: http://arxiv.org/abs/2507.06072v1
- Date: Tue, 08 Jul 2025 15:14:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-09 16:34:38.252663
- Title: MCAM: Multimodal Causal Analysis Model for Ego-Vehicle-Level Driving Video Understanding
- Title(参考訳): MCAM:Ego-Vehicle-Level駆動ビデオ理解のためのマルチモーダル因果解析モデル
- Authors: Tongtong Cheng, Rongzhen Li, Yixin Xiong, Tao Zhang, Jing Wang, Kai Liu,
- Abstract要約: 視覚と言語間の因果構造を潜在的に構築する新しいマルチモーダル因果解析モデル(MCAM)を提案する。
BDD-XとCoVLAデータセットの実験は、MCAMが視覚言語と因果関係学習においてSOTAのパフォーマンスを達成することを示した。
このモデルは、ビデオシーケンス内の因果特性を捉える能力に優れており、自律運転への適用性を示している。
- 参考スコア(独自算出の注目度): 7.093473654069259
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Accurate driving behavior recognition and reasoning are critical for autonomous driving video understanding. However, existing methods often tend to dig out the shallow causal, fail to address spurious correlations across modalities, and ignore the ego-vehicle level causality modeling. To overcome these limitations, we propose a novel Multimodal Causal Analysis Model (MCAM) that constructs latent causal structures between visual and language modalities. Firstly, we design a multi-level feature extractor to capture long-range dependencies. Secondly, we design a causal analysis module that dynamically models driving scenarios using a directed acyclic graph (DAG) of driving states. Thirdly, we utilize a vision-language transformer to align critical visual features with their corresponding linguistic expressions. Extensive experiments on the BDD-X, and CoVLA datasets demonstrate that MCAM achieves SOTA performance in visual-language causal relationship learning. Furthermore, the model exhibits superior capability in capturing causal characteristics within video sequences, showcasing its effectiveness for autonomous driving applications. The code is available at https://github.com/SixCorePeach/MCAM.
- Abstract(参考訳): 正確な運転行動認識と推論は、自律運転映像理解に不可欠である。
しかし、既存の手法はしばしば浅い因果関係を掘り起こし、モダリティ間の急激な相関に対処できず、エゴ-車両レベルの因果関係モデリングを無視する傾向にある。
これらの制約を克服するために,視覚と言語間の因果構造を潜在的に構築する新しいマルチモーダル因果解析モデル(MCAM)を提案する。
まず,長距離依存関係をキャプチャするマルチレベル特徴抽出器を設計する。
次に,駆動状態の有向非巡回グラフ(DAG)を用いて,動的にシナリオの駆動をモデル化する因果解析モジュールを設計する。
第3に、視覚言語変換器を用いて、重要な視覚特徴を対応する言語表現と整合させる。
BDD-XとCoVLAデータセットに関する大規模な実験は、MCAMが視覚言語と因果関係学習においてSOTAのパフォーマンスを達成することを示した。
さらに、このモデルは、ビデオシーケンス内の因果特性をキャプチャする優れた能力を示し、自律運転への適用性を示す。
コードはhttps://github.com/SixCorePeach/MCAMで公開されている。
関連論文リスト
- VideoMolmo: Spatio-Temporal Grounding Meets Pointing [66.19964563104385]
VideoMolmoは、ビデオシーケンスのきめ細かいポインティングに適したモデルだ。
新しい仮面融合はSAM2を双方向の点伝播に用いている。
The generalization of VideoMolmo, we introduced VPoMolS-temporal, a challenge out-of-distribution benchmark across two real-world scenarios。
論文 参考訳(メタデータ) (2025-06-05T17:59:29Z) - Probing Multimodal LLMs as World Models for Driving [72.18727651074563]
自律運転におけるMLLM(Multimodal Large Language Models)の適用について検討する。
GPT-4oのようなモデルの開発は進んでいるが、複雑な運転環境における性能は未解明のままである。
論文 参考訳(メタデータ) (2024-05-09T17:52:42Z) - Multi-Frame, Lightweight & Efficient Vision-Language Models for Question Answering in Autonomous Driving [0.0]
我々は,自律運転のための視覚質問応答を行う,効率的で軽量な多フレーム視覚言語モデルを開発した。
従来のアプローチと比較して、EM-VLM4ADは少なくとも10倍のメモリと浮動小数点演算を必要とする。
論文 参考訳(メタデータ) (2024-03-28T21:18:33Z) - DriveMLM: Aligning Multi-Modal Large Language Models with Behavioral
Planning States for Autonomous Driving [69.82743399946371]
DriveMLMは、現実的なシミュレータでクローズループの自律運転を実行するためのフレームワークである。
モジュールADシステムの動作計画モジュールをモデル化するために,MLLM (Multi-modal LLM) を用いる。
このモデルは、Apolloのような既存のADシステムでプラグイン・アンド・プレイすることで、クローズループ運転を行うことができる。
論文 参考訳(メタデータ) (2023-12-14T18:59:05Z) - Trajeglish: Traffic Modeling as Next-Token Prediction [67.28197954427638]
自動運転開発における長年の課題は、記録された運転ログからシードされた動的運転シナリオをシミュレートすることだ。
車両、歩行者、サイクリストが運転シナリオでどのように相互作用するかをモデル化するために、離散シーケンスモデリングのツールを適用します。
我々のモデルはSim Agents Benchmarkを上回り、リアリズムメタメトリックの先行作業の3.3%、インタラクションメトリックの9.9%を上回ります。
論文 参考訳(メタデータ) (2023-12-07T18:53:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。