Fugu-MT 論文翻訳(概要): MCAM: Multimodal Causal Analysis Model for Ego-Vehicle-Level Driving Video Understanding

論文の概要: MCAM: Multimodal Causal Analysis Model for Ego-Vehicle-Level Driving Video Understanding

arxiv url: http://arxiv.org/abs/2507.06072v1
Date: Tue, 08 Jul 2025 15:14:53 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-09 16:34:38.252663
Title: MCAM: Multimodal Causal Analysis Model for Ego-Vehicle-Level Driving Video Understanding
Title（参考訳）: MCAM:Ego-Vehicle-Level駆動ビデオ理解のためのマルチモーダル因果解析モデル
Authors: Tongtong Cheng, Rongzhen Li, Yixin Xiong, Tao Zhang, Jing Wang, Kai Liu,
Abstract要約: 視覚と言語間の因果構造を潜在的に構築する新しいマルチモーダル因果解析モデル(MCAM)を提案する。 BDD-XとCoVLAデータセットの実験は、MCAMが視覚言語と因果関係学習においてSOTAのパフォーマンスを達成することを示した。このモデルは、ビデオシーケンス内の因果特性を捉える能力に優れており、自律運転への適用性を示している。
参考スコア（独自算出の注目度）: 7.093473654069259
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Accurate driving behavior recognition and reasoning are critical for autonomous driving video understanding. However, existing methods often tend to dig out the shallow causal, fail to address spurious correlations across modalities, and ignore the ego-vehicle level causality modeling. To overcome these limitations, we propose a novel Multimodal Causal Analysis Model (MCAM) that constructs latent causal structures between visual and language modalities. Firstly, we design a multi-level feature extractor to capture long-range dependencies. Secondly, we design a causal analysis module that dynamically models driving scenarios using a directed acyclic graph (DAG) of driving states. Thirdly, we utilize a vision-language transformer to align critical visual features with their corresponding linguistic expressions. Extensive experiments on the BDD-X, and CoVLA datasets demonstrate that MCAM achieves SOTA performance in visual-language causal relationship learning. Furthermore, the model exhibits superior capability in capturing causal characteristics within video sequences, showcasing its effectiveness for autonomous driving applications. The code is available at https://github.com/SixCorePeach/MCAM.
Abstract（参考訳）: 正確な運転行動認識と推論は、自律運転映像理解に不可欠である。しかし、既存の手法はしばしば浅い因果関係を掘り起こし、モダリティ間の急激な相関に対処できず、エゴ-車両レベルの因果関係モデリングを無視する傾向にある。これらの制約を克服するために,視覚と言語間の因果構造を潜在的に構築する新しいマルチモーダル因果解析モデル(MCAM)を提案する。まず,長距離依存関係をキャプチャするマルチレベル特徴抽出器を設計する。次に,駆動状態の有向非巡回グラフ(DAG)を用いて,動的にシナリオの駆動をモデル化する因果解析モジュールを設計する。第3に、視覚言語変換器を用いて、重要な視覚特徴を対応する言語表現と整合させる。 BDD-XとCoVLAデータセットに関する大規模な実験は、MCAMが視覚言語と因果関係学習においてSOTAのパフォーマンスを達成することを示した。さらに、このモデルは、ビデオシーケンス内の因果特性をキャプチャする優れた能力を示し、自律運転への適用性を示す。コードはhttps://github.com/SixCorePeach/MCAMで公開されている。

関連論文リスト

VideoMolmo: Spatio-Temporal Grounding Meets Pointing [66.19964563104385]
VideoMolmoは、ビデオシーケンスのきめ細かいポインティングに適したモデルだ。新しい仮面融合はSAM2を双方向の点伝播に用いている。 The generalization of VideoMolmo, we introduced VPoMolS-temporal, a challenge out-of-distribution benchmark across two real-world scenarios。
論文参考訳（メタデータ） (2025-06-05T17:59:29Z)
VACT: A Video Automatic Causal Testing System and a Benchmark [55.53300306960048]
VACTは、現実世界のシナリオにおけるVGMの因果的理解をモデル化、評価、測定するための**自動**フレームワークである。マルチレベル因果評価指標を導入し、VGMの因果性能を詳細に分析する。
論文参考訳（メタデータ） (2025-03-08T10:54:42Z)
DrivingGPT: Unifying Driving World Modeling and Planning with Multi-modal Autoregressive Transformers [61.92571851411509]
我々は、インターリーブ画像とアクショントークンに基づくマルチモーダル駆動言語を導入し、共同世界モデリングと計画を学ぶためのDrivingGPTを開発した。我々のDrivingGPTは、アクション条件付きビデオ生成とエンドツーエンドプランニングの両方において強力なパフォーマンスを示し、大規模なnuPlanとNAVSIMベンチマークにおいて強力なベースラインを達成しています。
論文参考訳（メタデータ） (2024-12-24T18:59:37Z)
GenFollower: Enhancing Car-Following Prediction with Large Language Models [11.847589952558566]
我々は、これらの課題に対処するために、大規模言語モデル(LLM)を活用する新しいゼロショットプロンプトアプローチであるGenFollowerを提案する。我々は,車追従動作を言語モデリング問題として再編成し,不均一な入力をLLMのための構造化プロンプトに統合する。オープンデータセットの実験は、GenFollowerの優れたパフォーマンスと解釈可能な洞察を提供する能力を示している。
論文参考訳（メタデータ） (2024-07-08T04:54:42Z)
Probing Multimodal LLMs as World Models for Driving [72.18727651074563]
自律運転におけるMLLM(Multimodal Large Language Models)の適用について検討する。 GPT-4oのようなモデルの開発は進んでいるが、複雑な運転環境における性能は未解明のままである。
論文参考訳（メタデータ） (2024-05-09T17:52:42Z)
Multi-Frame, Lightweight & Efficient Vision-Language Models for Question Answering in Autonomous Driving [0.0]
我々は,自律運転のための視覚質問応答を行う,効率的で軽量な多フレーム視覚言語モデルを開発した。従来のアプローチと比較して、EM-VLM4ADは少なくとも10倍のメモリと浮動小数点演算を必要とする。
論文参考訳（メタデータ） (2024-03-28T21:18:33Z)
DriveMLM: Aligning Multi-Modal Large Language Models with Behavioral Planning States for Autonomous Driving [69.82743399946371]
DriveMLMは、現実的なシミュレータでクローズループの自律運転を実行するためのフレームワークである。モジュールADシステムの動作計画モジュールをモデル化するために,MLLM (Multi-modal LLM) を用いる。このモデルは、Apolloのような既存のADシステムでプラグイン・アンド・プレイすることで、クローズループ運転を行うことができる。
論文参考訳（メタデータ） (2023-12-14T18:59:05Z)
Trajeglish: Traffic Modeling as Next-Token Prediction [67.28197954427638]
自動運転開発における長年の課題は、記録された運転ログからシードされた動的運転シナリオをシミュレートすることだ。車両、歩行者、サイクリストが運転シナリオでどのように相互作用するかをモデル化するために、離散シーケンスモデリングのツールを適用します。我々のモデルはSim Agents Benchmarkを上回り、リアリズムメタメトリックの先行作業の3.3%、インタラクションメトリックの9.9%を上回ります。
論文参考訳（メタデータ） (2023-12-07T18:53:27Z)
Fully End-to-end Autonomous Driving with Semantic Depth Cloud Mapping and Multi-Agent [2.512827436728378]
本稿では,エンド・ツー・エンドとマルチタスクの学習方法を用いて学習した新しいディープラーニングモデルを提案する。このモデルは,CARLAシミュレータ上で,現実の環境を模倣するために,通常の状況と異なる天候のシナリオを用いて評価する。
論文参考訳（メタデータ） (2022-04-12T03:57:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。