論文の概要: Layer-Wise Modality Decomposition for Interpretable Multimodal Sensor Fusion
- arxiv url: http://arxiv.org/abs/2511.00859v1
- Date: Sun, 02 Nov 2025 08:52:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.970029
- Title: Layer-Wise Modality Decomposition for Interpretable Multimodal Sensor Fusion
- Title(参考訳): 解釈可能なマルチモーダル・センサ・フュージョンのための層幅モード分解
- Authors: Jaehyun Park, Konyul Park, Daehun Kim, Junseo Park, Jun Won Choi,
- Abstract要約: 本稿では, 既訓練核融合モデルの層間におけるモダリティ固有情報を分散するために, LMD(Layer-Wise Modality Decomposition)を導入する。
自動走行のためのカメラレーダー、カメラライダー、カメラライダー、LiDAR設定下での事前訓練核融合モデル上でのLCDの評価を行った。
- 参考スコア(独自算出の注目度): 20.84456781070161
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In autonomous driving, transparency in the decision-making of perception models is critical, as even a single misperception can be catastrophic. Yet with multi-sensor inputs, it is difficult to determine how each modality contributes to a prediction because sensor information becomes entangled within the fusion network. We introduce Layer-Wise Modality Decomposition (LMD), a post-hoc, model-agnostic interpretability method that disentangles modality-specific information across all layers of a pretrained fusion model. To our knowledge, LMD is the first approach to attribute the predictions of a perception model to individual input modalities in a sensor-fusion system for autonomous driving. We evaluate LMD on pretrained fusion models under camera-radar, camera-LiDAR, and camera-radar-LiDAR settings for autonomous driving. Its effectiveness is validated using structured perturbation-based metrics and modality-wise visual decompositions, demonstrating practical applicability to interpreting high-capacity multimodal architectures. Code is available at https://github.com/detxter-jvb/Layer-Wise-Modality-Decomposition.
- Abstract(参考訳): 自律運転では、知覚モデルの決定における透明性が重要である。
しかし、マルチセンサ入力では、センサ情報が融合ネットワーク内で絡み合うため、各モードがどのように予測に寄与するかを判断することは困難である。
既訓練核融合モデルの全層にわたってモダリティ固有情報をアンタングルするポストホック・モデル非依存的解釈可能性法であるLayer-Wise Modality Decomposition (LMD)を導入する。
我々の知る限り、LMDは、自律運転のためのセンサフュージョンシステムにおいて、知覚モデルの予測を個々の入力モダリティに属性付けるための最初のアプローチである。
自動走行のためのカメラレーダー、カメラライダー、カメラライダー、LiDAR設定下での事前訓練核融合モデル上でのLCDの評価を行った。
その有効性は、構造化摂動に基づくメトリクスとモダリティの視覚的分解を用いて検証され、高容量マルチモーダルアーキテクチャの解釈に実用的な適用性を示す。
コードはhttps://github.com/detxter-jvb/Layer-Wise-Modality-Decompositionで公開されている。
関連論文リスト
- Towards Safer and Understandable Driver Intention Prediction [30.136400523083907]
運転者の安全のために,運転予測における解釈可能性の課題を紹介する。
解釈可能なDIPの研究を促進するために,新たなマルチモーダル・エゴ中心のビデオデータセットであるDAAD-Xをキュレートする。
次に,コヒーレントな説明を本質的に生成するフレームワークとして,ビデオコンセプト・ボトルネック・モデル(VCBM)を提案する。
論文 参考訳(メタデータ) (2025-10-10T09:41:25Z) - Discrete Diffusion for Reflective Vision-Language-Action Models in Autonomous Driving [55.13109926181247]
離散拡散による安全な軌道生成のためのリフレクション機構を統合した学習ベースのフレームワークであるReflectDriveを紹介する。
我々のアプローチの中心は、勾配のない反復的な自己補正を行う、安全を意識した反射機構である。
本手法は目標条件付き軌道生成から始まり,マルチモーダル運転動作をモデル化する。
論文 参考訳(メタデータ) (2025-09-24T13:35:15Z) - A CLIP-based Uncertainty Modal Modeling (UMM) Framework for Pedestrian Re-Identification in Autonomous Driving [6.223368492604449]
Uncertainty Modal Modeling (UMM) フレームワークは、マルチモーダルトークンマッパー、合成モダリティ強化戦略、およびクロスモーダルキュー対話型学習器を統合している。
UMMは、不確実なモード条件下で強い堅牢性、一般化、および計算効率を達成する。
論文 参考訳(メタデータ) (2025-08-15T04:50:27Z) - SafeAuto: Knowledge-Enhanced Safe Autonomous Driving with Multimodal Foundation Models [63.71984266104757]
我々は、構造化されていない知識と構造化されていない知識の両方を取り入れることで、MLLMベースの自動運転を強化するフレームワークであるSafeAutoを提案する。
安全知識を明示的に統合するため,交通ルールを一階述語論理に変換する推論コンポーネントを開発した。
我々のマルチモーダル検索・拡張生成モデルは、過去の運転経験から学ぶために、ビデオ、制御信号、環境特性を活用する。
論文 参考訳(メタデータ) (2025-02-28T21:53:47Z) - Graph-Based Multi-Modal Sensor Fusion for Autonomous Driving [3.770103075126785]
本稿では,グラフに基づく状態表現の開発に焦点をあてた,マルチモーダルセンサ融合に対する新しいアプローチを提案する。
本稿では,マルチモーダルグラフを融合する最初のオンライン状態推定手法であるSensor-Agnostic Graph-Aware Kalman Filterを提案する。
提案手法の有効性を,合成および実世界の運転データセットを用いた広範囲な実験により検証した。
論文 参考訳(メタデータ) (2024-11-06T06:58:17Z) - Optical Flow Matters: an Empirical Comparative Study on Fusing Monocular Extracted Modalities for Better Steering [37.46760714516923]
本研究は、単眼カメラからのマルチモーダル情報を利用して、自動運転車のステアリング予測を改善する新しいエンドツーエンド手法を提案する。
本稿では,RGB画像と深度補完情報や光フローデータとの融合に着目し,これらのモダリティを早期・ハイブリッド融合技術によって統合する枠組みを提案する。
論文 参考訳(メタデータ) (2024-09-18T09:36:24Z) - UnLoc: A Universal Localization Method for Autonomous Vehicles using
LiDAR, Radar and/or Camera Input [51.150605800173366]
UnLocは、全ての気象条件におけるマルチセンサー入力によるローカライズのための、新しい統一型ニューラルネットワークアプローチである。
本手法は,Oxford Radar RobotCar,Apollo SouthBay,Perth-WAの各データセットで広く評価されている。
論文 参考訳(メタデータ) (2023-07-03T04:10:55Z) - Efficient and Robust LiDAR-Based End-to-End Navigation [132.52661670308606]
我々は,LiDARをベースとした効率的なエンドツーエンドナビゲーションフレームワークを提案する。
本稿では,スパース畳み込みカーネル最適化とハードウェア対応モデル設計に基づくFast-LiDARNetを提案する。
次に,単一の前方通過のみから予測の不確かさを直接推定するハイブリッド・エビデンシャル・フュージョンを提案する。
論文 参考訳(メタデータ) (2021-05-20T17:52:37Z) - A Driving Behavior Recognition Model with Bi-LSTM and Multi-Scale CNN [59.57221522897815]
運転行動認識のための軌道情報に基づくニューラルネットワークモデルを提案する。
提案手法を公開BLVDデータセット上で評価し,満足な性能を実現する。
論文 参考訳(メタデータ) (2021-03-01T06:47:29Z) - Learning Selective Sensor Fusion for States Estimation [47.76590539558037]
本稿では,エンド・ツー・エンドのセンサ・フュージョン・モジュールであるSelectFusionを提案する。
予測中、ネットワークは異なるセンサーモードから潜伏する特徴の信頼性を評価することができる。
我々は、公開データセットと漸進的に劣化したデータセットの両方において、すべての融合戦略を広範囲に評価する。
論文 参考訳(メタデータ) (2019-12-30T20:25:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。