論文の概要: Diffusion-CAM: Faithful Visual Explanations for dMLLMs
- arxiv url: http://arxiv.org/abs/2604.11005v1
- Date: Mon, 13 Apr 2026 05:14:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.338248
- Title: Diffusion-CAM: Faithful Visual Explanations for dMLLMs
- Title(参考訳): Diffusion-CAM:dMLLMのための忠実な視覚的説明
- Authors: Haomin Zuo, Yidi Li, Luoxiao Yang, Xiaofeng Zhang,
- Abstract要約: Diffusion-CAMは、dMLLMに特化された最初の解釈可能性法である。
バックボーンの中間表現を微分して生の活性化マップを導出する。
実験の結果,Diffusion-CAMは局所化精度と視覚的忠実度の両方でSoTA法よりも優れていた。
- 参考スコア(独自算出の注目度): 8.78213424930081
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While diffusion Multimodal Large Language Models (dMLLMs) have recently achieved remarkable strides in multimodal generation, the development of interpretability mechanisms has lagged behind their architectural evolution. Unlike traditional autoregressive models that produce sequential activations, diffusion-based architectures generate tokens via parallel denoising, resulting in smooth, distributed activation patterns across the entire sequence. Consequently, existing Class Activation Mapping (CAM) methods, which are tailored for local, sequential dependencies, are ill-suited for interpreting these non-autoregressive behaviors. To bridge this gap, we propose Diffusion-CAM, the first interpretability method specifically tailored for dMLLMs. We derive raw activation maps by differentiably probing intermediate representations in the transformer backbone, accordingly capturing both latent features and their class-specific gradients. To address the inherent stochasticity of these raw signals, we incorporate four key modules to resolve spatial ambiguity and mitigate intra-image confounders and redundant token correlations. Extensive experiments demonstrate that Diffusion-CAM significantly outperforms SoTA methods in both localization accuracy and visual fidelity, establishing a new standard for understanding the parallel generation process of diffusion multimodal systems.
- Abstract(参考訳): 拡散多モーダル大規模言語モデル(dMLLM)は近年,多モーダル生成において顕著な進歩を遂げている。
逐次アクティベーションを生成する従来の自己回帰モデルとは異なり、拡散ベースのアーキテクチャは並列デノナイズによってトークンを生成し、シーケンス全体にわたってスムーズで分散されたアクティベーションパターンをもたらす。
その結果, 局所的, 逐次的依存関係に適した既存のクラスアクティベーションマッピング(CAM)手法は, 非自己回帰的な振る舞いを解釈するのに不適である。
このギャップを埋めるために,Diffusion-CAMを提案する。
そこで我々は,変圧器のバックボーンの中間表現を,潜時特徴とクラス固有の勾配の両方を捉えることにより,生の活性化マップを導出する。
これらの生信号の固有確率性に対処するため,空間的あいまいさを解消し,画像内共同創設者と冗長なトークン相関を緩和するために,4つの鍵モジュールを組み込んだ。
拡散CAMは局所化精度と視覚忠実度の両方でSoTA法を著しく上回り、拡散多モード系の並列生成プロセスを理解するための新しい標準を確立した。
関連論文リスト
- Omni-Diffusion: Unified Multimodal Understanding and Generation with Masked Discrete Diffusion [66.78268790956493]
オムニ・ディフュージョン(Omni-Diffusion)は、マスクベースの離散拡散モデルに基づいて構築された、最初の任意のマルチモーダル言語モデルである。
本手法は2つ以上のモダリティを処理する既存のマルチモーダルシステムに匹敵する性能または性能を示す。
論文 参考訳(メタデータ) (2026-03-06T18:59:57Z) - Bridging the Discrete-Continuous Gap: Unified Multimodal Generation via Coupled Manifold Discrete Absorbing Diffusion [60.186310080523135]
離散データ(テキスト)に対する自己回帰的アプローチと連続データ(画像)に対する拡散的アプローチへの生成的モデリングの分岐は、真に統一されたマルチモーダルシステムの開発を妨げる。
階層的二重プロセスとしてマルチモーダル生成を再構成する新しい確率的フレームワークである textbfCoM-DAD を提案する。
提案手法は、標準的なマスキングモデルよりも優れた安定性を示し、スケーラブルで統一されたテキスト画像生成のための新しいパラダイムを確立する。
論文 参考訳(メタデータ) (2026-01-07T16:21:19Z) - Diffusion-Classifier Synergy: Reward-Aligned Learning via Mutual Boosting Loop for FSCIL [19.094835780362775]
FSCIL(Few-Shot Class-Incremental Learning)は、最小限の例から新しいクラスを逐次学習するモデルに挑戦する。
現在のFSCIL法は、限られたデータセットに依存するため、一般化に苦慮することが多い。
本稿では拡散モデルとFSCIL分類器の相互強化ループを確立する新しいフレームワークであるDiffusion-Classifier Synergy(DCS)を紹介する。
論文 参考訳(メタデータ) (2025-10-04T01:48:52Z) - Explaining multimodal LLMs via intra-modal token interactions [55.27436637894534]
MLLM(Multimodal Large Language Models)は、様々な視覚言語タスクにおいて顕著な成功を収めているが、その内部決定機構は十分に理解されていない。
モーダル内相互作用を利用した解釈可能性の向上を提案する。
論文 参考訳(メタデータ) (2025-09-26T14:39:13Z) - Multimodal LLM-Guided Semantic Correction in Text-to-Image Diffusion [52.315729095824906]
MLLM Semantic-Corrected Ping-Pong-Ahead Diffusion (PPAD) は,マルチモーダル大言語モデル(MLLM)を推論中の意味的オブザーバとして導入する新しいフレームワークである。
中間世代をリアルタイムに分析し、潜在意味的不整合を識別し、フィードバックを制御可能な信号に変換し、残りの認知ステップを積極的に導く。
大規模な実験ではPPADの大幅な改善が示されている。
論文 参考訳(メタデータ) (2025-05-26T14:42:35Z) - Unifying Autoregressive and Diffusion-Based Sequence Generation [3.1853022872760186]
拡散に基づくシーケンス生成モデルに対して,自己回帰型言語モデルで行を曖昧にする重要な拡張を提示する。
個別のトークン位置に異なるノイズスケジュールを割り当てるハイパースケジューリングを導入する。
第二に,吸収過程と一様過程の間に介在する2つのハイブリッドトークン単位のノイズ発生過程を提案し,過去の誤りを解消する。
論文 参考訳(メタデータ) (2025-04-08T20:32:10Z) - Diffusion Features to Bridge Domain Gap for Semantic Segmentation [2.8616666231199424]
本稿では, 拡散モデルの特徴を効率的に活用するために, サンプリングおよび融合技術を活用するアプローチについて検討する。
テキスト・画像生成能力の強みを生かして、暗黙的に後部知識を学習する新しいトレーニングフレームワークを導入する。
論文 参考訳(メタデータ) (2024-06-02T15:33:46Z) - Diffusion Glancing Transformer for Parallel Sequence to Sequence
Learning [52.72369034247396]
モーダリティ拡散プロセスと残差グランシングサンプリングを併用した拡散グランシング変換器を提案する。
DIFFGLATは、自己回帰モデルと非自己回帰モデルの両方と比較して、高速な復号速度を維持しながら、より優れた生成精度を実現する。
論文 参考訳(メタデータ) (2022-12-20T13:36:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。