論文の概要: X-VMamba: Explainable Vision Mamba
- arxiv url: http://arxiv.org/abs/2511.12694v1
- Date: Sun, 16 Nov 2025 17:18:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:24.486209
- Title: X-VMamba: Explainable Vision Mamba
- Title(参考訳): X-VMamba: 説明可能なVision Mamba
- Authors: Mohamed A. Mabrok, Yalda Zafari,
- Abstract要約: State Space Models (SSM) は、シーケンスモデリングのためのTransformerの強力な代替品として登場した。
本稿では,入力シーケンスの異なる部分(トークンやパッチ)がSSMの内部状態にどのように影響するかを定量化する,可制御性に基づく解釈可能性フレームワークを提案する。
我々のフレームワークは、すべてのドメインにわたるSSMの統一的で基礎的な解釈可能性パラダイムとして、制御可能性分析を確立します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: State Space Models (SSMs), particularly the Mamba architecture, have recently emerged as powerful alternatives to Transformers for sequence modeling, offering linear computational complexity while achieving competitive performance. Yet, despite their effectiveness, understanding how these Vision SSMs process spatial information remains challenging due to the lack of transparent, attention-like mechanisms. To address this gap, we introduce a controllability-based interpretability framework that quantifies how different parts of the input sequence (tokens or patches) influence the internal state dynamics of SSMs. We propose two complementary formulations: a Jacobian-based method applicable to any SSM architecture that measures influence through the full chain of state propagation, and a Gramian-based approach for diagonal SSMs that achieves superior speed through closed-form analytical solutions. Both methods operate in a single forward pass with linear complexity, requiring no architectural modifications or hyperparameter tuning. We validate our framework through experiments on three diverse medical imaging modalities, demonstrating that SSMs naturally implement hierarchical feature refinement from diffuse low-level textures in early layers to focused, clinically meaningful patterns in deeper layers. Our analysis reveals domain-specific controllability signatures aligned with diagnostic criteria, progressive spatial selectivity across the network hierarchy, and the substantial influence of scanning strategies on attention patterns. Beyond medical imaging, we articulate applications spanning computer vision, natural language processing, and cross-domain tasks. Our framework establishes controllability analysis as a unified, foundational interpretability paradigm for SSMs across all domains. Code and analysis tools will be made available upon publication
- Abstract(参考訳): State Space Models (SSM)、特にMambaアーキテクチャは、最近、シーケンスモデリングのためのTransformerの強力な代替品として登場し、線形計算の複雑さを提供しながら、競争力のある性能を実現している。
しかし、その効果にもかかわらず、これらのビジョンSSMが空間情報をどのように処理するかを理解することは、透明で注意のようなメカニズムが欠如しているため、依然として困難である。
このギャップに対処するために,入力シーケンスの異なる部分(トークンやパッチ)がSSMの内部状態にどのように影響するかを定量化する,可制御性に基づく解釈可能性フレームワークを導入する。
本稿では, 状態伝播の全連鎖による影響を計測する任意のSSMアーキテクチャに適用可能なヤコビ的手法と, 閉形式解析解による優れた速度を実現する対角的SSMに対するグラミアン的アプローチの2つの相補的定式化を提案する。
どちらのメソッドも1つのフォワードパスで線形複雑に動作し、アーキテクチャの変更やハイパーパラメータチューニングを必要としない。
我々は,3つの多様な医用画像モダリティの実験を通じて,SSMが早期層における拡散性低レベルテクスチャからより深い層における集中的,臨床的に有意義なパターンに至るまでの階層的特徴改善を自然に実施できることを実証した。
分析の結果, 診断基準, ネットワーク階層間の空間選択性, 注意パターンに対する走査戦略の影響が, ドメイン固有の制御可能性シグネチャと一致していることが明らかになった。
医用画像以外にも、コンピュータビジョン、自然言語処理、ドメイン間タスクにまたがるアプリケーションを明確に述べる。
我々のフレームワークは、すべてのドメインにわたるSSMの統一的で基礎的な解釈可能性パラダイムとして、制御可能性分析を確立します。
コードと分析ツールが公開に
関連論文リスト
- A Comparative Analysis of Contextual Representation Flow in State-Space and Transformer Architectures [27.45316137669387]
状態空間モデル(SSM)は、長いシーケンス処理のためにTransformer-Based Models(TBM)の効率的な代替品として登場した。
本稿では,SSM と TBM における表現伝搬の統一・トークン・層レベルでの初めての解析について述べる。
TBMはトークン表現を急速に均質化し、多様性は後層のみに再燃し、SSMはトークンの特異性を早期に保存するが、より深い均質化に収束する。
論文 参考訳(メタデータ) (2025-10-08T04:46:11Z) - MARL-MambaContour: Unleashing Multi-Agent Deep Reinforcement Learning for Active Contour Optimization in Medical Image Segmentation [5.389510984268956]
MARL(Multi-Agent Reinforcement Learning)に基づく最初の輪郭型医用画像分割フレームワークであるMARL-MambaContourを紹介する。
提案手法は,位相的に一貫したオブジェクトレベルの輪郭を生成することに焦点を当てたマルチエージェント協調タスクとしてセグメンテーションを再構成する。
5つの多様な医用画像データセットの実験は、MARL-MambaContourの最先端性能を示している。
論文 参考訳(メタデータ) (2025-06-23T14:22:49Z) - Topology-Assisted Spatio-Temporal Pattern Disentangling for Scalable MARL in Large-scale Autonomous Traffic Control [14.929720580977152]
本稿では,動的グラフニューラルネットワーク(DGNN)とトポロジカルデータ解析(TDA)を統合した新しいMARLフレームワークを提案する。
大規模言語モデル (LLMs) におけるMixture of Experts (MoE) アーキテクチャに着想を得て, 位相支援型空間パターンアンタングリング (TSD) 強化型MoEを提案する。
実世界の交通シナリオにおいて行われた大規模な実験は、包括的な理論的分析とともに、提案フレームワークの優れた性能を検証した。
論文 参考訳(メタデータ) (2025-06-14T11:18:12Z) - PhysLLM: Harnessing Large Language Models for Cross-Modal Remote Physiological Sensing [49.243031514520794]
LLM(Large Language Models)は、テキスト中心の設計のため、長距離信号の取得に優れる。
PhysLLMは最先端の精度とロバスト性を実現し、照明のバリエーションや動きのシナリオにまたがる優れた一般化を示す。
論文 参考訳(メタデータ) (2025-05-06T15:18:38Z) - Vision Mamba in Remote Sensing: A Comprehensive Survey of Techniques, Applications and Outlook [46.65330450810048]
状態空間モデル(SSM)は、線形計算スケーリングとグローバルコンテキストモデリングを組み合わせたパラダイムシフトソリューションとして登場した。
本調査では,約120個のマンバを用いたリモートセンシング研究を体系的に分析し,マンバをベースとしたリモートセンシング手法の総合的なレビューを行った。
i)ビジョン・マンバのアーキテクチャの基礎原理、(ii)適応スキャン戦略やハイブリッドSSMの定式化のようなマイクロアーキテクチャの進歩、(iii)CNN-Transformer-Mambaハイブリッドや周波数領域適応、(iv)状態に対する厳密なベンチマークなど、マクロアーキテクチャの統合。
論文 参考訳(メタデータ) (2025-05-01T16:07:51Z) - Model Hemorrhage and the Robustness Limits of Large Language Models [119.46442117681147]
大規模言語モデル(LLM)は、自然言語処理タスク全体で強力なパフォーマンスを示すが、デプロイメント用に修正された場合、大幅なパフォーマンス低下を経験する。
この現象をモデル出血(パラメータ変更とアーキテクチャ変更によるパフォーマンス低下)と定義する。
論文 参考訳(メタデータ) (2025-03-31T10:16:03Z) - DAMamba: Vision State Space Model with Dynamic Adaptive Scan [51.81060691414399]
状態空間モデル(SSM)は近年、コンピュータビジョンにおいて大きな注目を集めている。
スキャン順序と領域を適応的に割り当てるデータ駆動型動的適応スキャン(DAS)を提案する。
DASをベースとしたビジョンバックボーンDAMambaの提案は,現在のビジョンタスクにおけるMambaモデルよりもはるかに優れている。
論文 参考訳(メタデータ) (2025-02-18T08:12:47Z) - Efficient High-Resolution Visual Representation Learning with State Space Model for Human Pose Estimation [60.80423207808076]
高解像度の視覚表現を維持しながら長距離依存関係をキャプチャすることは、人間のポーズ推定のような密集した予測タスクに不可欠である。
マルチスケールの畳み込み操作で視覚状態空間モデルを拡張する動的ビジュアル状態空間(DVSS)ブロックを提案する。
HRVMambaは効率的な高分解能表現学習のための新しいモデルである。
論文 参考訳(メタデータ) (2024-10-04T06:19:29Z) - Learning Multiscale Consistency for Self-supervised Electron Microscopy
Instance Segmentation [48.267001230607306]
本稿では,EMボリュームのマルチスケール一貫性を高める事前学習フレームワークを提案する。
当社のアプローチでは,強力なデータ拡張と弱いデータ拡張を統合することで,Siameseネットワークアーキテクチャを活用している。
効果的にボクセルと機能の一貫性をキャプチャし、EM分析のための転送可能な表現を学習する。
論文 参考訳(メタデータ) (2023-08-19T05:49:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。