論文の概要: Spatial Information Bottleneck for Interpretable Visual Recognition
- arxiv url: http://arxiv.org/abs/2511.09239v1
- Date: Thu, 13 Nov 2025 01:42:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-13 22:34:54.48248
- Title: Spatial Information Bottleneck for Interpretable Visual Recognition
- Title(参考訳): 解釈可能な視覚認識のための空間情報基盤
- Authors: Kaixiang Shu, Kai Meng, Junqin Luo,
- Abstract要約: ディープニューラルネットワークは、通常、空間的に絡み合った表現を学習し、差別的前景の特徴を素早い背景相関で表す。
本稿では,情報理論の観点から,勾配に基づく帰属に関する新たな理解枠組みを提案する。
- 参考スコア(独自算出の注目度): 1.1533793543850381
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep neural networks typically learn spatially entangled representations that conflate discriminative foreground features with spurious background correlations, thereby undermining model interpretability and robustness. We propose a novel understanding framework for gradient-based attribution from an information-theoretic perspective. We prove that, under mild conditions, the Vector-Jacobian Products (VJP) computed during backpropagation form minimal sufficient statistics of input features with respect to class labels. Motivated by this finding, we propose an encoding-decoding perspective : forward propagation encodes inputs into class space, while VJP in backpropagation decodes this encoding back to feature space. Therefore, we propose Spatial Information Bottleneck (S-IB) to spatially disentangle information flow. By maximizing mutual information between foreground VJP and inputs while minimizing mutual information in background regions, S-IB encourages networks to encode information only in class-relevant spatial regions. Since post-hoc explanation methods fundamentally derive from VJP computations, directly optimizing VJP's spatial structure during training improves visualization quality across diverse explanation paradigms. Experiments on five benchmarks demonstrate universal improvements across six explanation methods, achieving better foreground concentration and background suppression without method-specific tuning, alongside consistent classification accuracy gains.
- Abstract(参考訳): ディープニューラルネットワークは、典型的には空間的に絡み合った表現を学習し、差別的前景の特徴を素早い背景相関で説明することで、モデルの解釈可能性と堅牢性を損なう。
本稿では,情報理論の観点から,勾配に基づく帰属に関する新たな理解枠組みを提案する。
緩やかな条件下では, バックプロパゲーション時に計算されたベクトル・ヤコビアン製品 (VJP) が, クラスラベルに対する入力特徴の統計量を最小限に抑えることを証明した。
フォワード伝搬は入力をクラス空間にエンコードするが、バックプロパゲーションのVJPはこのエンコードを特徴空間に復号する。
そこで本稿では,情報の流れを空間的に切り離すためにS-IB(Spatial Information Bottleneck)を提案する。
前景VJPと入力間の相互情報の最大化と、背景領域における相互情報の最小化により、S-IBは、クラス関連空間領域のみに情報をエンコードすることをネットワークに推奨する。
ポストホックな説明法は基本的にVJP計算に由来するため、トレーニング中にVJPの空間構造を直接最適化することで、多様な説明パラダイムの可視化品質が向上する。
5つのベンチマーク実験では、6つの説明手法にまたがる普遍的な改善が示され、一貫した分類精度の向上とともに、メソッド固有のチューニングを伴わずに、前景濃度と背景抑制が向上した。
関連論文リスト
- Vector Field Attention for Deformable Image Registration [9.852055065890479]
変形可能な画像登録は、固定画像と移動画像の間の非線形空間対応を確立する。
既存のディープラーニングベースの手法では、ニューラルネットワークが特徴マップの位置情報をエンコードする必要がある。
本稿では、位置対応の直接検索を可能にすることにより、既存のネットワーク設計の効率を高める新しいフレームワークであるベクトル場注意(VFA)を提案する。
論文 参考訳(メタデータ) (2024-07-14T14:06:58Z) - HiRes-LLaVA: Restoring Fragmentation Input in High-Resolution Large Vision-Language Models [96.76995840807615]
HiRes-LLaVAは、元の文脈情報や幾何学的情報を変更することなく、高解像度入力のサイズを処理するように設計された新しいフレームワークである。
HiRes-LLaVAは、2つの革新的なコンポーネントで構成されている: (i)スライスしたパッチを元の形式に再構築し、ダウンアップサンプリング層と畳み込み層を通じてグローバルとローカルの両方の特徴を効率的に抽出するSliceRestoreアダプタ、(ii)自分自身に基づいてビジョントークンを圧縮するセルフマイニングサンプリング。
論文 参考訳(メタデータ) (2024-07-11T17:42:17Z) - Local positional graphs and attentive local features for a data and runtime-efficient hierarchical place recognition pipeline [11.099588962062937]
本稿では,既存のアプローチを拡張し,新しいアイデアを提示する,ランタイムとデータ効率のよい階層型VPRパイプラインを提案する。
まず,ローカル画像の特徴の空間的コンテキスト情報を符号化する学習不要かつ実行効率のよいアプローチであるローカル位置グラフ(LPG)を提案する。
第2に,アテンタティブ・ローカルSPED(Attentive Local SPED)について述べる。
第3に,超次元計算を利用した階層型パイプラインを提案し,高速な候補選択と候補再評価のために,全体的HDC記述子と同じ局所的特徴を利用する。
論文 参考訳(メタデータ) (2024-03-15T13:26:39Z) - Towards the Uncharted: Density-Descending Feature Perturbation for Semi-supervised Semantic Segmentation [51.66997548477913]
本稿では,DDFP(Dedentity-Descending Feature Perturbation)という特徴レベルの一貫性学習フレームワークを提案する。
半教師付き学習における低密度分離仮定にインスパイアされた私たちの重要な洞察は、特徴密度はセグメンテーション分類器が探索する最も有望な方向の光を放つことができるということである。
提案したDFFPは、機能レベルの摂動に関する他の設計よりも優れており、Pascal VOCとCityscapesのデータセット上でのアートパフォーマンスの状態を示している。
論文 参考訳(メタデータ) (2024-03-11T06:59:05Z) - Interpretable Spectral Variational AutoEncoder (ISVAE) for time series
clustering [48.0650332513417]
可変オートエンコーダ(VAE)の出力にフィルタバンク(FB)の解釈可能なボトルネックを組み込んだ新しいモデルを導入する。
このアレンジメントは、入力信号の最も情報性の高いセグメントに参加するためにVAEを補完する。
VAEをこのFBに故意に拘束することにより、識別可能で分離可能で次元が縮小した符号化の開発を促進する。
論文 参考訳(メタデータ) (2023-10-18T13:06:05Z) - Variantional autoencoder with decremental information bottleneck for
disentanglement [16.93743613675349]
本稿では,情報ボトルネックの低減を図った階層型潜在空間を利用した非交叉表現学習フレームワークDeVAEを提案する。
このアプローチの鍵となる革新は、非交叉不変変換を通じて階層的潜在空間を接続することである。
一連の実験とdSpriteとShapes3Dデータセットのアブレーション研究を通じて, ゆがみと復元のバランスを達成する上でのDeVAEの有効性を実証した。
論文 参考訳(メタデータ) (2023-03-22T23:38:10Z) - Vector Quantized Wasserstein Auto-Encoder [57.29764749855623]
生成的視点から深層離散表現を学習する。
我々は,コードワード列上の離散分布を付与し,コードワード列上の分布をデータ分布に伝達する決定論的デコーダを学習する。
WS 距離のクラスタリングの観点と結びつけて,より優れた,より制御可能なクラスタリングソリューションを実現するための,さらなる理論を開発しています。
論文 参考訳(メタデータ) (2023-02-12T13:51:36Z) - IntroVAC: Introspective Variational Classifiers for Learning
Interpretable Latent Subspaces [6.574517227976925]
IntroVACは、追加ラベルから情報を活用することで、解釈可能な潜在部分空間を学習する。
IntroVACは、画像属性の微調整を可能にする潜在空間における意味のある方向を学習可能であることを示す。
論文 参考訳(メタデータ) (2020-08-03T10:21:41Z) - MetaSDF: Meta-learning Signed Distance Functions [85.81290552559817]
ニューラルな暗示表現で形状を一般化することは、各関数空間上の学習先行値に比例する。
形状空間の学習をメタラーニング問題として定式化し、勾配に基づくメタラーニングアルゴリズムを利用してこの課題を解決する。
論文 参考訳(メタデータ) (2020-06-17T05:14:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。