論文の概要: Energy-Regularized Spatial Masking: A Novel Approach to Enhancing Robustness and Interpretability in Vision Models
- arxiv url: http://arxiv.org/abs/2604.06893v1
- Date: Wed, 08 Apr 2026 09:48:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-09 17:30:51.464655
- Title: Energy-Regularized Spatial Masking: A Novel Approach to Enhancing Robustness and Interpretability in Vision Models
- Title(参考訳): エネルギーレギュラー化された空間マスキング:視覚モデルにおけるロバストさと解釈可能性を高める新しいアプローチ
- Authors: Tom Devynck Bilal Faye Djamel Bouchaffra Nadjib Lazaar Hanane Azzag Mustapha Lebbah,
- Abstract要約: 深部畳み込みニューラルネットワークは、密集した空間特徴写像を徹底的に処理することで、顕著な性能を達成する。
このブルートフォース戦略は、大きな計算冗長性を導入し、急激な背景相関に依存している。
本稿では,エネルギーの最小化問題として特徴選択を再構成する新しいフレームワークであるEnergy-Regularized Space Masking (ERSM)を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep convolutional neural networks achieve remarkable performance by exhaustively processing dense spatial feature maps, yet this brute-force strategy introduces significant computational redundancy and encourages reliance on spurious background correlations. As a result, modern vision models remain brittle and difficult to interpret. We propose Energy-Regularized Spatial Masking (ERSM), a novel framework that reformulates feature selection as a differentiable energy minimization problem. By embedding a lightweight Energy-Mask Layer inside standard convolutional backbones, each visual token is assigned a scalar energy composed of two competing forces: an intrinsic Unary importance cost and a Pairwise spatial coherence penalty. Unlike prior pruning methods that enforce rigid sparsity budgets or rely on heuristic importance scores, ERSM allows the network to autonomously discover an optimal information-density equilibrium tailored to each input. We validate ERSM on convolutional architectures and demonstrate that it produces emergent sparsity, improved robustness to structured occlusion, and highly interpretable spatial masks, while preserving classification accuracy. Furthermore, we show that the learned energy ranking significantly outperforms magnitude-based pruning in deletion-based robustness tests, revealing ERSM as an intrinsic denoising mechanism that isolates semantic object regions without pixel-level supervision.
- Abstract(参考訳): 深部畳み込みニューラルネットワークは、密集した空間特徴写像を徹底的に処理することで、顕著な性能を達成するが、このブルートフォース戦略は、大きな計算冗長性を導入し、急激な背景相関への依存を促進する。
結果として、現代の視覚モデルは脆弱で解釈が難しいままである。
本稿では,エネルギーの最小化問題として特徴選択を再構成する新しいフレームワークであるEnergy-Regularized Space Masking (ERSM)を提案する。
標準の畳み込みバックボーンに軽量のエナジーマスク層を埋め込むことで、各視覚トークンは2つの競合する力からなるスカラーエネルギーを割り当てる。
厳格なスパーシリティ予算を強制したり、ヒューリスティックな重要度スコアに依存する以前のプルーニング法とは異なり、ERSMは入力ごとに調整された最適な情報密度均衡を自律的に発見することができる。
我々は, ERSMを畳み込み型アーキテクチャ上で検証し, 創発性疎結合, 構造化オクルージョンへの堅牢性の向上, 高度に解釈可能な空間マスクを創出し, 分類精度を維持した。
さらに, 学習エネルギーランキングは, 欠落に基づくロバスト性試験において, 等級に基づくプルーニングよりも有意に優れており, ERSMは画素レベルの監督を伴わない意味的対象領域を分離する固有のデノナイズ機構であることが明らかとなった。
関連論文リスト
- Neural Dynamics Self-Attention for Spiking Transformers [59.57278823240336]
TransformerアーキテクチャによるSNN(Spike Neural Networks)は、エネルギー効率とパフォーマンスのバランスをとるための、有望な経路を提供する。
既存のスパイキングトランスフォーマーは、(i)ニューラルネットワーク(ANN)と(ii)推論時の高メモリオーバーヘッドと比較して、大幅なパフォーマンスギャップがあるという2つの重要な課題に直面している。
本稿では、局所受容野を持つスパイキングニューロンを用いて、メモリ要求を減らしながら注意を計算するLRF-Dynを提案する。
論文 参考訳(メタデータ) (2026-03-09T12:23:37Z) - Structure and Redundancy in Large Language Models: A Spectral Study via Random Matrix Theory [0.0]
この論文は、現代のディープラーニング、信頼性、効率性において、永続的で密接に関連する2つの課題に対処する。
層と入力間の隠れアクティベーションの固有値ダイナミクスを解析することにより、スペクトル統計学がモデル挙動にコンパクトで安定で解釈可能なレンズを提供することを示す。
このフレームワーク内では、最初のコントリビューションであるEigenTrackが、大規模言語と視覚言語モデルにおける幻覚とアウト・オブ・ディストリビューションの振る舞いをリアルタイムに検出する手法を導入した。
第二の貢献である RMT-KD は、ランダム行列理論知識蒸留によるディープネットワークの圧縮に対する原則的なアプローチを示す。
論文 参考訳(メタデータ) (2026-02-25T19:11:56Z) - MirrorLA: Reflecting Feature Map for Vision Linear Attention [49.41670925034762]
リニアアテンションはトランスフォーマーの2次から線形への計算複雑性を著しく低下させるが、パフォーマンスにおけるソフトマックスに基づくアテンションの遅れは一貫して遅れる。
我々は、受動トランケーションをアクティブなリオリエンテーションに置き換える幾何学的枠組みであるMirrorLAを提案する。
MirrorLAは標準的なベンチマークで最先端のパフォーマンスを実現し、表現の忠実さを損なうことなく厳密な線形効率を実現できることを示した。
論文 参考訳(メタデータ) (2026-02-04T09:14:09Z) - PhyG-MoE: A Physics-Guided Mixture-of-Experts Framework for Energy-Efficient GNSS Interference Recognition [49.955269674859004]
本稿では,PhyG-MoE(Physics-Guided Mixture-of-Experts)について述べる。
静的アーキテクチャとは異なり、提案システムはスペクトル特性の絡み合いに基づいて信号をルーティングするスペクトルベースのゲーティング機構を用いる。
高容量のTransNeXtエキスパートがオンデマンドでアクティベートされ、飽和シナリオで複雑な機能を分離する一方、軽量のエキスパートは基本的なシグナルを処理してレイテンシを最小化する。
論文 参考訳(メタデータ) (2026-01-19T07:57:52Z) - Learning by Steering the Neural Dynamics: A Statistical Mechanics Perspective [0.0]
我々は、ニューラルネットワークが完全に局所的な分散学習をサポートする方法について研究する。
そこで本研究では,任意のバイナリ再帰ネットワークを用いた教師あり学習のための生物学的に妥当なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-10-13T22:28:34Z) - Towards Efficient General Feature Prediction in Masked Skeleton Modeling [59.46799426434277]
マスクスケルトンモデリングのための新しい汎用特徴予測フレームワーク(GFP)を提案する。
我々の重要な革新は、局所的な動きパターンからグローバルな意味表現にまたがる、従来の低レベルな再構築を高レベルな特徴予測に置き換えることです。
論文 参考訳(メタデータ) (2025-09-03T18:05:02Z) - Shedding More Light on Robust Classifiers under the lens of Energy-based Models [3.953603590878949]
我々は、敵対的訓練(AT)のダイナミクスについて、新しい視点を提供する。
ATにおけるエネルギー環境の分析により、標的外攻撃は、モデルの観点からの本来のデータよりも、より分散した(低エネルギー)敵画像を生成することが明らかとなった。
厳格なエビデンスを動機とした重エネルギー教育(WEAT)の提案
論文 参考訳(メタデータ) (2024-07-08T18:31:19Z) - Towards Evaluating the Robustness of Visual State Space Models [63.14954591606638]
視覚状態空間モデル(VSSM)は視覚知覚タスクにおいて顕著な性能を示した。
しかし、自然と敵対的な摂動の下での頑丈さは依然として重要な懸念事項である。
様々な摂動シナリオ下でのVSSMの頑健さを総合的に評価する。
論文 参考訳(メタデータ) (2024-06-13T17:59:44Z) - UGMAE: A Unified Framework for Graph Masked Autoencoders [67.75493040186859]
グラフマスク付きオートエンコーダのための統一フレームワークであるUGMAEを提案する。
まず,ノードの特異性を考慮した適応型特徴マスク生成器を開発した。
次に,階層型構造再構成と特徴再構成を併用し,総合的なグラフ情報を取得する。
論文 参考訳(メタデータ) (2024-02-12T19:39:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。