論文の概要: AIM: Amending Inherent Interpretability via Self-Supervised Masking
- arxiv url: http://arxiv.org/abs/2508.11502v1
- Date: Fri, 15 Aug 2025 14:29:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-18 14:51:24.046943
- Title: AIM: Amending Inherent Interpretability via Self-Supervised Masking
- Title(参考訳): AIM:自己監督型マスキングによる創発的解釈性の改善
- Authors: Eyad Alshami, Shashank Agnihotri, Bernt Schiele, Margret Keuper,
- Abstract要約: 自己スーパーバイザード・マスキング(AIM)によるインテリジェント・インタプリタビリティの向上について提案する。
AIMは、追加のアノテーションを必要とせずに、刺激的な代替品よりも真の機能の利用を促進する。
我々は、分布外一般化ときめ細かい視覚的理解の両方をテストする、さまざまな挑戦的なデータセットでAIMを検証する。
- 参考スコア(独自算出の注目度): 57.17600766859953
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: It has been observed that deep neural networks (DNNs) often use both genuine as well as spurious features. In this work, we propose "Amending Inherent Interpretability via Self-Supervised Masking" (AIM), a simple yet interestingly effective method that promotes the network's utilization of genuine features over spurious alternatives without requiring additional annotations. In particular, AIM uses features at multiple encoding stages to guide a self-supervised, sample-specific feature-masking process. As a result, AIM enables the training of well-performing and inherently interpretable models that faithfully summarize the decision process. We validate AIM across a diverse range of challenging datasets that test both out-of-distribution generalization and fine-grained visual understanding. These include general-purpose classification benchmarks such as ImageNet100, HardImageNet, and ImageWoof, as well as fine-grained classification datasets such as Waterbirds, TravelingBirds, and CUB-200. AIM demonstrates significant dual benefits: interpretability improvements, as measured by the Energy Pointing Game (EPG) score, and accuracy gains over strong baselines. These consistent gains across domains and architectures provide compelling evidence that AIM promotes the use of genuine and meaningful features that directly contribute to improved generalization and human-aligned interpretability.
- Abstract(参考訳): ディープニューラルネットワーク(DNN)は、しばしば真の特徴と刺激的な特徴の両方を使用する。
そこで本研究では,新たなアノテーションを必要とせず,真の機能の利用を促進する,シンプルかつ効果的な手法であるAIM(Amending Inherent Interpretability via Self-Supervised Masking)を提案する。
特に、AIMは複数のエンコーディング段階のフィーチャを使用して、自己監督型、サンプル固有の特徴マスキングプロセスを導く。
その結果、AIMは、意思決定プロセスを忠実に要約する、良好かつ本質的に解釈可能なモデルのトレーニングを可能にする。
我々は、分布外一般化ときめ細かい視覚的理解の両方をテストする、さまざまな挑戦的なデータセットでAIMを検証する。
その中には、ImageNet100、HardImageNet、ImageWoofなどの汎用分類ベンチマークや、Waterbirds、TrakingBirds、CUB-200といったきめ細かい分類データセットが含まれる。
AIMは、EPG(Energy Pointing Game)スコアによって測定された解釈可能性の改善と、強いベースラインよりも精度の向上という2つの大きな利点を示す。
これらのドメインやアーキテクチャ間の一貫性のある利得は、AIMが真の有意義な機能の使用を促進し、一般化とヒューマンアラインな解釈可能性の向上に直接貢献する、という説得力のある証拠を提供する。
関連論文リスト
- HAMLET-FFD: Hierarchical Adaptive Multi-modal Learning Embeddings Transformation for Face Forgery Detection [6.060036926093259]
HAMLET-FFDは顔偽造検出のためのクロスドメイン一般化フレームワークである。
視覚的証拠と概念的手がかりを統合し、専門家の法医学的分析をエミュレートする。
HAMLET-FFDは設計上、外部プラグインとして機能する全ての事前訓練されたパラメータを凍結する。
論文 参考訳(メタデータ) (2025-07-28T15:09:52Z) - ADMC: Attention-based Diffusion Model for Missing Modalities Feature Completion [25.1725138364452]
注意に基づく障害特徴補完(ADMC)のための拡散モデルを提案する。
本フレームワークは,各モダリティに対する特徴抽出ネットワークを独立に訓練し,その特性を保ち,オーバーカップリングを回避する。
提案手法は,IEMOCAPおよびMIntRecベンチマークの最先端結果を実現し,欠落シナリオと完全モダリティシナリオの両方において,その有効性を示す。
論文 参考訳(メタデータ) (2025-07-08T03:08:52Z) - LSM-2: Learning from Incomplete Wearable Sensor Data [65.58595667477505]
本稿では,Adaptive and Inherited Masking (AIM)を用いた第2世代Large Sensor Model (LSM-2)を紹介する。
AIMは明示的な計算を必要とせず、不完全なデータから直接堅牢な表現を学習する。
AIMを用いた LSM-2 は, 分類, 回帰, 生成モデルなど, 多様なタスクにまたがる最高の性能を実現する。
論文 参考訳(メタデータ) (2025-06-05T17:57:11Z) - MetaGMT: Improving Actionable Interpretability of Graph Multilinear Networks via Meta-Learning Filtration [6.102559098873098]
本稿ではメタGMTというメタラーニングフレームワークを提案する。
その結果,MetaGMTは説明品質(AUC-ROC,Precision@K)とスプリアスパターンに対するロバスト性の両方を著しく改善することがわかった。
我々の研究は、現実世界のアプリケーションのためのより信頼性が高く実用的なGNNシステムの構築に寄与します。
論文 参考訳(メタデータ) (2025-05-26T03:07:58Z) - Pay Attention to What and Where? Interpretable Feature Extractor in Vision-based Deep Reinforcement Learning [2.713322720372114]
説明可能な深層強化学習における現在のアプローチは、視覚入力中の物体に注意マスクが変位する制限がある。
本研究では,エージェントが空間領域に集中している「何」と「どこに」の両方を正確に表現するために,正確な注意マスクを生成するための解釈可能な特徴外的アーキテクチャを提案する。
得られたアテンションマスクは、人間によって一貫性があり、空間次元が正確であり、視覚入力における重要な物体や位置を効果的に強調する。
論文 参考訳(メタデータ) (2025-04-14T10:18:34Z) - Every SAM Drop Counts: Embracing Semantic Priors for Multi-Modality Image Fusion and Beyond [52.486290612938895]
本稿では,Segment Anything Model (SAM) のセグメンテーションモデルからのセグメンテーション知識を利用して,融合結果の質を向上し,下流タスク適応性を実現する手法を提案する。
具体的には、SAMから高レベルなセマンティック・セマンティック・セマンティック・セマンティック・セマンティック・アテンション(SPA)モジュールを抽出し、永続リポジトリを介してソース情報を効率的に保持する。
本手法は,実運用効率を維持しつつ,高品質な視覚結果と下流タスク適応性のバランスを実現する。
論文 参考訳(メタデータ) (2025-03-03T06:16:31Z) - Self-supervised Gait-based Emotion Representation Learning from Selective Strongly Augmented Skeleton Sequences [4.740624855896404]
自己教師型歩行に基づく感情表現のための選択的強強化を利用したコントラスト学習フレームワークを提案する。
提案手法はEmotion-Gait (E-Gait) と Emilya のデータセットで検証され, 異なる評価プロトコル下での最先端手法よりも優れている。
論文 参考訳(メタデータ) (2024-05-08T09:13:10Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。