論文の概要: GCAV: A Global Concept Activation Vector Framework for Cross-Layer Consistency in Interpretability
- arxiv url: http://arxiv.org/abs/2508.21197v2
- Date: Tue, 09 Sep 2025 20:57:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-11 17:24:19.809471
- Title: GCAV: A Global Concept Activation Vector Framework for Cross-Layer Consistency in Interpretability
- Title(参考訳): GCAV: 解釈性における相互整合性のためのグローバルな概念活性化ベクトルフレームワーク
- Authors: Zhenghao He, Sanchit Sinha, Guangzhi Xiong, Aidong Zhang,
- Abstract要約: 概念活性化ベクトル(CAV)は、人間の定義した概念に対する感度を定量化することによって、ディープニューラルネットワークを解釈するための強力なアプローチを提供する。
異なる層で独立に計算されると、CAVは不整合を示すことが多く、層間比較は信頼性が低い。
我々は,CAVを単一の意味的に一貫した表現に統一する新しいフレームワークであるGlobal Concept Activation Vector (GCAV)を提案する。
- 参考スコア(独自算出の注目度): 41.6338086518055
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Concept Activation Vectors (CAVs) provide a powerful approach for interpreting deep neural networks by quantifying their sensitivity to human-defined concepts. However, when computed independently at different layers, CAVs often exhibit inconsistencies, making cross-layer comparisons unreliable. To address this issue, we propose the Global Concept Activation Vector (GCAV), a novel framework that unifies CAVs into a single, semantically consistent representation. Our method leverages contrastive learning to align concept representations across layers and employs an attention-based fusion mechanism to construct a globally integrated CAV. By doing so, our method significantly reduces the variance in TCAV scores while preserving concept relevance, ensuring more stable and reliable concept attributions. To evaluate the effectiveness of GCAV, we introduce Testing with Global Concept Activation Vectors (TGCAV) as a method to apply TCAV to GCAV-based representations. We conduct extensive experiments on multiple deep neural networks, demonstrating that our method effectively mitigates concept inconsistency across layers, enhances concept localization, and improves robustness against adversarial perturbations. By integrating cross-layer information into a coherent framework, our method offers a more comprehensive and interpretable understanding of how deep learning models encode human-defined concepts. Code and models are available at https://github.com/Zhenghao-He/GCAV.
- Abstract(参考訳): 概念活性化ベクトル(CAV)は、人間の定義した概念に対する感度を定量化することによって、ディープニューラルネットワークを解釈するための強力なアプローチを提供する。
しかし、異なる層で独立に計算されると、CAVは不整合を示すことが多く、層間比較は信頼性が低い。
そこで我々は,CAVを単一の意味的に一貫した表現に統一する新しいフレームワークであるGlobal Concept Activation Vector (GCAV)を提案する。
提案手法は,コントラスト学習を利用してレイヤ間の概念表現を整合させ,関心に基づく融合機構を用いてグローバルに統合されたCAVを構築する。
提案手法は,概念関連性を維持しつつ,TCAVスコアのばらつきを著しく低減し,より安定かつ信頼性の高い概念属性を確実にする。
GCAVの有効性を評価するために、GCAVに基づく表現にTCAVを適用する方法として、TGCAV(Testing with Global Concept Activation Vectors)を導入する。
我々は,複数の深層ニューラルネットワークに関する広範な実験を行い,この手法が層間における概念の不整合を効果的に軽減し,概念の局在性を高め,対向的摂動に対する堅牢性を向上させることを実証した。
階層間情報をコヒーレントなフレームワークに統合することにより、ディープラーニングモデルがどのように人間の定義した概念をエンコードするかをより包括的かつ解釈可能な理解を提供する。
コードとモデルはhttps://github.com/Zhenghao-He/GCAVで公開されている。
関連論文リスト
- Interpretable Reward Modeling with Active Concept Bottlenecks [54.00085739303773]
本稿では,解釈可能な嗜好学習を可能にする報酬モデリングフレームワークであるConcept Bottleneck Reward Models (CB-RM)を紹介する。
不透明報酬関数に依存する標準的なRLHF法とは異なり、CB-RMは報酬予測を人間の解釈可能な概念に分解する。
我々は,最も情報性の高い概念ラベルを動的に取得する能動的学習戦略を定式化する。
論文 参考訳(メタデータ) (2025-07-07T06:26:04Z) - Interpretable Few-Shot Image Classification via Prototypical Concept-Guided Mixture of LoRA Experts [79.18608192761512]
自己説明可能なモデル(SEM)は、視覚認識プロセスをより解釈可能なものにするために、プロトタイプ概念学習(PCL)に依存している。
パラメトリック不均衡と表現の不整合という2つの重要な課題を緩和するFew-Shotプロトタイプ概念分類フレームワークを提案する。
我々のアプローチは、既存のSEMを顕著な差で常に上回っており、5-way 5-shot分類では4.2%-8.7%の相対的な利得がある。
論文 参考訳(メタデータ) (2025-06-05T06:39:43Z) - FastCAV: Efficient Computation of Concept Activation Vectors for Explaining Deep Neural Networks [10.20676488210292]
概念活性化ベクトル(Concept Activation Vectors, CAV)は、モデルが概念を学んだかどうかを識別する。
FastCAVは、CAVの抽出を最大63.6倍(平均46.4倍)加速する新しいアプローチである。
論文 参考訳(メタデータ) (2025-05-23T13:31:54Z) - Enhancing Graph Contrastive Learning with Reliable and Informative Augmentation for Recommendation [84.45144851024257]
離散コードによるより強力な協調情報を用いて、コントラスト的なビューを構築することにより、グラフのコントラスト学習を強化することを目的とした、新しいフレームワークを提案する。
中心となる考え方は、ユーザとアイテムを協調情報に富んだ離散コードにマッピングし、信頼性と情報に富んだコントラッシブなビュー生成を可能にすることである。
論文 参考訳(メタデータ) (2024-09-09T14:04:17Z) - Visual Concept Connectome (VCC): Open World Concept Discovery and their Interlayer Connections in Deep Models [21.245185285617698]
視覚概念接続(VCC)は、人間の解釈可能な概念とその層間接続を、完全に教師なしの方法で発見する。
提案手法は,すべての層にまたがる接続重み付けを同時に実現し,ネットワーク構造のグローバルな解析に有効である。
論文 参考訳(メタデータ) (2024-04-02T18:40:55Z) - Exploring Concept Contribution Spatially: Hidden Layer Interpretation
with Spatial Activation Concept Vector [5.873416857161077]
コンセプトアクティベーションベクトル(TCAV)を使用したテストは、クエリ概念のターゲットクラスへのコントリビューションを定量化する強力なツールを提供する。
対象物が領域のごく一部しか占有していない画像の場合、TCAV評価は冗長な背景特徴によって妨害される可能性がある。
論文 参考訳(メタデータ) (2022-05-21T15:58:57Z) - Navigating Neural Space: Revisiting Concept Activation Vectors to Overcome Directional Divergence [13.618809162030486]
概念活性化ベクトル (Concept Activation Vectors, CAV) は、潜在空間における人間の理解可能な概念をモデル化するための一般的なツールである。
本稿では、そのような分離性指向の解が、概念の方向性を正確にモデル化する実際の目標から逸脱する可能性があることを示す。
パターンベースのCAVを導入し、概念信号のみに着目し、より正確な概念指示を提供する。
論文 参考訳(メタデータ) (2022-02-07T19:40:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。