論文の概要: Probing the Probes: Methods and Metrics for Concept Alignment
- arxiv url: http://arxiv.org/abs/2511.04312v1
- Date: Thu, 06 Nov 2025 12:34:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-07 20:17:53.415563
- Title: Probing the Probes: Methods and Metrics for Concept Alignment
- Title(参考訳): プローブの探索:概念整合のための方法とメトリクス
- Authors: Jacob Lysnæs-Larsen, Marte Eggen, Inga Strümke,
- Abstract要約: 高いプローブ精度は、目標概念を忠実に表すCAVを示すと広く仮定されている。
我々は、プローブの分類精度のみが、概念アライメントの信頼性の低い尺度であることを示した。
本稿では,空間的線形属性に基づく新しい概念ローカライズ手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In explainable AI, Concept Activation Vectors (CAVs) are typically obtained by training linear classifier probes to detect human-understandable concepts as directions in the activation space of deep neural networks. It is widely assumed that a high probe accuracy indicates a CAV faithfully representing its target concept. However, we show that the probe's classification accuracy alone is an unreliable measure of concept alignment, i.e., the degree to which a CAV captures the intended concept. In fact, we argue that probes are more likely to capture spurious correlations than they are to represent only the intended concept. As part of our analysis, we demonstrate that deliberately misaligned probes constructed to exploit spurious correlations, achieve an accuracy close to that of standard probes. To address this severe problem, we introduce a novel concept localization method based on spatial linear attribution, and provide a comprehensive comparison of it to existing feature visualization techniques for detecting and mitigating concept misalignment. We further propose three classes of metrics for quantitatively assessing concept alignment: hard accuracy, segmentation scores, and augmentation robustness. Our analysis shows that probes with translation invariance and spatial alignment consistently increase concept alignment. These findings highlight the need for alignment-based evaluation metrics rather than probe accuracy, and the importance of tailoring probes to both the model architecture and the nature of the target concept.
- Abstract(参考訳): 説明可能なAIでは、概念活性化ベクトル(Concept Activation Vectors、CAV)は、一般的に、深いニューラルネットワークの活性化空間の方向として人間の理解可能な概念を検出するために線形分類器プローブを訓練することによって得られる。
高いプローブ精度は、目標概念を忠実に表すCAVを示すと広く仮定されている。
しかし、プローブの分類精度だけでは、CAVが意図した概念を捉える程度という、信頼性の低い概念アライメントの尺度であることが示される。
実際、我々は、プローブは意図された概念のみを表すよりも、突発的な相関を捉えやすいと論じている。
分析の一環として,スプリアス相関を生かし,標準プローブに近い精度を実現するために,意図的ミスアライメントプローブを構築した。
この問題に対処するために,空間的線形属性に基づく新しい概念ローカライゼーション手法を導入し,既存の特徴可視化技術と総合的に比較して,概念の誤りを検知・緩和する手法を提案する。
さらに, 精度, セグメンテーションスコア, 拡張ロバスト性という, 概念アライメントを定量的に評価するための3つの尺度を提案する。
解析の結果,変換不変性と空間整合性を有するプローブは連続的に概念整合性を高めていることがわかった。
これらの知見は、プローブの精度よりもアライメントに基づく評価指標の必要性と、モデルアーキテクチャとターゲット概念の性質の両方に対するプローブの調整の重要性を強調している。
関連論文リスト
- Ambiguity-aware Point Cloud Segmentation by Adaptive Margin Contrastive Learning [65.94127546086156]
本稿では,ポイントクラウド上のセマンティックセマンティックセグメンテーションのための適応的マージン比較学習法を提案する。
まず,両立度推定フレームワークにコントラスト学習を組み込んだAMContrast3Dを設計する。
共同トレーニングの洞察に触発されて、並列にトレーニングされた2つのブランチとAMContrast3D++を統合することを提案する。
論文 参考訳(メタデータ) (2025-07-09T07:00:32Z) - Uncovering Unique Concept Vectors through Latent Space Decomposition [0.0]
概念に基づく説明は、特徴帰属推定よりも解釈可能な優れたアプローチとして現れてきた。
本稿では,訓練中に深層モデルから学んだ概念を自動的に発見するポストホックな教師なし手法を提案する。
実験の結果、我々の概念の大部分は、人間にとって容易に理解でき、一貫性を示し、目の前の課題に関連があることが判明した。
論文 参考訳(メタデータ) (2023-07-13T17:21:54Z) - Learning Classifiers of Prototypes and Reciprocal Points for Universal
Domain Adaptation [79.62038105814658]
Universal Domainは、ドメインシフトとカテゴリシフトという2つのシフトを処理して、データセット間で知識を転送することを目的としている。
主な課題は、既知のクラス知識の分布をソースからターゲットに適応させながら、未知のターゲットサンプルを正しく識別することである。
既存のほとんどの手法は、まずターゲットが適応した既知の知識を訓練し、次に未知のターゲットサンプルを識別するために単一のしきい値に依存することでこの問題に対処する。
論文 参考訳(メタデータ) (2022-12-16T09:01:57Z) - Measuring the Interpretability of Unsupervised Representations via
Quantized Reverse Probing [97.70862116338554]
本稿では,自己教師付き表現の解釈可能性の測定問題について検討する。
我々は、後者を、表現と手動でラベル付けされた概念の空間の間の相互情報を推定するものとして定式化する。
提案手法は,多人数の自己教師付き表現の評価に利用し,解釈可能性による評価を行う。
論文 参考訳(メタデータ) (2022-09-07T16:18:50Z) - Exploring Concept Contribution Spatially: Hidden Layer Interpretation
with Spatial Activation Concept Vector [5.873416857161077]
コンセプトアクティベーションベクトル(TCAV)を使用したテストは、クエリ概念のターゲットクラスへのコントリビューションを定量化する強力なツールを提供する。
対象物が領域のごく一部しか占有していない画像の場合、TCAV評価は冗長な背景特徴によって妨害される可能性がある。
論文 参考訳(メタデータ) (2022-05-21T15:58:57Z) - Navigating Neural Space: Revisiting Concept Activation Vectors to Overcome Directional Divergence [13.618809162030486]
概念活性化ベクトル (Concept Activation Vectors, CAV) は、潜在空間における人間の理解可能な概念をモデル化するための一般的なツールである。
本稿では、そのような分離性指向の解が、概念の方向性を正確にモデル化する実際の目標から逸脱する可能性があることを示す。
パターンベースのCAVを導入し、概念信号のみに着目し、より正確な概念指示を提供する。
論文 参考訳(メタデータ) (2022-02-07T19:40:20Z) - Meta Learning Low Rank Covariance Factors for Energy-Based Deterministic
Uncertainty [58.144520501201995]
ニューラルネットワーク層のBi-Lipschitz正規化は、各レイヤの特徴空間におけるデータインスタンス間の相対距離を保存する。
注意セットエンコーダを用いて,タスク固有の共分散行列を効率的に構築するために,対角的,対角的,低ランクな要素のメタ学習を提案する。
また,最終的な予測分布を達成するために,スケールしたエネルギーを利用する推論手法を提案する。
論文 参考訳(メタデータ) (2021-10-12T22:04:19Z) - CertainNet: Sampling-free Uncertainty Estimation for Object Detection [65.28989536741658]
ニューラルネットワークの不確実性を推定することは、安全クリティカルな設定において基本的な役割を果たす。
本研究では,オブジェクト検出のための新しいサンプリング不要不確実性推定法を提案する。
私たちはそれをCertainNetと呼び、各出力信号に対して、オブジェクト性、クラス、位置、サイズという、別の不確実性を提供するのは、これが初めてです。
論文 参考訳(メタデータ) (2021-10-04T17:59:31Z) - Scope Head for Accurate Localization in Object Detection [135.9979405835606]
本研究では,各位置のアンカーを相互依存関係としてモデル化したScopeNetと呼ばれる新しい検出器を提案する。
我々の簡潔で効果的な設計により、提案したScopeNetはCOCOの最先端の成果を達成する。
論文 参考訳(メタデータ) (2020-05-11T04:00:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。