論文の概要: Concept activation vectors: a unifying view and adversarial attacks
- arxiv url: http://arxiv.org/abs/2509.22755v1
- Date: Fri, 26 Sep 2025 09:22:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:18.855743
- Title: Concept activation vectors: a unifying view and adversarial attacks
- Title(参考訳): 概念活性化ベクトル:統一的な視点と敵攻撃
- Authors: Ekkehard Schnoor, Malik Tiomoko, Jawher Said, Alex Jung, Wojciech Samek,
- Abstract要約: コンセプトアクティベーションベクトル(Concept Activation Vectors、CAV)は、説明可能なAIのツールである。
それらは、概念クラスまたは非概念の例に属する入力の隠れ層活性化から計算される。
確率論的観点を採用すると、(非)概念入力の分布はCAV上の分布を誘導し、潜在空間におけるランダムなベクトルとなる。
- 参考スコア(独自算出の注目度): 18.52226950411775
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Concept Activation Vectors (CAVs) are a tool from explainable AI, offering a promising approach for understanding how human-understandable concepts are encoded in a model's latent spaces. They are computed from hidden-layer activations of inputs belonging either to a concept class or to non-concept examples. Adopting a probabilistic perspective, the distribution of the (non-)concept inputs induces a distribution over the CAV, making it a random vector in the latent space. This enables us to derive mean and covariance for different types of CAVs, leading to a unified theoretical view. This probabilistic perspective also reveals a potential vulnerability: CAVs can strongly depend on the rather arbitrary non-concept distribution, a factor largely overlooked in prior work. We illustrate this with a simple yet effective adversarial attack, underscoring the need for a more systematic study.
- Abstract(参考訳): コンセプトアクティベーションベクトル(Concept Activation Vectors, CAV)は、人間の理解可能な概念がモデルの潜在空間にどのようにエンコードされているかを理解するための有望なアプローチを提供する、説明可能なAIのツールである。
それらは、概念クラスまたは非概念の例に属する入力の隠れ層活性化から計算される。
確率論的観点を採用すると、(非)概念入力の分布はCAV上の分布を誘導し、潜在空間におけるランダムなベクトルとなる。
これにより、異なる種類のCAVに対して平均と共分散を導出することができ、統一された理論的な見方へと繋がる。
CAVは比較的任意の非概念分布に強く依存しており、これは以前の作業でほとんど見落とされた要素である。
より体系的な研究の必要性を浮き彫りにしながら、単純だが効果的な敵攻撃でこれを説明します。
関連論文リスト
- I Predict Therefore I Am: Is Next Token Prediction Enough to Learn Human-Interpretable Concepts from Data? [76.15163242945813]
大規模言語モデル (LLM) は、多くの人が知能の形式を示すと結論づけている。
本稿では,潜在離散変数として表現される人間解釈可能な概念に基づいてトークンを生成する新しい生成モデルを提案する。
論文 参考訳(メタデータ) (2025-03-12T01:21:17Z) - Concept Arithmetics for Circumventing Concept Inhibition in Diffusion Models [58.065255696601604]
拡散モデルの合成特性を使い、単一の画像生成において複数のプロンプトを利用することができる。
本論では, 画像生成の可能なすべてのアプローチを, 相手が適用可能な拡散モデルで検討することが重要であると論じる。
論文 参考訳(メタデータ) (2024-04-21T16:35:16Z) - Concept Distillation: Leveraging Human-Centered Explanations for Model
Improvement [3.026365073195727]
概念活性化ベクトル(Concept Activation Vectors, CAV)は、ある概念に対するモデルの感度と潜在的なバイアスを推定する。
微調整によりモデルバイアスを低減するため,CAVをポストホック解析からアンテホックトレーニングに拡張する。
本稿では,いくつかの分類問題に対する概念感受性トレーニングの応用について述べる。
論文 参考訳(メタデータ) (2023-11-26T14:00:14Z) - Local Concept Embeddings for Analysis of Concept Distributions in Vision DNN Feature Spaces [1.0923877073891446]
学習した潜伏表現に対する洞察は、コンピュータビジョンタスクのディープニューラルネットワーク(DNN)を検証する上で不可欠である。
本稿では,学習した概念分布の探索を可能にする新しいローカル概念分析フレームワークを提案する。
文脈感度にもかかわらず,提案手法のセグメンテーション性能はグローバルベースラインと競合する。
論文 参考訳(メタデータ) (2023-11-24T12:22:00Z) - Robust Transferable Feature Extractors: Learning to Defend Pre-Trained
Networks Against White Box Adversaries [69.53730499849023]
また, 予測誤差を誘導するために, 逆例を独立に学習した別のモデルに移すことが可能であることを示す。
本稿では,頑健な伝達可能な特徴抽出器(RTFE)と呼ばれる,ディープラーニングに基づく事前処理機構を提案する。
論文 参考訳(メタデータ) (2022-09-14T21:09:34Z) - Concept Gradient: Concept-based Interpretation Without Linear Assumption [77.96338722483226]
概念活性化ベクトル(Concept Activation Vector, CAV)は、与えられたモデルと概念の潜在表現の間の線形関係を学習することに依存する。
我々は、線形概念関数を超えて概念に基づく解釈を拡張する概念グラディエント(CG)を提案した。
我々は、CGがおもちゃの例と実世界のデータセットの両方でCAVより優れていることを実証した。
論文 参考訳(メタデータ) (2022-08-31T17:06:46Z) - Exploring Concept Contribution Spatially: Hidden Layer Interpretation
with Spatial Activation Concept Vector [5.873416857161077]
コンセプトアクティベーションベクトル(TCAV)を使用したテストは、クエリ概念のターゲットクラスへのコントリビューションを定量化する強力なツールを提供する。
対象物が領域のごく一部しか占有していない画像の場合、TCAV評価は冗長な背景特徴によって妨害される可能性がある。
論文 参考訳(メタデータ) (2022-05-21T15:58:57Z) - Navigating Neural Space: Revisiting Concept Activation Vectors to Overcome Directional Divergence [13.618809162030486]
概念活性化ベクトル (Concept Activation Vectors, CAV) は、潜在空間における人間の理解可能な概念をモデル化するための一般的なツールである。
本稿では、そのような分離性指向の解が、概念の方向性を正確にモデル化する実際の目標から逸脱する可能性があることを示す。
パターンベースのCAVを導入し、概念信号のみに着目し、より正確な概念指示を提供する。
論文 参考訳(メタデータ) (2022-02-07T19:40:20Z) - Learning to Separate Clusters of Adversarial Representations for Robust
Adversarial Detection [50.03939695025513]
本稿では,最近導入された非破壊的特徴を動機とした新しい確率的対向検出器を提案する。
本稿では,非ロバスト特徴を逆例の共通性と考え,その性質に対応する表現空間におけるクラスターの探索が可能であることを推定する。
このアイデアは、別のクラスタ内の逆表現の確率推定分布を導出し、その分布を確率に基づく逆検出器として活用する。
論文 参考訳(メタデータ) (2020-12-07T07:21:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。