論文の概要: Learning Encoding-Decoding Direction Pairs to Unveil Concepts of Influence in Deep Vision Networks
- arxiv url: http://arxiv.org/abs/2509.23926v1
- Date: Sun, 28 Sep 2025 15:02:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.537027
- Title: Learning Encoding-Decoding Direction Pairs to Unveil Concepts of Influence in Deep Vision Networks
- Title(参考訳): ディープ・ビジョン・ネットワークにおけるエンコーディング・デコード・ディレクティブ・ペアの学習
- Authors: Alexandros Doumanoglou, Kurt Driessens, Dimitrios Zarpalas,
- Abstract要約: Empical evidence shows that deep vision network presented concept as direction in latent space, vectors called concept embeddeds。
与えられたパッチに対して、複数の潜伏因子は、概念埋め込みを係数として線形に結合することでコンパクト表現に符号化される。
潜在因子は、デコード方向と呼ばれるベクトルであるフィルタで内部積を介して回収することができる。
- 参考スコア(独自算出の注目度): 43.473390101413166
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Empirical evidence shows that deep vision networks represent concepts as directions in latent space, vectors we call concept embeddings. Each concept has a latent factor-a scalar-indicating its presence in an input patch. For a given patch, multiple latent factors are encoded into a compact representation by linearly combining concept embeddings, with the factors as coefficients. Since these embeddings enable such encoding, we call them encoding directions. A latent factor can be recovered via the inner product with a filter, a vector we call a decoding direction. These encoding-decoding direction pairs are not directly accessible, but recovering them helps open the black box of deep networks, enabling understanding, debugging, and improving models. Decoder directions attribute meaning to latent codes, while encoding directions assess concept influence on predictions, with both enabling model correction by unlearning irrelevant concepts. Unlike prior matrix decomposition, autoencoder, or dictionary learning methods that rely on feature reconstruction, we propose a new perspective: decoding directions are identified via directional clustering of activations, and encoding directions are estimated with signal vectors under a probabilistic view. We further leverage network weights through a novel technique, Uncertainty Region Alignment, which reveals interpretable directions affecting predictions. Our analysis shows that (a) on synthetic data, our method recovers ground-truth direction pairs; (b) on real data, decoding directions map to monosemantic, interpretable concepts and outperform unsupervised baselines; and (c) signal vectors faithfully estimate encoding directions, validated via activation maximization. Finally, we demonstrate applications in understanding global model behavior, explaining individual predictions, and intervening to produce counterfactuals or correct errors.
- Abstract(参考訳): 実験的な証拠は、ディープ・ビジョン・ネットワークが概念を潜在空間の方向、つまり概念埋め込み(concept embeddeds)と呼ぶベクトルとして表すことを示している。
各概念は、入力パッチにその存在を示す潜在因子、スカラーを持つ。
与えられたパッチに対して、複数の潜伏因子は、概念埋め込みを係数として線形に結合することでコンパクト表現に符号化される。
これらの埋め込みはそのような符号化を可能にするので、符号化方向と呼ぶ。
潜在因子は、デコード方向と呼ばれるベクトルであるフィルタで内部積を介して回収することができる。
これらのエンコーディング/デコーディングの方向ペアは直接アクセスできないが、それらを復元することで深層ネットワークのブラックボックスを開き、理解、デバッグ、モデルの改善を可能にする。
デコーダの指示は遅延符号に意味があり、エンコーディングの指示は予測に概念の影響を評価し、どちらも無関係な概念を学習することでモデル修正を可能にする。
特徴再構成に依存する以前の行列分解やオートエンコーダ、辞書学習とは異なり、復号方向はアクティベーションの方向クラスタリングによって同定され、符号化方向は確率的ビューの下で信号ベクトルで推定される。
さらに、予測に影響を及ぼす解釈可能な方向を明らかにする新しい手法である不確かさ領域アライメントにより、ネットワークの重みをさらに活用する。
私たちの分析は
(a) 合成データに基づき, 地対-地対を復元する。
b) 実データ上では、デコード方向は、単意味で解釈可能な概念にマップされ、教師なしのベースラインを上回る。
(c)信号ベクトルは、アクティベーション最大化により検証された符号化方向を忠実に推定する。
最後に,大域的モデル行動の理解,個人の予測の説明,介入による偽造行為や誤りの正しさを実証する。
関連論文リスト
- Discovering Concept Directions from Diffusion-based Counterfactuals via Latent Clustering [4.891597567642704]
概念に基づく説明は、説明可能な人工知能における効果的なアプローチとして現れている。
本研究は,グローバルなクラス固有の概念方向を抽出する遅延クラスタリング(CDLC)による概念指示を導入する。
このアプローチは、現実世界の皮膚病変データセットで検証される。
論文 参考訳(メタデータ) (2025-05-11T17:53:02Z) - Meta-Representational Predictive Coding: Biomimetic Self-Supervised Learning [51.22185316175418]
メタ表現予測符号化(MPC)と呼ばれる新しい予測符号化方式を提案する。
MPCは、並列ストリームにまたがる感覚入力の表現を予測することを学ぶことによって、感覚入力の生成モデルを学ぶ必要性を助長する。
論文 参考訳(メタデータ) (2025-03-22T22:13:14Z) - I Predict Therefore I Am: Is Next Token Prediction Enough to Learn Human-Interpretable Concepts from Data? [76.15163242945813]
大規模言語モデル (LLM) は、多くの人が知能の形式を示すと結論づけている。
本稿では,潜在離散変数として表現される人間解釈可能な概念に基づいてトークンを生成する新しい生成モデルを提案する。
論文 参考訳(メタデータ) (2025-03-12T01:21:17Z) - Local Concept Embeddings for Analysis of Concept Distributions in Vision DNN Feature Spaces [1.0923877073891446]
学習した潜伏表現に対する洞察は、コンピュータビジョンタスクのディープニューラルネットワーク(DNN)を検証する上で不可欠である。
本稿では,学習した概念分布の探索を可能にする新しいローカル概念分析フレームワークを提案する。
文脈感度にもかかわらず,提案手法のセグメンテーション性能はグローバルベースラインと競合する。
論文 参考訳(メタデータ) (2023-11-24T12:22:00Z) - Navigating Neural Space: Revisiting Concept Activation Vectors to Overcome Directional Divergence [13.618809162030486]
概念活性化ベクトル (Concept Activation Vectors, CAV) は、潜在空間における人間の理解可能な概念をモデル化するための一般的なツールである。
本稿では、そのような分離性指向の解が、概念の方向性を正確にモデル化する実際の目標から逸脱する可能性があることを示す。
パターンベースのCAVを導入し、概念信号のみに着目し、より正確な概念指示を提供する。
論文 参考訳(メタデータ) (2022-02-07T19:40:20Z) - Autoencoding Variational Autoencoder [56.05008520271406]
我々は,この行動が学習表現に与える影響と,自己整合性の概念を導入することでそれを修正する結果について検討する。
自己整合性アプローチで訓練されたエンコーダは、敵攻撃による入力の摂動に対して頑健な(無神経な)表現につながることを示す。
論文 参考訳(メタデータ) (2020-12-07T14:16:14Z) - Relaxing the Constraints on Predictive Coding Models [62.997667081978825]
予測符号化(英: Predictive coding)は、脳が行う主計算が予測誤差の最小化であるとする皮質機能の影響力のある理論である。
アルゴリズムの標準的な実装は、同じ前方と後方の重み、後方の非線形微分、1-1エラーユニット接続といった、潜在的に神経的に予測できない特徴を含んでいる。
本稿では,これらの特徴はアルゴリズムに不可欠なものではなく,Hebbianの更新ルールを用いてパラメータセットを直接あるいは学習することで,学習性能に悪影響を及ぼすことなく除去可能であることを示す。
論文 参考訳(メタデータ) (2020-10-02T15:21:37Z) - MetaSDF: Meta-learning Signed Distance Functions [85.81290552559817]
ニューラルな暗示表現で形状を一般化することは、各関数空間上の学習先行値に比例する。
形状空間の学習をメタラーニング問題として定式化し、勾配に基づくメタラーニングアルゴリズムを利用してこの課題を解決する。
論文 参考訳(メタデータ) (2020-06-17T05:14:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。