論文の概要: The Linear Centroids Hypothesis: How Deep Network Features Represent Data
- arxiv url: http://arxiv.org/abs/2604.11962v1
- Date: Mon, 13 Apr 2026 18:54:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.071428
- Title: The Linear Centroids Hypothesis: How Deep Network Features Represent Data
- Title(参考訳): 線形セントロイド仮説:ディープ・ネットワークがいかにデータを表現しているか
- Authors: Thomas Walker, Ahmed Imtiaz Humayun, Randall Balestriero, Richard Baraniuk,
- Abstract要約: 我々は、ディープネットワーク(DN)の特徴を特定するための新しいフレームワークとしてLCH(Linear Centroids hypothesis)を紹介した。
特徴を持つLCHは、局所領域におけるDNの機能的振舞いのベクトル要約であるセントロイドの線型方向に対応する。
我々は、DINOビジョントランスのためのスペーサー機能辞書を出力し、下流タスクでもより優れた性能を発揮することを示した。
- 参考スコア(独自算出の注目度): 21.349538149185417
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Identifying and understanding the features that a deep network (DN) extracts from its inputs to produce its outputs is a focal point of interpretability research. The Linear Representation Hypothesis (LRH) identifies features in terms of the linear directions formed by the inputs in a DN's latent space. However, the LRH is limited as it abstracts away from individual components (e.g., neurons and layers), is susceptible to identifying spurious features, and cannot be applied across sub-components (e.g., multiple layers). In this paper, we introduce the Linear Centroids Hypothesis (LCH) as a new framework for identifying the features of a DN. The LCH posits that features correspond to linear directions of centroids, which are vector summarizations of the functional behavior of a DN in a local region of its input space. Interpretability studies under the LCH can leverage existing LRH tools, such as sparse autoencoders, by applying them to the DN's centroids rather than to its latent activations. We demonstrate that doing so yields sparser feature dictionaries for DINO vision transformers, which also perform better on downstream tasks. The LCH also inspires novel approaches to interpretability; for example, LCH can readily identify circuits in GPT2-Large. For code to study the LCH https://github.com/ThomasWalker1/LinearCentroidsHypothesis .
- Abstract(参考訳): 深層ネットワーク(DN)が入力から抽出して出力を生成する特徴を特定し理解することは、解釈可能性研究の焦点である。
リニア表現仮説(Linear Representation hypothesis, LRH)は、DNの潜在空間における入力によって形成される線形方向の特徴を識別する。
しかし、LRHは個々の構成要素(例えば神経細胞や層)から切り離され、刺激的な特徴を特定することができ、サブコンポーネント(例えば、複数の層)で適用できないため、制限されている。
本稿では,DNの特徴を識別する新しいフレームワークとして線形セントロイド仮説(LCH)を紹介する。
特徴を持つLCHは、入力空間の局所領域におけるDNの機能的挙動のベクトル要約であるセントロイドの線型方向に対応する。
LCHの下での解釈可能性の研究は、スパースオートエンコーダのような既存のLRHツールを活用することができる。
我々は、DINOビジョントランスのためのスペーサー機能辞書を出力し、下流タスクでもより優れた性能を発揮することを示した。
例えば、LCHはGPT2-Largeの回路を容易に識別できる。
LCH https://github.com/ThomasWalker1/LinearCentroidsHypothesis を学習するためのコード。
関連論文リスト
- Step-Level Sparse Autoencoder for Reasoning Process Interpretation [48.99201531966593]
大規模言語モデル(LLM)は、Chain-of-Thought(CoT)推論を通じて、強力な複雑な推論機能を実現している。
本稿では,ステップレベルスパースオートエンコーダ (SSAE) を提案する。
複数の基本モデルと推論タスクの実験により,抽出した特徴の有効性が示された。
論文 参考訳(メタデータ) (2026-03-03T14:25:02Z) - Decomposing MLP Activations into Interpretable Features via Semi-Nonnegative Matrix Factorization [17.101290138120564]
現在の手法は、スパースオートエンコーダ(SAE)を用いた辞書学習に依存している。
ここでは、セミ非負行列分解(SNMF)によるアクティベーションを直接分解することで、これらの制限に対処する。
Llama 3.1, Gemma 2, GPT-2の実験では、SNMFはSAEよりも優れており、因果的ステアリングに強い教師付きベースライン(差-in-means)がある。
論文 参考訳(メタデータ) (2025-06-12T17:33:29Z) - Efficient Identity and Position Graph Embedding via Spectral-Based Random Feature Aggregation [37.25217644507099]
グラフニューラルネットワーク(GNN)は、機能集約機構を通じてグラフ構造をキャプチャする。
ほとんどのGNNベースのメソッドでは、キャプチャ可能なプロパティが不明確である。
本稿では,効率的なアイデンティティと位置埋め込みのためのランダム特徴集約(RFA)を提案する。
論文 参考訳(メタデータ) (2025-05-27T10:26:15Z) - Recurrent Neural Networks Learn to Store and Generate Sequences using Non-Linear Representations [54.17275171325324]
線形表現仮説(LRH)に対する反例を提示する。
入力トークンシーケンスを繰り返すように訓練されると、ニューラルネットワークは、方向ではなく、特定の順序で各位置のトークンを表現することを学ぶ。
これらの結果は、解釈可能性の研究はLRHに限定されるべきでないことを強く示唆している。
論文 参考訳(メタデータ) (2024-08-20T15:04:37Z) - Local Linear Recovery Guarantee of Deep Neural Networks at Overparameterization [3.3998740964877463]
局所線形リカバリ (LLR) は, 目標関数リカバリの弱い形式である。
より狭いDNNで表現可能な関数は、モデルパラメータよりも少ないサンプルから復元可能であることを証明した。
論文 参考訳(メタデータ) (2024-06-26T03:08:24Z) - Exploring Linear Feature Disentanglement For Neural Networks [63.20827189693117]
Sigmoid、ReLU、Tanhなどの非線形活性化関数は、ニューラルネットワーク(NN)において大きな成功を収めた。
サンプルの複雑な非線形特性のため、これらの活性化関数の目的は、元の特徴空間から線形分離可能な特徴空間へサンプルを投影することである。
この現象は、現在の典型的なNNにおいて、すべての特徴がすべての非線形関数によって変換される必要があるかどうかを探求することに興味をそそる。
論文 参考訳(メタデータ) (2022-03-22T13:09:17Z) - DeHIN: A Decentralized Framework for Embedding Large-scale Heterogeneous
Information Networks [64.62314068155997]
本稿では,異種情報ネットワーク(DeHIN)のための分散埋め込みフレームワークについて述べる。
DeHINは、大きなHINをハイパーグラフとして革新的に定式化するコンテキスト保存分割機構を提供する。
当社のフレームワークでは,木のようなパイプラインを採用することで,効率よくHINを分割する分散戦略を採用しています。
論文 参考訳(メタデータ) (2022-01-08T04:08:36Z) - Regularized Deep Linear Discriminant Analysis [26.08062442399418]
古典的な線形判別解析(LDA)の非線形拡張として、Deep Linear Discriminant Analysis(DLDA)は元のCategorical Cross Entropy(CCE)損失関数を置き換える。
各次元の識別能力を高めるために, クラス内散乱行列の正則化法を提案する。
論文 参考訳(メタデータ) (2021-05-15T03:54:32Z) - Adaptive Linear Span Network for Object Skeleton Detection [56.78705071830965]
本研究では,適応線形スパンネットワーク(AdaLSN)を提案する。
AdaLSNは、精度とレイテンシのトレードオフを著しく高めることで、その汎用性を裏付ける。
また、エッジ検出や道路抽出といったイメージ・ツー・マスクのタスクに適用可能であることも示している。
論文 参考訳(メタデータ) (2020-11-08T12:51:14Z) - Neural Anisotropy Directions [63.627760598441796]
我々は、アーキテクチャの方向性誘導バイアスをカプセル化するベクトルとして、神経異方性方向(NAD)を定義する。
CIFAR-10データセットでは、NADはCNNが異なるクラス間で識別するために使用する特徴を特徴付ける。
論文 参考訳(メタデータ) (2020-06-17T08:36:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。