論文の概要: Mechanistic Permutability: Match Features Across Layers
- arxiv url: http://arxiv.org/abs/2410.07656v2
- Date: Tue, 15 Oct 2024 08:47:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-31 15:46:26.768605
- Title: Mechanistic Permutability: Match Features Across Layers
- Title(参考訳): メカニスティックな不変性:レイヤ間のマッチング機能
- Authors: Nikita Balagansky, Ian Maksimov, Daniil Gavrilov,
- Abstract要約: SAE Matchは、ニューラルネットワークの異なる層にまたがってSAE機能を整列するための、新しいデータフリーな手法である。
我々の研究は、ニューラルネットワークにおける特徴力学の理解を深め、機械論的解釈可能性研究のための新しいツールを提供する。
- 参考スコア(独自算出の注目度): 4.2056926734482065
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding how features evolve across layers in deep neural networks is a fundamental challenge in mechanistic interpretability, particularly due to polysemanticity and feature superposition. While Sparse Autoencoders (SAEs) have been used to extract interpretable features from individual layers, aligning these features across layers has remained an open problem. In this paper, we introduce SAE Match, a novel, data-free method for aligning SAE features across different layers of a neural network. Our approach involves matching features by minimizing the mean squared error between the folded parameters of SAEs, a technique that incorporates activation thresholds into the encoder and decoder weights to account for differences in feature scales. Through extensive experiments on the Gemma 2 language model, we demonstrate that our method effectively captures feature evolution across layers, improving feature matching quality. We also show that features persist over several layers and that our approach can approximate hidden states across layers. Our work advances the understanding of feature dynamics in neural networks and provides a new tool for mechanistic interpretability studies.
- Abstract(参考訳): ディープニューラルネットワークの層にまたがって機能がどのように進化するかを理解することは、特に多意味性や特徴重畳による機械的解釈の根本的な課題である。
Sparse Autoencoders (SAEs) は個々のレイヤから解釈可能な機能を抽出するために使われてきたが、これらの機能をレイヤ間で整列させることは、未解決の問題のままである。
本稿では,ニューラルネットワークの異なる層にまたがってSAE特徴を整列させる新しいデータフリー手法であるSAE Matchを紹介する。
SAEの折りたたみパラメータ間の平均2乗誤差を最小化することで,特徴量の差を考慮に入れたエンコーダとデコーダの重みにアクティベーションしきい値を組み込む手法を提案する。
Gemma 2言語モデルに関する広範な実験を通じて,提案手法が階層間の機能進化を効果的に捉え,特徴マッチングの品質を向上させることを実証した。
また、複数の層にまたがる機能や、階層にまたがる隠れた状態を近似できるアプローチも示しています。
我々の研究は、ニューラルネットワークにおける特徴力学の理解を深め、機械論的解釈可能性研究のための新しいツールを提供する。
関連論文リスト
- Evolution of SAE Features Across Layers in LLMs [1.5728609542259502]
隣接層における特徴間の統計的関係を解析し, 前方通過による特徴の進化を理解する。
私たちは、機能とその最もよく似た隣人のためのグラフ視覚化インターフェイスを提供し、レイヤ間で関連する機能のコミュニティを構築します。
論文 参考訳(メタデータ) (2024-10-11T14:46:49Z) - Noise-Resilient Unsupervised Graph Representation Learning via Multi-Hop Feature Quality Estimation [53.91958614666386]
グラフニューラルネットワーク(GNN)に基づく教師なしグラフ表現学習(UGRL)
マルチホップ特徴量推定(MQE)に基づく新しいUGRL法を提案する。
論文 参考訳(メタデータ) (2024-07-29T12:24:28Z) - Understanding Deep Representation Learning via Layerwise Feature
Compression and Discrimination [33.273226655730326]
深層線形ネットワークの各層は、幾何速度でクラス内特徴を徐々に圧縮し、線形速度でクラス間特徴を識別することを示す。
これは、ディープ線形ネットワークの階層的表現における特徴進化の最初の定量的評価である。
論文 参考訳(メタデータ) (2023-11-06T09:00:38Z) - Reparameterization through Spatial Gradient Scaling [69.27487006953852]
リパラメータ化は、学習中に畳み込み層を等価なマルチブランチ構造に変換することによって、ディープニューラルネットワークの一般化を改善することを目的としている。
本稿では,畳み込みネットワークにおける重み間の学習焦点を再分配する空間勾配スケーリング手法を提案する。
論文 参考訳(メタデータ) (2023-03-05T17:57:33Z) - WLD-Reg: A Data-dependent Within-layer Diversity Regularizer [98.78384185493624]
ニューラルネットワークは、勾配に基づく最適化と共同で訓練された階層構造に配置された複数の層で構成されている。
我々は、この従来の「中間層」フィードバックを補うために、同じ層内での活性化の多様性を促進するために、追加の「中間層」フィードバックを補うことを提案する。
本稿では,提案手法が複数のタスクにおける最先端ニューラルネットワークモデルの性能を向上させることを実証した広範な実証研究を提案する。
論文 参考訳(メタデータ) (2023-01-03T20:57:22Z) - Semantic-aware Texture-Structure Feature Collaboration for Underwater
Image Enhancement [58.075720488942125]
水中画像の強調は海洋工学や水生ロボット工学において重要な技術として注目されている。
我々は,高レベルな意味認識事前学習モデルと協調して,効率的でコンパクトな拡張ネットワークを開発する。
また,提案手法を水中の有意な物体検出タスクに適用し,高レベルの視覚タスクに適した意味認識能力を明らかにする。
論文 参考訳(メタデータ) (2022-11-19T07:50:34Z) - Exploiting Explainable Metrics for Augmented SGD [43.00691899858408]
最適化下での学習が実際にどのように機能するか、また、特定の戦略が他の方法よりも優れている理由について、未解決の疑問がいくつかある。
ネットワーク層内の冗長な情報を計測する新しい説明可能性指標を提案する。
次に、これらの指標を利用して、各レイヤの学習率を適応的に調整し、一般化性能を向上させることにより、グラディエント・ディフレッシュ(SGD)を増大させる。
論文 参考訳(メタデータ) (2022-03-31T00:16:44Z) - Learning distinct features helps, provably [98.78384185493624]
最小二乗損失で訓練された2層ニューラルネットワークによって学習された特徴の多様性について検討する。
隠蔽層の特徴間の平均的な$L$-distanceで多様性を測定する。
論文 参考訳(メタデータ) (2021-06-10T19:14:45Z) - Global Context-Aware Progressive Aggregation Network for Salient Object
Detection [117.943116761278]
我々は,低レベルな外観特徴,高レベルな意味特徴,グローバルな文脈特徴を統合化するための新しいネットワークGCPANetを提案する。
提案手法は, 定量的かつ定性的に, 最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-03-02T04:26:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。