論文の概要: Features that Make a Difference: Leveraging Gradients for Improved Dictionary Learning
- arxiv url: http://arxiv.org/abs/2411.10397v1
- Date: Fri, 15 Nov 2024 18:03:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-18 15:39:39.338720
- Title: Features that Make a Difference: Leveraging Gradients for Improved Dictionary Learning
- Title(参考訳): 違いを生かす特徴:改良辞書学習のための勾配の活用
- Authors: Jeffrey Olmo, Jared Wilson, Max Forsey, Bryce Hepner, Thomas Vin Howe, David Wingate,
- Abstract要約: スパースオートエンコーダ(SAE)は、ニューラルネットワーク表現を抽出するための有望なアプローチである。
我々は、TopKアクティベーション関数を増強することにより、$k$-sparseのオートエンコーダアーキテクチャを変更するGradient SAEを紹介する。
g-SAEが任意の文脈でモデルを操る上で平均的に効果的である潜伏者を学ぶ証拠が見つかる。
- 参考スコア(独自算出の注目度): 4.051777802443125
- License:
- Abstract: Sparse Autoencoders (SAEs) are a promising approach for extracting neural network representations by learning a sparse and overcomplete decomposition of the network's internal activations. However, SAEs are traditionally trained considering only activation values and not the effect those activations have on downstream computations. This limits the information available to learn features, and biases the autoencoder towards neglecting features which are represented with small activation values but strongly influence model outputs. To address this, we introduce Gradient SAEs (g-SAEs), which modify the $k$-sparse autoencoder architecture by augmenting the TopK activation function to rely on the gradients of the input activation when selecting the $k$ elements. For a given sparsity level, g-SAEs produce reconstructions that are more faithful to original network performance when propagated through the network. Additionally, we find evidence that g-SAEs learn latents that are on average more effective at steering models in arbitrary contexts. By considering the downstream effects of activations, our approach leverages the dual nature of neural network features as both $\textit{representations}$, retrospectively, and $\textit{actions}$, prospectively. While previous methods have approached the problem of feature discovery primarily focused on the former aspect, g-SAEs represent a step towards accounting for the latter as well.
- Abstract(参考訳): スパースオートエンコーダ(SAE)は、ネットワークの内部アクティベーションのスパースでオーバーコンプリートな分解を学習することで、ニューラルネットワーク表現を抽出するための有望なアプローチである。
しかし、SAEは従来、活性化値のみを考慮して訓練されており、それらの活性化が下流の計算に与える影響は考慮されていない。
これにより、機能を学ぶために利用可能な情報が制限され、オートエンコーダは小さなアクティベーション値で表されるが、モデル出力に強く影響する特徴を無視する傾向にある。
これを解決するために、$k$要素を選択する際に入力アクティベーションの勾配に依存するようにTopKアクティベーション関数を拡張することで、$k$スパースオートエンコーダアーキテクチャを変更するグラディエントSAAE(g-SAEs)を導入する。
所定の空間レベルでは、g-SAEはネットワークを介して伝播する際に元のネットワーク性能に忠実な再構成を生成する。
さらに、g-SAEsが任意の文脈でモデルを操る上で平均的に効果的である潜伏者を学習する証拠が見つかる。
アクティベーションの下流効果を考慮することで、我々のアプローチはニューラルネットワークの機能の二重性を活用して、$\textit{representations}$, retrospectively, $\textit{actions}$, prospectivelyの2つにまとめる。
従来の手法は機能発見の問題に主に前者の側面に焦点を合わせてきたが、g-SAEは後者の会計への一歩である。
関連論文リスト
- Sparsing Law: Towards Large Language Models with Greater Activation Sparsity [62.09617609556697]
活性化空間性は、除去できる活性化出力の中に、かなり弱い分散要素が存在することを表す。
PPL-$p%$ sparsity, a accurate and performance-aware activation sparsity metric。
我々は、SiLUよりも活性化関数としてReLUが効率的であることを示し、より多くのトレーニングデータを利用してアクティベーション空間を改善することができることを示した。
論文 参考訳(メタデータ) (2024-11-04T17:59:04Z) - How Neural Networks Learn the Support is an Implicit Regularization Effect of SGD [2.05602972069314]
目的関数の支持を識別するディープニューラルネットワークの能力について検討する。
ミニバッチSGDは、入力の無関係成分に関連する重みをゼロにすることで、ネットワークの第1層の支持を効果的に学習する。
論文 参考訳(メタデータ) (2024-06-17T00:19:16Z) - Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - Data-aware customization of activation functions reduces neural network
error [0.35172332086962865]
本稿では,データ認識によるアクティベーション関数のカスタマイズにより,ニューラルネットワークのエラーが大幅に低減されることを示す。
既に精製されたニューラルネットワークにおけるカモメの活性化機能への簡単な置換は、エラーのオーダー・オブ・マグニチュードの低減につながる可能性がある。
論文 参考訳(メタデータ) (2023-01-16T23:38:37Z) - Adaptive Recursive Circle Framework for Fine-grained Action Recognition [95.51097674917851]
ビデオにおける微粒な空間時間ダイナミクスのモデル化は、アクション認識にとって難しい問題である。
既存のほとんどのメソッドは、純粋なフィードフォワード方式でレイヤの特徴を生成する。
本稿では,純粋なフィードフォワード層のための微細なデコレータであるAdaptive Recursive Circleフレームワークを提案する。
論文 参考訳(メタデータ) (2021-07-25T14:24:29Z) - SCARF: Self-Supervised Contrastive Learning using Random Feature
Corruption [72.35532598131176]
本稿では,特徴のランダムなサブセットを乱してビューを形成するコントラスト学習手法であるSCARFを提案する。
SCARFは既存の戦略を補完し、オートエンコーダのような代替手段より優れていることを示す。
論文 参考訳(メタデータ) (2021-06-29T08:08:33Z) - A Use of Even Activation Functions in Neural Networks [0.35172332086962865]
本稿では,データ構造に関する既存の知識や仮説を統合するために,独自のアクティベーション関数を構築する方法を提案する。
完全に接続されたレイヤの1つで偶発的なアクティベーション関数を使用することで、ニューラルネットワークの性能が向上することを示す。
論文 参考訳(メタデータ) (2020-11-23T20:33:13Z) - Lightweight Single-Image Super-Resolution Network with Attentive
Auxiliary Feature Learning [73.75457731689858]
本稿では,SISR の注意補助機能 (A$2$F) に基づく計算効率が高く正確なネットワークを構築した。
大規模データセットを用いた実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2020-11-13T06:01:46Z) - Self-Challenging Improves Cross-Domain Generalization [81.99554996975372]
畳み込みニューラルネットワーク(CNN)は、ラベルと相関する支配的特徴を活性化することにより、画像分類を行う。
ドメイン外データに対するCNNの一般化を著しく改善する簡単なトレーニングである自己整合表現(RSC)を導入する。
RSCはトレーニングデータ上で活性化される主要な機能に対して反復的に挑戦し、ラベルと相関する残りの機能を有効にするようネットワークに強制する。
論文 参考訳(メタデータ) (2020-07-05T21:42:26Z) - Soft-Root-Sign Activation Function [21.716884634290516]
SRS(Soft-Root-Sign)は滑らかで、非単調で有界である。
ReLUとは対照的に、SRSは独立したトレーニング可能なパラメータのペアによって出力を適応的に調整することができる。
我々のSRSはReLUや他の最先端の非線形性と一致または超えます。
論文 参考訳(メタデータ) (2020-03-01T18:38:11Z) - Investigating the interaction between gradient-only line searches and
different activation functions [0.0]
勾配専用線探索(GOLS)は、ニューラルネットワークトレーニングにおける不連続損失関数の探索方向に沿ったステップサイズを適応的に決定する。
GOLSは様々なアクティベーション機能に対して堅牢であるが,標準フィードフォワードアーキテクチャにおけるRectified Linear Unit(ReLU)アクティベーション機能に敏感であることがわかった。
論文 参考訳(メタデータ) (2020-02-23T12:28:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。