論文の概要: Improving Sparse Autoencoder with Dynamic Attention
- arxiv url: http://arxiv.org/abs/2604.14925v1
- Date: Thu, 16 Apr 2026 12:10:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 21:29:31.883459
- Title: Improving Sparse Autoencoder with Dynamic Attention
- Title(参考訳): ダイナミックアテンションによるスパースオートエンコーダの改良
- Authors: Dongsheng Wang, Jinsen Zhang, Dawei Su, Hui Huang,
- Abstract要約: 本稿では,キーおよび値行列として潜在機能と学習可能な辞書を備えた,クロスアテンションアーキテクチャに基づくSAEの新しいクラスを提案する。
スパースパターン学習を促進するために、各ニューロンの複雑さに応じてスパース要素を自動推論するスパースマックスに基づくアテンション戦略を採用する。
- 参考スコア(独自算出の注目度): 8.50973639447688
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, sparse autoencoders (SAEs) have emerged as a promising technique for interpreting activations in foundation models by disentangling features into a sparse set of concepts. However, identifying the optimal level of sparsity for each neuron remains challenging in practice: excessive sparsity can lead to poor reconstruction, whereas insufficient sparsity may harm interpretability. While existing activation functions such as ReLU and TopK provide certain sparsity guarantees, they typically require additional sparsity regularization or cherry-picked hyperparameters. We show in this paper that dynamically sparse attention mechanisms using sparsemax can bridge this trade-off, due to their ability to determine the activation numbers in a data-dependent manner. Specifically, we first explore a new class of SAEs based on the cross-attention architecture with the latent features as queries and the learnable dictionary as the key and value matrices. To encourage sparse pattern learning, we employ a sparsemax-based attention strategy that automatically infers a sparse set of elements according to the complexity of each neuron, resulting in a more flexible and general activation function. Through comprehensive evaluation and visualization, we show that our approach successfully achieves lower reconstruction loss while producing high-quality concepts, particularly in top-n classification tasks.
- Abstract(参考訳): 近年, スパースオートエンコーダ (SAE) は, 特徴をスパースの概念に分解することで, 基礎モデルのアクティベーションを解釈するための有望な手法として出現している。
しかし、各ニューロンに最適なスパーシリティのレベルを特定することは実際は困難であり、過剰なスパーシリティは再構成不良を引き起こすが、不十分なスパーシリティは解釈可能性に悪影響を及ぼす可能性がある。
ReLUやTopKのような既存のアクティベーション関数は、特定のスパーシティ保証を提供するが、通常、追加のスパーシティ正規化やチェリーピックされたハイパーパラメータを必要とする。
本稿では,データ依存方式でアクティベーション数を決定する能力により,スパースマックスを用いた動的スパークスアテンション機構が,このトレードオフを橋渡しできることを示す。
具体的には、まず、クエリーとしての潜在機能とキーおよび値行列としての学習可能な辞書を備えた、クロスアテンションアーキテクチャに基づく新しいSAEのクラスを探索する。
スパースパターン学習を促進するために、各ニューロンの複雑さに応じてスパース要素群を自動的に推論するスパースマックスに基づくアテンション戦略を採用し、より柔軟で一般的なアクティベーション機能を実現する。
包括的評価と可視化により,提案手法は,特にトップn分類タスクにおいて,高品質な概念を創出しながら,再構築損失の低減に成功していることを示す。
関連論文リスト
- Unlocking Prototype Potential: An Efficient Tuning Framework for Few-Shot Class-Incremental Learning [69.28860905525057]
FSCIL(Few-shot class-incremental Learning)は、非常に限られたサンプルから新しいクラスを継続的に学習することを目的としている。
本稿では,静的セントロイドを動的に学習可能なコンポーネントに進化させる,効率的なファインチューニングフレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-05T03:50:53Z) - Features that Make a Difference: Leveraging Gradients for Improved Dictionary Learning [4.051777802443125]
スパースオートエンコーダ(SAE)は、ニューラルネットワーク表現を抽出するための有望なアプローチである。
我々は、TopKアクティベーション関数を増強することにより、$k$-sparseのオートエンコーダアーキテクチャを変更するGradient SAEを紹介する。
g-SAEが任意の文脈でモデルを操る上で平均的に効果的である潜伏者を学ぶ証拠が見つかる。
論文 参考訳(メタデータ) (2024-11-15T18:03:52Z) - Enhancing Fine-Grained Visual Recognition in the Low-Data Regime Through Feature Magnitude Regularization [23.78498670529746]
抽出した特徴量の均等分布を保証するために正規化手法を導入する。
その明らかな単純さにもかかわらず、我々の手法は様々な細粒度視覚認識データセットに対して顕著な性能向上を示した。
論文 参考訳(メタデータ) (2024-09-03T07:32:46Z) - LoRA-Ensemble: Efficient Uncertainty Modelling for Self-Attention Networks [52.46420522934253]
本稿では,自己注意ネットワークのためのパラメータ効率のよいアンサンブル手法であるLoRA-Ensembleを紹介する。
この方法は、BatchEnsembleのような最先端の暗黙のテクニックを上回るだけでなく、Explicit Ensembleの正確さにマッチするか超える。
論文 参考訳(メタデータ) (2024-05-23T11:10:32Z) - Self-STORM: Deep Unrolled Self-Supervised Learning for Super-Resolution Microscopy [55.2480439325792]
我々は、シーケンス固有のモデルベースのオートエンコーダをトレーニングすることで、そのようなデータの必要性を軽減する、深層無学習の自己教師付き学習を導入する。
提案手法は, 監視対象の性能を超過する。
論文 参考訳(メタデータ) (2024-03-25T17:40:32Z) - Semantics-Aware Dynamic Localization and Refinement for Referring Image
Segmentation [102.25240608024063]
画像の参照は、言語表現からのイメージセグメントを参照する。
そこで我々は,局所化中心からセグメンテーション言語へ移行するアルゴリズムを開発した。
比較すると,本手法はより汎用的で有効である。
論文 参考訳(メタデータ) (2023-03-11T08:42:40Z) - Phase Retrieval using Expectation Consistent Signal Recovery Algorithm
based on Hypernetwork [73.94896986868146]
位相検索は現代の計算イメージングシステムにおいて重要な要素である。
近年のディープラーニングの進歩は、堅牢で高速なPRの新たな可能性を開いた。
我々は、既存の制限を克服するために、深層展開のための新しいフレームワークを開発する。
論文 参考訳(メタデータ) (2021-01-12T08:36:23Z) - Exploiting the Full Capacity of Deep Neural Networks while Avoiding
Overfitting by Targeted Sparsity Regularization [1.3764085113103217]
オーバーフィッティングは、比較的小さなデータセットでディープニューラルネットワークをトレーニングする際の最も一般的な問題の1つである。
オーバーフィッティング対策として, 新規な対象空間可視化と正規化戦略を提案する。
論文 参考訳(メタデータ) (2020-02-21T11:38:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。