論文の概要: Adaptive Sparse Allocation with Mutual Choice & Feature Choice Sparse Autoencoders
- arxiv url: http://arxiv.org/abs/2411.02124v2
- Date: Thu, 07 Nov 2024 21:36:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-11 11:36:11.255993
- Title: Adaptive Sparse Allocation with Mutual Choice & Feature Choice Sparse Autoencoders
- Title(参考訳): 相互選択と特徴選択オートエンコーダを用いた適応スパースアロケーション
- Authors: Kola Ayonrinde,
- Abstract要約: スパースオートエンコーダ(SAE)は、ニューラルネットワークから特徴を抽出するための有望なアプローチである。
我々は2つの新しいSAE変種であるFeature Choice SAEsとMutual Choice SAEsを提案する。
以上の結果より,SAEは致命的特徴が少なくなるとともに,等価な空間レベルでの再建損失が向上した。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Sparse autoencoders (SAEs) are a promising approach to extracting features from neural networks, enabling model interpretability as well as causal interventions on model internals. SAEs generate sparse feature representations using a sparsifying activation function that implicitly defines a set of token-feature matches. We frame the token-feature matching as a resource allocation problem constrained by a total sparsity upper bound. For example, TopK SAEs solve this allocation problem with the additional constraint that each token matches with at most $k$ features. In TopK SAEs, the $k$ active features per token constraint is the same across tokens, despite some tokens being more difficult to reconstruct than others. To address this limitation, we propose two novel SAE variants, Feature Choice SAEs and Mutual Choice SAEs, which each allow for a variable number of active features per token. Feature Choice SAEs solve the sparsity allocation problem under the additional constraint that each feature matches with at most $m$ tokens. Mutual Choice SAEs solve the unrestricted allocation problem where the total sparsity budget can be allocated freely between tokens and features. Additionally, we introduce a new auxiliary loss function, $\mathtt{aux\_zipf\_loss}$, which generalises the $\mathtt{aux\_k\_loss}$ to mitigate dead and underutilised features. Our methods result in SAEs with fewer dead features and improved reconstruction loss at equivalent sparsity levels as a result of the inherent adaptive computation. More accurate and scalable feature extraction methods provide a path towards better understanding and more precise control of foundation models.
- Abstract(参考訳): スパースオートエンコーダ(SAE)は、ニューラルネットワークから特徴を抽出し、モデル解釈可能性とモデル内部への因果的介入を可能にする、有望なアプローチである。
SAEは、トークン-機能マッチングの集合を暗黙的に定義するスパースアクティベーション関数を使用してスパース特徴表現を生成する。
トークン・フィーチャーマッチングは,全空間上界に制約された資源配分問題である。
例えば、TopK SAEは、各トークンが少なくとも$k$の機能と一致する追加の制約で、この割り当て問題を解決する。
TopK SAEでは、トークンの制約ごとのアクティブ機能として$k$がトークン全体で同じだが、いくつかのトークンは、他のトークンよりも再構築が難しい。
この制限に対処するために,2つの新しいSAE変種であるFeature Choice SAEとMutual Choice SAEを提案する。
特徴選択SAEは、各特徴が少なくとも$m$トークンと一致する追加の制約の下で、空間割当問題を解決する。
相互選択SAEは、トークンと特徴の間に全空間予算を自由に割り当てることのできる制限のない割り当て問題を解決する。
さらに、新しい補助損失関数、$\mathtt{aux\_zipf\_loss}$を導入し、$\mathtt{aux\_k\_loss}$を一般化して、デッドおよび未使用の機能を軽減する。
提案手法は, 致命的特徴の少ないSAEに対して, 固有適応計算の結果, 等価疎度レベルでの再構成損失が向上した。
より正確でスケーラブルな特徴抽出法は、基礎モデルのより理解とより正確な制御への道を提供する。
関連論文リスト
- Training a neural netwok for data reduction and better generalization [7.545668088790516]
スパース学習者の動機は、優れた一般化に必要なものだけを選択することで入力(特徴)を圧縮することである。
人工的な特徴の選択により,無関係な特徴を無視する段階から,それらを取り出す段階へ,顕著な段階的変化を示す。
このアプローチは、高次元データを意味のある罰則のコンパクトで解釈可能な部分集合に解釈するために圧縮された特徴を検知する形態であると見なすことができる。
論文 参考訳(メタデータ) (2024-11-26T07:41:15Z) - Features that Make a Difference: Leveraging Gradients for Improved Dictionary Learning [4.051777802443125]
スパースオートエンコーダ(SAE)は、ニューラルネットワーク表現を抽出するための有望なアプローチである。
我々は、TopKアクティベーション関数を増強することにより、$k$-sparseのオートエンコーダアーキテクチャを変更するGradient SAEを紹介する。
g-SAEが任意の文脈でモデルを操る上で平均的に効果的である潜伏者を学ぶ証拠が見つかる。
論文 参考訳(メタデータ) (2024-11-15T18:03:52Z) - S-CFE: Simple Counterfactual Explanations [21.975560789792073]
スパースデータに対する多様体対応の反実的説明を求める問題に対処する。
提案手法は,スパースかつ多様体に整列した反実的説明を効果的に生成する。
論文 参考訳(メタデータ) (2024-10-21T07:42:43Z) - The Balanced-Pairwise-Affinities Feature Transform [2.3020018305241337]
BPA機能変換は、入力項目のセットの機能をアップグレードして、下流のマッチングや関連するタスクのグループ化を容易にするように設計されている。
特定の min- Cost-max-flow の分数マッチング問題は、効率的、微分可能、同変、パラメータレス、確率論的に解釈可能な変換をもたらす。
経験的には、この変換はその使用において非常に効果的で柔軟性があり、様々なタスクやトレーニングスキームにおいて挿入されるネットワークを継続的に改善する。
論文 参考訳(メタデータ) (2024-06-25T14:28:05Z) - Token Fusion: Bridging the Gap between Token Pruning and Token Merging [71.84591084401458]
ビジョントランスフォーマー(ViT)はコンピュータビジョンの強力なバックボーンとして登場し、多くの伝統的なCNNを上回っている。
計算オーバーヘッドは、主に自己アテンション機構によるもので、リソース制約のあるエッジデバイスへのデプロイが困難になる。
トークンプルーニングとトークンマージの両方のメリットを両立させる手法であるToken Fusion(ToFu)を紹介する。
論文 参考訳(メタデータ) (2023-12-02T04:29:19Z) - STEERER: Resolving Scale Variations for Counting and Localization via
Selective Inheritance Learning [74.2343877907438]
スケールの変動はオブジェクトカウントにおける根深い問題であり、既存のスケールアウェアアルゴリズムでは効果的に対処されていない。
本稿では,オブジェクトカウントにおけるスケール変動の問題に対処する,STEERERと呼ばれる新しい手法を提案する。
STEERERは、特徴抽出を促進するために、パッチオブジェクトに最も適したスケールを選択し、下位から上位までの識別的特徴のみを徐々に継承する。
論文 参考訳(メタデータ) (2023-08-21T05:09:07Z) - On the Interplay Between Misspecification and Sub-optimality Gap in
Linear Contextual Bandits [76.2262680277608]
本研究では,線形関数クラスによって期待される報酬関数を近似できるような,不特定条件下での線形文脈帯域について検討する。
このアルゴリズムは, 対数的因子に比例した設定において, ギャップ依存の残差が$tilde O (d2/Delta)$と同じであることを示す。
論文 参考訳(メタデータ) (2023-03-16T15:24:29Z) - Multi-block-Single-probe Variance Reduced Estimator for Coupled
Compositional Optimization [49.58290066287418]
構成問題の複雑さを軽減するために,MSVR (Multi-block-probe Variance Reduced) という新しい手法を提案する。
本研究の結果は, 試料の複雑さの順序や強靭性への依存など, 様々な面で先行して改善された。
論文 参考訳(メタデータ) (2022-07-18T12:03:26Z) - Can contrastive learning avoid shortcut solutions? [88.249082564465]
暗黙的特徴修正(IFM)は、より広い種類の予測的特徴を捉えるために、対照的なモデルを導くために、正と負のサンプルを変更する方法である。
IFMは特徴抑制を低減し、その結果、視覚および医用画像タスクのパフォーマンスが向上する。
論文 参考訳(メタデータ) (2021-06-21T16:22:43Z) - Thresholded Lasso Bandit [70.17389393497125]
Thresholded Lasso banditは、報酬関数を定義するベクトルとスパースサポートを推定するアルゴリズムである。
一般には $mathcalO( log d + sqrtT )$ や $mathcalO( log d + sqrtT )$ としてスケールする非漸近的後悔の上界を確立する。
論文 参考訳(メタデータ) (2020-10-22T19:14:37Z) - Interpretable feature subset selection: A Shapley value based approach [1.511944009967492]
プレイヤーとしての特徴とヒンジロスに基づく特徴関数を持つ協調ゲームである分類ゲームの概念を導入する。
我々の主な貢献は、任意のデータセットに対して、SVEA値のしきい値0がラベル予測のための共同相互作用が重要である特徴サブセットを特定することを示すことである($star$)。
論文 参考訳(メタデータ) (2020-01-12T16:27:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。