論文の概要: Sign-Aware Gated Sparse Autoencoders: Modeling Anticorrelated Features with Bi-Jump-ReLU Activations
- arxiv url: http://arxiv.org/abs/2605.28149v1
- Date: Wed, 27 May 2026 08:31:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.895103
- Title: Sign-Aware Gated Sparse Autoencoders: Modeling Anticorrelated Features with Bi-Jump-ReLU Activations
- Title(参考訳): サイン対応Gated Sparse Autoencoders: Bi-Jump-ReLU アクティベーションによるアンチコラークな特徴のモデル化
- Authors: Bartosz Wieciech, Zmnako Awrahman, Marcin Czelej, Victor Hugo Jaramillo Velasquez, Wioletta Stobieniecka,
- Abstract要約: Gated SAE (SA-GSAE) は、署名された大きさと補助的な監督を備えた両側のゲート空間である。
両面ゲートと補助損失はロードベアリング(LRは0.27,デッド)であり、r_i+ r_i-は区別できない(|Delta R2| = 0.0015)。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sparse Autoencoders (SAEs) extract interpretable features from Large Language Models, but standard variants enforce non-negativity, forcing separate latents for diametrically opposed concepts (e.g., "pressure too high" vs. "pressure too low") and wasting dictionary capacity when features are anticorrelated. We propose the Sign-Aware Gated SAE (SA-GSAE): two-sided gated sparsity with signed magnitude and auxiliary supervision. A polarity-sensitive gate selects support on either sign, a signed-magnitude path avoids L1 shrinkage, and an auxiliary reconstruction prevents gate collapse. Bipolar sharing - one latent encoding both signs along a shared direction - is realised via a new Bi-Jump-ReLU activation; parameter accounting shows sign-awareness stays parameter-efficient even when anticorrelated pairs are rare. On real LLM activations across three mid-depth hookpoints on Pythia-1B and SmolLM3-3B (6 cells, 3 seeds), a half-width SA-GSAE at width H strictly Pareto-dominates a full-width Gated SAE at 2H over the entire swept L0 overlap on 3 of 6 cells (both MLP-output hookpoints and resid-mid/Pythia-1B); on the remaining 3 it matches R^2 within 0.025 (max gap -0.008) while cutting dead fraction by 0.35-0.62 absolute. Sweep-geomean dead-fraction reductions are ~100x-500x on MLP-output cells and Pythia-1B resid, ~2x-4x on attention cells and SmolLM3-3B resid. Ablations show the two-sided gate and auxiliary loss are load-bearing (no auxiliary collapses LR to 0.27, 98% dead); tying r_i^+ = r_i^- is indistinguishable (|Delta R^2| = 0.0015), and we recommend this symmetric variant as default. MLP-output gains come from most latents carrying both polarities; on attention, bipolar structure concentrates in a small set of top latents. Full-width SA-GSAE exhibits a reproducible reconstruction collapse at SmolLM3-3B resid that the half-width entirely avoids.
- Abstract(参考訳): スパースオートエンコーダ(SAEs)は、大言語モデルから解釈可能な特徴を抽出するが、標準の変種は非負性性を強制し、拡張論的に対立する概念(例えば、圧力過剰(pressure too high)対「圧力過剰(pressure too low)」))を分離し、特徴が反相関である場合に辞書容量を浪費する。
本稿では,SA-GSAE (Sign-Aware Gated SAE) について述べる。
極性感度ゲートは、いずれかの標識に対する支持を選択し、符号付き磁気パスはL1の収縮を回避し、補助再建はゲート崩壊を防止する。
バイポーラ共有(バイポーラ共有、バイポーラ共有)は、新しいBi-Jump-ReLUアクティベーションによって実現される。
Pythia-1B と SmolLM3-3B (6 細胞、3 種) 上の3つの深度フックポイントの実際の LLM 活性化では、幅 H の半幅 SA-GSAE が厳密に 2H のフル幅 Gated SAE を 6 つのセル (MLP-output hookpoints と resid-mid/Pythia-1B の両方) の 3 つに重なり、残りの 3 つは 0.025 (max gap -0.008) 内で R^2 と一致する。
MLP出力細胞では100x-500x、注意細胞ではPythia-1B、注意細胞では2x-4x、SmolLM3-3Bである。
アブレーションは、両面のゲートと補助損失がロードベアリング(LRは0.27,98%死亡)であることを示し、r_i^+ = r_i^-は区別できない(|Delta R^2| = 0.0015)。
MLP出力の利得は、両方の極性を持つほとんどの潜性物質から来ており、注意を払って、双極性構造は、小さなトップ潜性集合に集中している。
全幅SA-GSAEは、半幅が完全に避けられるSmolLM3-3Bで再現可能な復元崩壊を示す。
関連論文リスト
- AGORA: Adapter-Grounded Observation-Action Retention for Inference-Free Prompt Compression in LLM Agents [3.9004035576487817]
トークンレベルの抽出圧縮機はLLM剤には構造的に不適切であることを示す。
本稿では,構造的プロンプトを組み込んだ推論不要なステップレベル圧縮機であるAGORAについて紹介する。
論文 参考訳(メタデータ) (2026-05-26T06:29:44Z) - An Effective-Rank Audit of Alignment-Induced Activation Shifts: Confound Control, Constructive Calibration, and Limits [0.0]
我々は3つのオープンウェイト命令調整LDMの残差ストリーム活性化のアライメントによる変化を監査する。
rho_eps := rank_eps(M_Ds)/d は Arditi et al. (2024) の単一拒絶方向観測を連続量として定式化する。
論文 参考訳(メタデータ) (2026-05-23T13:47:17Z) - Amplifying, Not Learning: Fine-Tuned AI Text Detectors Amplify a Pretrained Direction [51.56484100374058]
テキスト検出器は、事前訓練された典型軸を増幅する。
タスク監督前の生エンコーダでは、3つのアーキテクチャでNYT-vs-HC3 AUROC 0.806/0.944/0.834を達成する。
RoBERTaベースでは、生のプロジェクションは微調整を超えるが、RoBERTaベースでは、フル微調整は、試験された流線型人口の双方で生よりも識別を小さくする。
論文 参考訳(メタデータ) (2026-05-20T19:08:38Z) - SparseSAM: Structured Sparsification of Activations in Segment Anything Models [26.589924688727795]
Segment Anything Model (SAM)は強力なオープン語彙セグメンテーションを実現するが、ViTベースの画像エンコーダは遅延推論とメモリを支配している。
SparseSAMは,トークンの識別を保ちながら注意と層を協調的に加速する訓練不要のスペーシフィケーションフレームワークである。
4つのセグメンテーションベンチマークで、SparseSAMは密度が0.004 mIoU、0.3が0.021 mIoU、精度が2.10倍、トークンマージの進歩が2.10倍、推論が2.8倍、メモリが2.8倍である。
論文 参考訳(メタデータ) (2026-05-17T19:54:22Z) - The Extrapolation Cliff in On-Policy Distillation of Near-Deterministic Structured Outputs [52.709361620508595]
ListOPDは、パラメータの5分の1で8B-SFTベースラインで、学生をドメイン内に持ち込む。
Amazon Fashionでは、3つの事前登録テスト — 細粒度崖間隔テスト、小さなクリップのクロス予測 — がロックされた予測ウィンドウ内に落下し、グリッド解像度以下のクローズドフォーム予測に一致する小さなクリップ値が設定されている。
論文 参考訳(メタデータ) (2026-05-09T06:48:00Z) - Layer Collapse in Diffusion Language Models [54.880703002010144]
拡散言語モデル (DLM) は自己回帰言語モデル (AR) の代替として登場した。
DLMの層崩壊は, 過度なトレーニングによるものではなく, 過度なトレーニングによるものであることを示す。
私たちの発見は、非常に実践的な意味を持っている。
論文 参考訳(メタデータ) (2026-05-07T14:39:40Z) - Harmful Intent as a Geometrically Recoverable Feature of LLM Residual Streams [0.0]
有害な意図は、大きな言語モデル残ストリームから幾何的に回復可能である。
我々はこの幾何学を6つの方向決定戦略によって特徴づける。
AdvBenchはホールドアウトのHarmBenchとJailbreakBenchにAUROC 0.96で転送される。
論文 参考訳(メタデータ) (2026-04-20T23:02:37Z) - The Lazy Neuron Phenomenon: On Emergence of Activation Sparsity in
Transformers [59.87030906486969]
本稿では,Transformer アーキテクチャを用いた機械学習モデルにおいて,アクティベーションマップが疎いという興味深い現象について考察する。
本稿では, 自然言語処理と視覚処理の両方において, スパーシリティが顕著な現象であることを示す。
本稿では,変換器のFLOP数を大幅に削減し,効率を向上する手法について論じる。
論文 参考訳(メタデータ) (2022-10-12T15:25:19Z) - FastLR: Non-Autoregressive Lipreading Model with Integrate-and-Fire [74.04394069262108]
我々は,全てのターゲットトークンを同時に生成する非自己回帰(NAR)リップリーダーモデルであるFastLRを提案する。
FastLRは最先端のリップリーダーモデルと比較して10.97$times$のスピードアップを実現している。
論文 参考訳(メタデータ) (2020-08-06T08:28:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。