論文の概要: Attribution-Guided Distillation of Matryoshka Sparse Autoencoders
- arxiv url: http://arxiv.org/abs/2512.24975v1
- Date: Wed, 31 Dec 2025 17:12:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.718523
- Title: Attribution-Guided Distillation of Matryoshka Sparse Autoencoders
- Title(参考訳): マトリオシカスパースオートエンコーダの属性誘導蒸留
- Authors: Cristina P. Martin-Linares, Jonathan P. Ling,
- Abstract要約: DMSAE(Distilled Matryoshka Sencoders)は,一貫した有用な機能を持つコンパクトコアを蒸留し,新しいSAEを訓練するために再利用する訓練パイプラインである。
DMSAEは、共有コアでMatryoshka SAEを訓練し、グラデーションXアクティベーションを使用して、最もネストされた再構築において、各特徴の次トーケンの損失に対する寄与を計測し、アトリビューションの一定の割合を説明する最小のサブセットのみを保持する。
Gemma-2B層12残流活性化について : 7サイクルの蒸留(500Mトークン,65k幅)
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sparse autoencoders (SAEs) aim to disentangle model activations into monosemantic, human-interpretable features. In practice, learned features are often redundant and vary across training runs and sparsity levels, which makes interpretations difficult to transfer and reuse. We introduce Distilled Matryoshka Sparse Autoencoders (DMSAEs), a training pipeline that distills a compact core of consistently useful features and reuses it to train new SAEs. DMSAEs run an iterative distillation cycle: train a Matryoshka SAE with a shared core, use gradient X activation to measure each feature's contribution to next-token loss in the most nested reconstruction, and keep only the smallest subset that explains a fixed fraction of the attribution. Only the core encoder weight vectors are transferred across cycles; the core decoder and all non-core latents are reinitialized each time. On Gemma-2-2B layer 12 residual stream activations, seven cycles of distillation (500M tokens, 65k width) yielded a distilled core of 197 features that were repeatedly selected. Training using this distilled core improves several SAEBench metrics and demonstrates that consistent sets of latent features can be transferred across sparsity levels
- Abstract(参考訳): スパースオートエンコーダ(SAE)は、モデルアクティベーションを単意味で人間の解釈可能な特徴に分解することを目的としている。
実際には、学習された機能は、しばしば冗長であり、トレーニング実行とスパーシリティレベルによって異なるため、解釈の転送と再利用が困難になる。
DMSAE(Distilled Matryoshka Sparse Autoencoders)は,一貫した有用な特徴のコンパクトコアを蒸留し,新たなSAEを訓練するために再利用する訓練パイプラインである。
DMSAEは、共有コアでMatryoshka SAEを訓練し、グラデーションXアクティベーションを使用して、最もネストされた再構築において、各特徴の次トーケンの損失に対する寄与を計測し、アトリビューションの一定の割合を説明する最小のサブセットのみを保持する。
コアエンコーダ重みベクトルのみがサイクル間で転送され、コアデコーダと全ての非コアラテントは毎回再起動される。
Gemma-2B層12層では, 蒸留の7サイクル (500Mトークン, 65k幅) が蒸留コアとなり, 繰り返し選択された。
この蒸留コアを使用したトレーニングは、いくつかのSAEBenchメトリクスを改善し、潜伏した特徴の一貫性のあるセットがスパシティレベルにわたって移動可能であることを実証する。
関連論文リスト
- Distillation-Guided Structural Transfer for Continual Learning Beyond Sparse Distributed Memory [29.87863386264415]
本稿では, 蒸留をレギュレータとしてではなく, トポロジに整合した情報流路として扱う構造ガイド型連続学習フレームワークを提案する。
SSDは、活性化頻度の高いニューロンを特定し、リプレイやタスクラベルを必要とせずに、以前のTop-Kworksおよび出力ロジット内の知識を選択的に蒸留する。
論文 参考訳(メタデータ) (2025-12-17T10:17:01Z) - MLPMoE: Zero-Shot Architectural Metamorphosis of Dense LLM MLPs into Static Mixture-of-Experts [0.0]
大規模言語モデル(LLM)は、主に高密度トランスフォーマーとしてデプロイされ、すべてのトークンに対してフィードフォワードブロック内の全てのパラメータがアクティブになる。
MoEfication、CMoE、ToMoE、MoOREといった最近のアップサイクリング手法は、高密度フィードフォワードネットワーク内の疎小で半モジュラーなサブ構造に有用な計算の大部分が存在していることを明らかにしている。
本稿では,高密度の変圧器ブロックを静的な高心性混合体に再構成する学習自由変換であるMoE(MLP-Experts)を紹介する。
論文 参考訳(メタデータ) (2025-11-26T06:14:26Z) - OmniSAT: Compact Action Token, Faster Auto Regression [70.70037017501357]
我々は、コンパクトで転送可能なアクション表現を学ぶOmni Swift Action Tokenizerを紹介する。
その結果、離散トークン化はトレーニングシーケンスを6.8$times$に短縮し、ターゲットエントロピーを低下させる。
論文 参考訳(メタデータ) (2025-10-08T03:55:24Z) - NeRF-based CBCT Reconstruction needs Normalization and Initialization [53.58395475423445]
NeRFベースの手法は、ハッシュエンコーダとニューラルネットワークという2つの主要なコンポーネント間の局所的な訓練ミスマッチに悩まされる。
特徴整合性を高め、ミスマッチを緩和する正規化ハッシュを導入する。
ニューラルネットワークは早期トレーニング中に安定性が向上し、より高速な収束と再構築性能が向上する。
論文 参考訳(メタデータ) (2025-06-24T16:01:45Z) - Training-Free Tokenizer Transplantation via Orthogonal Matching Pursuit [45.18582668677648]
大規模言語モデルにおいて,トークン化剤を移植するためのトレーニング不要な手法を提案する。
それぞれの語彙外トークンを,共有トークンの疎線形結合として近似する。
我々は,OMPがベースモデルの性能を最良にゼロショット保存できることを示す。
論文 参考訳(メタデータ) (2025-06-07T00:51:27Z) - Few-Step Diffusion via Score identity Distillation [67.07985339442703]
拡散蒸留は, テキスト・ツー・イメージ(T2I)拡散モデルを促進するための有望な戦略として浮上している。
既存の方法は、高分解能T2I拡散モデルを蒸留する際に、実像や教師合成画像に頼っている。
教師のCFGを無効にし、偽スコアネットワークでテキストコンディショニングを除去するZero-CFGと、偽スコアネットワークで否定的なCFGを適用するAnti-CFGの2つの新しいガイダンス戦略を提案する。
論文 参考訳(メタデータ) (2025-05-19T03:45:16Z) - Optimizing Singular Spectrum for Large Language Model Compression [95.7621116637755]
SVDの分解したコンポーネントをデータ駆動で再スケールする新しい圧縮フレームワークであるSoCoを紹介する。
学習可能な特異スペクトルのおかげで、SoCoは重要度スコアに応じて成分を適応的にプーンする。
複数のLLMおよびベンチマークでの実験的な評価は、SoCoがモデル圧縮における最先端の手法を超越していることを示している。
論文 参考訳(メタデータ) (2025-02-20T23:18:39Z) - Multi-Granularity Semantic Revision for Large Language Model Distillation [66.03746866578274]
LLM蒸留における多粒性セマンティックリビジョン法を提案する。
シーケンスレベルでは、シーケンス修正と再生戦略を提案する。
トークンレベルでは、蒸留目的関数として、Kulback-Leibler損失を補正する分布適応クリッピングを設計する。
スパンレベルでは、シーケンスのスパン前処理を利用して、スパン内の確率相関を計算し、教師と学生の確率相関を一貫性に制約する。
論文 参考訳(メタデータ) (2024-07-14T03:51:49Z) - Rethinking Classifier Re-Training in Long-Tailed Recognition: A Simple
Logits Retargeting Approach [102.0769560460338]
我々は,クラスごとのサンプル数に関する事前知識を必要とせず,シンプルなロジットアプローチ(LORT)を開発した。
提案手法は,CIFAR100-LT, ImageNet-LT, iNaturalist 2018など,様々な不均衡データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-01T03:27:08Z) - Self-Distillation from the Last Mini-Batch for Consistency
Regularization [14.388479145440636]
我々は、Last Mini-Batch (DLB) からの自己蒸留という、効率的で信頼性の高い自己蒸留フレームワークを提案する。
提案手法はトレーニングの安定性と一貫性を導出し,ノイズのラベル付けに堅牢性をもたらす。
3つの分類ベンチマークによる実験結果から、我々の手法は最先端の自己蒸留手法より一貫して優れていることが示された。
論文 参考訳(メタデータ) (2022-03-30T09:50:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。