論文の概要: Enforcing Orderedness to Improve Feature Consistency
- arxiv url: http://arxiv.org/abs/2512.02194v1
- Date: Mon, 01 Dec 2025 20:39:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.601918
- Title: Enforcing Orderedness to Improve Feature Consistency
- Title(参考訳): 整合性向上のための整合性強化
- Authors: Sophie L. Wang, Alex Quach, Nithin Parsan, John J. Yang,
- Abstract要約: 命令付きスパースオートエンコーダ(OSAE)を導入し,Matryoshka SAEを拡張し,遅延特徴の厳密な順序付けと各特徴次元の定式化を行う。
我々は、解が一意な(自然対称性まで)スパース辞書学習の設定において、OSAEが置換非識別性を解決していることを示す。
- 参考スコア(独自算出の注目度): 0.3499870393443268
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sparse autoencoders (SAEs) have been widely used for interpretability of neural networks, but their learned features often vary across seeds and hyperparameter settings. We introduce Ordered Sparse Autoencoders (OSAE), which extend Matryoshka SAEs by (1) establishing a strict ordering of latent features and (2) deterministically using every feature dimension, avoiding the sampling-based approximations of prior nested SAE methods. Theoretically, we show that OSAEs resolve permutation non-identifiability in settings of sparse dictionary learning where solutions are unique (up to natural symmetries). Empirically on Gemma2-2B and Pythia-70M, we show that OSAEs can help improve consistency compared to Matryoshka baselines.
- Abstract(参考訳): スパースオートエンコーダ(SAE)はニューラルネットワークの解釈に広く用いられているが、その学習機能は種子やハイパーパラメータの設定によって異なることが多い。
命令スパースオートエンコーダ(OSAE)を導入し,(1)潜伏特徴の厳密な順序付けを確立すること,(2)全ての特徴次元を決定的に利用すること,そして,以前にネストされたSAE法のサンプリングに基づく近似を回避することを提案する。
理論的には、OSAEは、解が一意である(自然対称性まで)スパース辞書学習の設定において、置換非識別性を解決している。
Gemma2-2B と Pythia-70M を実証的に検討した結果,OSAEs は Matryoshka ベースラインに比べて一貫性の向上に寄与することが示された。
関連論文リスト
- Group Equivariance Meets Mechanistic Interpretability: Equivariant Sparse Autoencoders [3.7894019466201274]
スパースオートエンコーダ(SAE)は、ニューラルネットワークの不透明な活性化を阻害するのに有用であることが証明されている。
このようなグループ対称性をSAEに組み込むことにより、下流タスクにおいてより有用な特徴が得られることを示す。
論文 参考訳(メタデータ) (2025-11-12T15:48:38Z) - SymMaP: Improving Computational Efficiency in Linear Solvers through Symbolic Preconditioning [5.546260420622416]
シンボリックマトリックスプレコンディショニング(SymMaP)は、プリコンディショニングパラメータの効率的なシンボリック表現を学習する。
我々はニューラルネットワークを用いて、最適なパラメータを正確に予測できる表現のために高次元離散空間を探索する。
実験の結果、SymMaPは様々なベンチマークで従来の戦略を一貫して上回ります。
論文 参考訳(メタデータ) (2025-10-28T08:25:03Z) - Taming Polysemanticity in LLMs: Provable Feature Recovery via Sparse Autoencoders [50.52694757593443]
既存のSAEトレーニングアルゴリズムは厳密な数学的保証を欠いていることが多く、実用的な制限に悩まされている。
まず,特徴の特定可能性という新たな概念を含む特徴回復問題の統計的枠組みを提案する。
本稿では、ニューラルネットワークのバイアスパラメータを適応的に調整し、適切なアクティベーション間隔を確保する手法である「バイアス適応」に基づく新たなSAEトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-06-16T20:58:05Z) - Interpreting CLIP with Hierarchical Sparse Autoencoders [8.692675181549117]
サエマトリオシュカ(MSAE)は複数の粒度の階層的表現を同時に学習する。
MSAEは、CLIPの再構築品質とスパーシリティの間に新しい最先端のフロンティアを確立する。
論文 参考訳(メタデータ) (2025-02-27T22:39:13Z) - On the Expressiveness and Length Generalization of Selective State-Space Models on Regular Languages [56.22289522687125]
SSM(Selective State-space Model)はTransformerの代替品である。
正規言語タスクにおける表現性や長さの一般化性能を解析する。
本稿では,Selective Dense State-Space Model (SD-SSM)を紹介する。
論文 参考訳(メタデータ) (2024-12-26T20:53:04Z) - SA-DVAE: Improving Zero-Shot Skeleton-Based Action Recognition by Disentangled Variational Autoencoders [7.618223798662929]
本稿では,分散変分オートエンコーダを用いたSA-DVAE-セマンティックアライメントを提案する。
このアイデアは,一対のモダリティ特異的変分オートエンコーダと全補正ペナルティによって実現される。
実験の結果,SA-DAVEは既存手法よりも性能が向上していることがわかった。
論文 参考訳(メタデータ) (2024-07-18T12:35:46Z) - Learning Layer-wise Equivariances Automatically using Gradients [66.81218780702125]
畳み込みは等価対称性をニューラルネットワークにエンコードし、より優れた一般化性能をもたらす。
対称性は、ネットワークが表現できる機能、事前に指定する必要、適応できない機能に対して、固定されたハード制約を提供する。
私たちのゴールは、勾配を使ってデータから自動的に学習できるフレキシブル対称性の制約を可能にすることです。
論文 参考訳(メタデータ) (2023-10-09T20:22:43Z) - Tree ensemble kernels for Bayesian optimization with known constraints
over mixed-feature spaces [54.58348769621782]
木アンサンブルはアルゴリズムチューニングやニューラルアーキテクチャ検索といったブラックボックス最適化タスクに適している。
ブラックボックス最適化にツリーアンサンブルを使うことの2つのよく知られた課題は、探索のためのモデル不確実性を効果的に定量化し、また、 (ii) ピースワイドな定値取得関数を最適化することである。
我々のフレームワークは、連続/離散的機能に対する非拘束ブラックボックス最適化のための最先端の手法と同様に、混合変数の特徴空間と既知の入力制約を組み合わせた問題の競合する手法よりも優れている。
論文 参考訳(メタデータ) (2022-07-02T16:59:37Z) - Compositional ADAM: An Adaptive Compositional Solver [69.31447856853833]
C-ADAMは、期待値の非線形機能ネストを含む構成問題に対する最初の適応的解法である。
C-ADAM は $mathcalO(delta-2.25)$ の定常点に収束し、$delta$ は精度パラメータであることを示す。
論文 参考訳(メタデータ) (2020-02-10T14:00:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。