論文の概要: PolySAE: Modeling Feature Interactions in Sparse Autoencoders via Polynomial Decoding
- arxiv url: http://arxiv.org/abs/2602.01322v1
- Date: Sun, 01 Feb 2026 16:34:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.715238
- Title: PolySAE: Modeling Feature Interactions in Sparse Autoencoders via Polynomial Decoding
- Title(参考訳): PolySAE:ポリノミアルデコーディングによるスパースオートエンコーダの機能相互作用のモデル化
- Authors: Panagiotis Koromilas, Andreas D. Demou, James Oldfield, Yannis Panagakis, Mihalis Nicolaou,
- Abstract要約: 我々は,SAEデコーダを高次項で拡張して特徴的相互作用をモデル化するPolySAEを紹介する。
4つの言語モデルと3つのSAE変種に対して、PolySAEはF1の探索において平均8%の改善を達成した。
- 参考スコア(独自算出の注目度): 16.10987386200554
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sparse autoencoders (SAEs) have emerged as a promising method for interpreting neural network representations by decomposing activations into sparse combinations of dictionary atoms. However, SAEs assume that features combine additively through linear reconstruction, an assumption that cannot capture compositional structure: linear models cannot distinguish whether "Starbucks" arises from the composition of "star" and "coffee" features or merely their co-occurrence. This forces SAEs to allocate monolithic features for compound concepts rather than decomposing them into interpretable constituents. We introduce PolySAE, which extends the SAE decoder with higher-order terms to model feature interactions while preserving the linear encoder essential for interpretability. Through low-rank tensor factorization on a shared projection subspace, PolySAE captures pairwise and triple feature interactions with small parameter overhead (3% on GPT2). Across four language models and three SAE variants, PolySAE achieves an average improvement of approximately 8% in probing F1 while maintaining comparable reconstruction error, and produces 2-10$\times$ larger Wasserstein distances between class-conditional feature distributions. Critically, learned interaction weights exhibit negligible correlation with co-occurrence frequency ($r = 0.06$ vs. $r = 0.82$ for SAE feature covariance), suggesting that polynomial terms capture compositional structure, such as morphological binding and phrasal composition, largely independent of surface statistics.
- Abstract(参考訳): スパースオートエンコーダ(SAE)は、活性化を辞書原子のスパース結合に分解することで、ニューラルネットワーク表現を解釈するための有望な方法として登場した。
線形モデルは「スターバックス」が「スターバックス」と「コーヒー」の特徴の合成から生じるのか、単にその共起から生じるのかを区別できない。
これにより、SAEはそれらを解釈可能な構成要素に分解するのではなく、複合概念にモノリシックな特徴を割り当てる。
本稿では,SAEデコーダを高次項で拡張し,解析性に不可欠な線形エンコーダを保ちながら特徴的相互作用をモデル化するPolySAEを紹介する。
共有射影部分空間上の低ランクテンソル因子化により、PolySAEは小さなパラメータのオーバーヘッド(GPT2)で3%)を持つペアとトリプルの特徴相互作用をキャプチャする。
4つの言語モデルと3つのSAE変種の間で、PolySAEはF1の探索において平均8%の改善を達成し、クラス条件の特徴分布間の2-10$\times$大きなワッサースタイン距離を生成する。
批判的に、学習された相互作用重みは共起周波数(r = 0.06$ vs. $r = 0.82$ for SAE feature covariance)と無視できる相関を示し、多項式項は、形態的結合やフレーズ合成のような構成構造を、表面統計とは独立に捉えることを示唆している。
関連論文リスト
- Scalable and Interpretable Scientific Discovery via Sparse Variational Gaussian Process Kolmogorov-Arnold Networks (SVGP KAN) [0.0]
Kolmogorov-Arnold Networks (KAN)はMulti-Layer Perceptron (MLP)に代わる有望な代替手段を提供する
カンは確率的な出力を欠き、不確実な定量化を必要とするアプリケーションにおける実用性を制限している。
本稿では,Sparse Variational GP-KANについて紹介する。
論文 参考訳(メタデータ) (2025-11-29T00:48:55Z) - Pearl: A Foundation Model for Placing Every Atom in the Right Location [52.35027831422145]
タンパク質-リガンド共フォールディングの基礎モデルであるPearlを紹介した。
パールはタンパク質-リガンド結合における新しい最先端性能を確立している。
Pearlは、パブリックなRuns N' PosesとPoseBustersベンチマークでAlphaFold 3や他のオープンソースベースラインを上回っている。
論文 参考訳(メタデータ) (2025-10-28T17:36:51Z) - Randomized based restricted kernel machine for hyperspectral image classification [0.0]
ランダムベクトル汎関数リンク(RVFL)ネットワークは、ハイパースペクトル画像(HSI)分類において大きな人気を得ている。
RVFLモデルは、特に非線形関係や複雑なデータ構造を扱う際に、いくつかの制限に直面している。
本稿では,RVFLと制限されたカーネルマシンを併用した,ランダム化された制限されたカーネルマシン(R2KM$)モデルを提案する。
論文 参考訳(メタデータ) (2025-03-06T17:18:39Z) - SAFR: Neuron Redistribution for Interpretability [7.756342860929851]
重ね合わせ(英: superposition)とは、単一ニューロン内の複数の特徴の表現を符号化することである。
期待された性能にもかかわらず、モデルの解釈可能性は低下している。
本稿では,特徴重畳を正規化することによってモデル解釈可能性を高める新しい手法を提案する。
論文 参考訳(メタデータ) (2025-01-23T06:20:33Z) - Incorporating Arbitrary Matrix Group Equivariance into KANs [69.30866522377694]
Kolmogorov-Arnold Networks (KAN) は科学分野で大きな成功を収めている。
本研究では,Equivariant Kolmogorov-Arnold Networks (EKAN)を提案する。
論文 参考訳(メタデータ) (2024-10-01T06:34:58Z) - ACDC: Weight Sharing in Atom-Coefficient Decomposed Convolution [57.635467829558664]
我々は,CNNにおいて,畳み込みカーネル間の構造正則化を導入する。
我々はCNNがパラメータや計算量を劇的に減らして性能を維持していることを示す。
論文 参考訳(メタデータ) (2020-09-04T20:41:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。