論文の概要: Group Equivariance Meets Mechanistic Interpretability: Equivariant Sparse Autoencoders
- arxiv url: http://arxiv.org/abs/2511.09432v1
- Date: Thu, 13 Nov 2025 01:54:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-13 22:34:54.568897
- Title: Group Equivariance Meets Mechanistic Interpretability: Equivariant Sparse Autoencoders
- Title(参考訳): 群等分散と機械的解釈可能性:等変スパースオートエンコーダ
- Authors: Ege Erdogan, Ana Lucic,
- Abstract要約: スパースオートエンコーダ(SAE)は、ニューラルネットワークの不透明な活性化を阻害するのに有用であることが証明されている。
このようなグループ対称性をSAEに組み込むことにより、下流タスクにおいてより有用な特徴が得られることを示す。
- 参考スコア(独自算出の注目度): 3.7894019466201274
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sparse autoencoders (SAEs) have proven useful in disentangling the opaque activations of neural networks, primarily large language models, into sets of interpretable features. However, adapting them to domains beyond language, such as scientific data with group symmetries, introduces challenges that can hinder their effectiveness. We show that incorporating such group symmetries into the SAEs yields features more useful in downstream tasks. More specifically, we train autoencoders on synthetic images and find that a single matrix can explain how their activations transform as the images are rotated. Building on this, we develop adaptively equivariant SAEs that can adapt to the base model's level of equivariance. These adaptive SAEs discover features that lead to superior probing performance compared to regular SAEs, demonstrating the value of incorporating symmetries in mechanistic interpretability tools.
- Abstract(参考訳): スパースオートエンコーダ(SAE)は、ニューラルネットワークの不透明なアクティベーション(主に大きな言語モデル)を解釈可能な一連の特徴に切り離すのに有用であることが証明されている。
しかし、群対称性を持つ科学データのような言語以外の領域に適応することで、その効果を妨げうる課題がもたらされる。
このようなグループ対称性をSAEに組み込むことにより、下流タスクにおいてより有用な特徴が得られることを示す。
より具体的には、合成画像上でオートエンコーダを訓練し、画像が回転するにつれて、そのアクティベーションがどのように変換されるかを説明する。
これに基づいて、ベースモデルの同値レベルに適応可能な適応同値なSAEを開発する。
これらの適応SAEは、通常のSAEよりも優れた探索性能をもたらす特徴を発見し、機械的解釈可能性ツールに対称性を組み込むことの価値を示す。
関連論文リスト
- Taming Polysemanticity in LLMs: Provable Feature Recovery via Sparse Autoencoders [50.52694757593443]
既存のSAEトレーニングアルゴリズムは厳密な数学的保証を欠いていることが多く、実用的な制限に悩まされている。
まず,特徴の特定可能性という新たな概念を含む特徴回復問題の統計的枠組みを提案する。
本稿では、ニューラルネットワークのバイアスパラメータを適応的に調整し、適切なアクティベーション間隔を確保する手法である「バイアス適応」に基づく新たなSAEトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-06-16T20:58:05Z) - Approximate Equivariance in Reinforcement Learning [35.04248486334824]
我々は、強化学習におけるほぼ同変のアルゴリズムを開発した。
その結果, ほぼ同変ネットワークは, 正確な対称性が存在する場合に, 正確に同変ネットワークと同等に動作することがわかった。
論文 参考訳(メタデータ) (2024-11-06T19:44:46Z) - Learning Layer-wise Equivariances Automatically using Gradients [66.81218780702125]
畳み込みは等価対称性をニューラルネットワークにエンコードし、より優れた一般化性能をもたらす。
対称性は、ネットワークが表現できる機能、事前に指定する必要、適応できない機能に対して、固定されたハード制約を提供する。
私たちのゴールは、勾配を使ってデータから自動的に学習できるフレキシブル対称性の制約を可能にすることです。
論文 参考訳(メタデータ) (2023-10-09T20:22:43Z) - Learning Probabilistic Symmetrization for Architecture Agnostic Equivariance [16.49488981364657]
群対称性を持つ学習関数における同変アーキテクチャの限界を克服する新しい枠組みを提案する。
我々は、不変量や変圧器のような任意の基底モデルを使用し、それを与えられた群に同変するように対称性付けする。
実証実験は、調整された同変アーキテクチャに対する競争結果を示す。
論文 参考訳(メタデータ) (2023-06-05T13:40:54Z) - Self-Supervised Learning for Group Equivariant Neural Networks [75.62232699377877]
群同変ニューラルネットワーク(英: Group equivariant Neural Network)は、入力の変換で通勤する構造に制限されたモデルである。
自己教師型タスクには、同変プリテキストラベルと異変コントラスト損失という2つの概念を提案する。
標準画像認識ベンチマークの実験では、同変ニューラルネットワークが提案された自己教師型タスクを利用することを示した。
論文 参考訳(メタデータ) (2023-03-08T08:11:26Z) - Learning Symmetric Embeddings for Equivariant World Models [9.781637768189158]
入力空間(例えば画像)を符号化する学習対称埋め込みネットワーク(SEN)を提案する。
このネットワークは、同変のタスクネットワークでエンドツーエンドにトレーニングして、明示的に対称な表現を学ぶことができる。
実験により、SENは複素対称性表現を持つデータへの同変ネットワークの適用を促進することを示した。
論文 参考訳(メタデータ) (2022-04-24T22:31:52Z) - Topographic VAEs learn Equivariant Capsules [84.33745072274942]
本稿では, 地理的に整理された潜伏変数を用いた深部生成モデルを効率的に学習するための新しい手法であるTopographic VAEを紹介する。
このようなモデルでは,MNIST上での桁数クラス,幅,スタイルなどの健全な特徴に応じて,その活性化を組織化することが実際に学べることが示される。
我々は、既存の群同変ニューラルネットワークの能力を拡張して、複素変換に近似した同値性を示す。
論文 参考訳(メタデータ) (2021-09-03T09:25:57Z) - Group Equivariant Subsampling [60.53371517247382]
サブサンプリングは、プールやストライド畳み込みの形で畳み込みニューラルネットワーク(CNN)で使用される。
まず、正確な翻訳同変CNNを構築するために使用できる翻訳同変サブサンプリング/アップサンプリング層を導入する。
次に、これらの層を一般群への変換を超えて一般化し、したがって群同変部分サンプリング/アップサンプリングを提案する。
論文 参考訳(メタデータ) (2021-06-10T16:14:00Z) - Meta-Learning Symmetries by Reparameterization [63.85144439337671]
データから対応するパラメータ共有パターンを学習し、等価性をネットワークに学習し、符号化する手法を提案する。
本実験は,画像処理タスクで使用される共通変換に等価性をエンコードして自動的に学習できることを示唆する。
論文 参考訳(メタデータ) (2020-07-06T17:59:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。