論文の概要: Identifying Intervenable and Interpretable Features via Orthogonality Regularization
- arxiv url: http://arxiv.org/abs/2602.04718v1
- Date: Wed, 04 Feb 2026 16:29:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.621257
- Title: Identifying Intervenable and Interpretable Features via Orthogonality Regularization
- Title(参考訳): 直交正則化によるインターベンタブル特徴と解釈可能特徴の同定
- Authors: Moritz Miller, Florent Draye, Bernhard Schölkopf,
- Abstract要約: 我々はデコーダ行列をほぼ直交的な特徴に分解する。
これにより、ターゲットデータセットのパフォーマンスを本質的に変更することなく、機能間の干渉と重畳を低減することができる。
私たちのコードは、$texttthttps://github.com/mrtzmllr/sae-icm$で利用可能です。
- 参考スコア(独自算出の注目度): 48.938969291033665
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With recent progress on fine-tuning language models around a fixed sparse autoencoder, we disentangle the decoder matrix into almost orthogonal features. This reduces interference and superposition between the features, while keeping performance on the target dataset essentially unchanged. Our orthogonality penalty leads to identifiable features, ensuring the uniqueness of the decomposition. Further, we find that the distance between embedded feature explanations increases with stricter orthogonality penalty, a desirable property for interpretability. Invoking the $\textit{Independent Causal Mechanisms}$ principle, we argue that orthogonality promotes modular representations amenable to causal intervention. We empirically show that these increasingly orthogonalized features allow for isolated interventions. Our code is available under $\texttt{https://github.com/mrtzmllr/sae-icm}$.
- Abstract(参考訳): 固定されたスパースオートエンコーダを取り巻く微調整言語モデルの最近の進歩により、デコーダ行列をほぼ直交的な特徴に分解する。
これにより、ターゲットデータセットのパフォーマンスを本質的に変更することなく、機能間の干渉と重畳を低減することができる。
我々の直交罰は特定可能な特徴をもたらし、分解の特異性を保証する。
さらに, 組込み特徴記述間の距離は, より厳密な直交的ペナルティによって増大し, 解釈可能性に望ましい特性であることがわかった。
原理的に$\textit{Independent Causal Mechanisms} を呼び出すと、直交性はモジュラー表現を因果的介入に許容できると論じる。
これらの直交する特徴が、孤立した介入を可能にすることを実証的に示しています。
私たちのコードは$\texttt{https://github.com/mrtzmllr/sae-icm}$で利用可能です。
関連論文リスト
- Streaming Private Continual Counting via Binning [11.72102598708538]
我々は、$textitbinning$を介して低空間における分解機構を近似する簡単な方法を提案する。
空間利用が極端に少ない場合でも、最適分解機構の性能は密に一致し、時には上回ることができることを実証的に示す。
論文 参考訳(メタデータ) (2024-12-10T01:21:56Z) - S-CFE: Simple Counterfactual Explanations [22.262567049579648]
スパースデータに対する多様体対応の反実的説明を求める問題に対処する。
提案手法は,スパースかつ多様体に整列した反実的説明を効果的に生成する。
論文 参考訳(メタデータ) (2024-10-21T07:42:43Z) - Sparse Feature Circuits: Discovering and Editing Interpretable Causal Graphs in Language Models [55.19497659895122]
本稿ではスパース特徴回路の発見と適用方法を紹介する。
これらは言語モデルの振る舞いを説明するための人間の解釈可能な特徴の因果関係の著作である。
論文 参考訳(メタデータ) (2024-03-28T17:56:07Z) - On the Stability of Expressive Positional Encodings for Graphs [46.967035678550594]
ラプラシア固有ベクトルを位置符号化として使用することは、2つの根本的な課題に直面している。
SPE(Stable and Expressive Positional Generalizations)を紹介する。
SPEは(1)確率的に安定であり、(2)基底不変関数に対して普遍的に表現できる最初のアーキテクチャである。
論文 参考訳(メタデータ) (2023-10-04T04:48:55Z) - Sparse Quadratic Optimisation over the Stiefel Manifold with Application
to Permutation Synchronisation [71.27989298860481]
二次目的関数を最大化するスティーフェル多様体上の行列を求める非最適化問題に対処する。
そこで本研究では,支配的固有空間行列を求めるための,単純かつ効果的なスパーシティプロモーティングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-09-30T19:17:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。