論文の概要: Identifying Intervenable and Interpretable Features via Orthogonality Regularization
- arxiv url: http://arxiv.org/abs/2602.04718v1
- Date: Wed, 04 Feb 2026 16:29:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.621257
- Title: Identifying Intervenable and Interpretable Features via Orthogonality Regularization
- Title(参考訳): 直交正則化によるインターベンタブル特徴と解釈可能特徴の同定
- Authors: Moritz Miller, Florent Draye, Bernhard Schölkopf,
- Abstract要約: 我々はデコーダ行列をほぼ直交的な特徴に分解する。
これにより、ターゲットデータセットのパフォーマンスを本質的に変更することなく、機能間の干渉と重畳を低減することができる。
私たちのコードは、$texttthttps://github.com/mrtzmllr/sae-icm$で利用可能です。
- 参考スコア(独自算出の注目度): 48.938969291033665
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With recent progress on fine-tuning language models around a fixed sparse autoencoder, we disentangle the decoder matrix into almost orthogonal features. This reduces interference and superposition between the features, while keeping performance on the target dataset essentially unchanged. Our orthogonality penalty leads to identifiable features, ensuring the uniqueness of the decomposition. Further, we find that the distance between embedded feature explanations increases with stricter orthogonality penalty, a desirable property for interpretability. Invoking the $\textit{Independent Causal Mechanisms}$ principle, we argue that orthogonality promotes modular representations amenable to causal intervention. We empirically show that these increasingly orthogonalized features allow for isolated interventions. Our code is available under $\texttt{https://github.com/mrtzmllr/sae-icm}$.
- Abstract(参考訳): 固定されたスパースオートエンコーダを取り巻く微調整言語モデルの最近の進歩により、デコーダ行列をほぼ直交的な特徴に分解する。
これにより、ターゲットデータセットのパフォーマンスを本質的に変更することなく、機能間の干渉と重畳を低減することができる。
我々の直交罰は特定可能な特徴をもたらし、分解の特異性を保証する。
さらに, 組込み特徴記述間の距離は, より厳密な直交的ペナルティによって増大し, 解釈可能性に望ましい特性であることがわかった。
原理的に$\textit{Independent Causal Mechanisms} を呼び出すと、直交性はモジュラー表現を因果的介入に許容できると論じる。
これらの直交する特徴が、孤立した介入を可能にすることを実証的に示しています。
私たちのコードは$\texttt{https://github.com/mrtzmllr/sae-icm}$で利用可能です。
関連論文リスト
- MirrorLA: Reflecting Feature Map for Vision Linear Attention [49.41670925034762]
リニアアテンションはトランスフォーマーの2次から線形への計算複雑性を著しく低下させるが、パフォーマンスにおけるソフトマックスに基づくアテンションの遅れは一貫して遅れる。
我々は、受動トランケーションをアクティブなリオリエンテーションに置き換える幾何学的枠組みであるMirrorLAを提案する。
MirrorLAは標準的なベンチマークで最先端のパフォーマンスを実現し、表現の忠実さを損なうことなく厳密な線形効率を実現できることを示した。
論文 参考訳(メタデータ) (2026-02-04T09:14:09Z) - BLOCK-EM: Preventing Emergent Misalignment by Blocking Causal Features [6.495737609776765]
言語モデルが狭い範囲の教師対象に対して微調整されたときに、創発的なミスアライメントが発生する可能性がある。
本研究では,不整合動作を確実に制御する内部特徴の小さなセットを同定することにより,突発的不整合を防止するための機械的アプローチについて検討する。
論文 参考訳(メタデータ) (2026-01-31T15:11:05Z) - Zonkey: A Hierarchical Diffusion Language Model with Differentiable Tokenization and Probabilistic Attention [0.0]
Zonkeyは階層的な拡散モデルであり、生文字から文書レベルの表現まで、完全にトレーニング可能なパイプラインを通じて制限に対処する。
コアとなるのは、確率的開始順序(BOS)決定を学習する、差別化可能なトークンである。
Zonkeyは、ノイズからコヒーレントで可変長のテキストを生成し、創発的な階層を示す。
論文 参考訳(メタデータ) (2026-01-29T14:17:37Z) - Sculpting Latent Spaces With MMD: Disentanglement With Programmable Priors [30.182736043604304]
最大平均離散性(MMD)に基づく手法であるProgrammable Prior Frameworkを導入する。
我々の研究は、表現工学の基礎となるツールを提供し、モデル識別可能性と因果推論のための新しい道を開く。
論文 参考訳(メタデータ) (2025-10-13T21:26:01Z) - Streaming Private Continual Counting via Binning [11.72102598708538]
我々は、$textitbinning$を介して低空間における分解機構を近似する簡単な方法を提案する。
空間利用が極端に少ない場合でも、最適分解機構の性能は密に一致し、時には上回ることができることを実証的に示す。
論文 参考訳(メタデータ) (2024-12-10T01:21:56Z) - S-CFE: Simple Counterfactual Explanations [22.262567049579648]
スパースデータに対する多様体対応の反実的説明を求める問題に対処する。
提案手法は,スパースかつ多様体に整列した反実的説明を効果的に生成する。
論文 参考訳(メタデータ) (2024-10-21T07:42:43Z) - Sparse Feature Circuits: Discovering and Editing Interpretable Causal Graphs in Language Models [55.19497659895122]
本稿ではスパース特徴回路の発見と適用方法を紹介する。
これらは言語モデルの振る舞いを説明するための人間の解釈可能な特徴の因果関係の著作である。
論文 参考訳(メタデータ) (2024-03-28T17:56:07Z) - On the Stability of Expressive Positional Encodings for Graphs [46.967035678550594]
ラプラシア固有ベクトルを位置符号化として使用することは、2つの根本的な課題に直面している。
SPE(Stable and Expressive Positional Generalizations)を紹介する。
SPEは(1)確率的に安定であり、(2)基底不変関数に対して普遍的に表現できる最初のアーキテクチャである。
論文 参考訳(メタデータ) (2023-10-04T04:48:55Z) - Sparse Quadratic Optimisation over the Stiefel Manifold with Application
to Permutation Synchronisation [71.27989298860481]
二次目的関数を最大化するスティーフェル多様体上の行列を求める非最適化問題に対処する。
そこで本研究では,支配的固有空間行列を求めるための,単純かつ効果的なスパーシティプロモーティングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-09-30T19:17:35Z) - Can contrastive learning avoid shortcut solutions? [88.249082564465]
暗黙的特徴修正(IFM)は、より広い種類の予測的特徴を捉えるために、対照的なモデルを導くために、正と負のサンプルを変更する方法である。
IFMは特徴抑制を低減し、その結果、視覚および医用画像タスクのパフォーマンスが向上する。
論文 参考訳(メタデータ) (2021-06-21T16:22:43Z) - Discrete Variational Attention Models for Language Generation [51.88612022940496]
本稿では,言語における離散性に起因する注意機構のカテゴリー分布を考慮した離散的変動注意モデルを提案する。
離散性の特質により,提案手法の訓練は後部崩壊に支障を来さない。
論文 参考訳(メタデータ) (2020-04-21T05:49:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。