論文の概要: Position: Mechanistic Interpretability Should Prioritize Feature Consistency in SAEs
- arxiv url: http://arxiv.org/abs/2505.20254v1
- Date: Mon, 26 May 2025 17:31:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 14:37:20.350566
- Title: Position: Mechanistic Interpretability Should Prioritize Feature Consistency in SAEs
- Title(参考訳): 位置:SAEにおける特徴整合性を優先する機械的解釈可能性
- Authors: Xiangchen Song, Aashiq Muhamed, Yujia Zheng, Lingjing Kong, Zeyu Tang, Mona T. Diab, Virginia Smith, Kun Zhang,
- Abstract要約: 本稿では,機械的解釈可能性について,SAEにおける特徴整合性を優先すべきであると主張している。
本稿では,Pairwise Dictionaryの平均相関係数を実測値として用いて,一貫性を運用する手法を提案する。
- 参考スコア(独自算出の注目度): 34.52554840674882
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sparse Autoencoders (SAEs) are a prominent tool in mechanistic interpretability (MI) for decomposing neural network activations into interpretable features. However, the aspiration to identify a canonical set of features is challenged by the observed inconsistency of learned SAE features across different training runs, undermining the reliability and efficiency of MI research. This position paper argues that mechanistic interpretability should prioritize feature consistency in SAEs -- the reliable convergence to equivalent feature sets across independent runs. We propose using the Pairwise Dictionary Mean Correlation Coefficient (PW-MCC) as a practical metric to operationalize consistency and demonstrate that high levels are achievable (0.80 for TopK SAEs on LLM activations) with appropriate architectural choices. Our contributions include detailing the benefits of prioritizing consistency; providing theoretical grounding and synthetic validation using a model organism, which verifies PW-MCC as a reliable proxy for ground-truth recovery; and extending these findings to real-world LLM data, where high feature consistency strongly correlates with the semantic similarity of learned feature explanations. We call for a community-wide shift towards systematically measuring feature consistency to foster robust cumulative progress in MI.
- Abstract(参考訳): スパースオートエンコーダ(SAE)は、ニューラルネットワークのアクティベーションを解釈可能な機能に分解するための機械的解釈可能性(MI)において顕著なツールである。
しかし,本研究の信頼性と効率性を損なうことなく,学習したSAE特徴の異なるトレーニング実行間での不整合が観察されたことにより,標準的特徴セットの同定が困難となる。
このポジションペーパーでは、メカニスティックな解釈容易性は、SAEにおける機能一貫性を優先すべきである、と論じている。
本稿では,Pairwise Dictionary Mean correlation Coefficient (PW-MCC) を用いて,高レベルが達成可能であることを示す。
我々の貢献は、一貫性の優先順位付けの利点を詳述すること、PW-MCCを基盤構造回復の信頼できるプロキシとして検証するモデル生物を用いた理論的基盤化と合成検証を提供すること、これらの知見を現実世界のLLMデータに拡張すること、そして、高い特徴整合性は学習された特徴説明の意味的類似性と強く相関する。
我々は、MIにおける堅牢な累積的な進歩を育むために、機能一貫性を体系的に測定するコミュニティ全体へのシフトを呼びかける。
関連論文リスト
- Unveil Sources of Uncertainty: Feature Contribution to Conformal Prediction Intervals [0.3495246564946556]
共形予測(CP)に基づく新しいモデルに依存しない不確実性属性(UA)法を提案する。
我々は,CP間隔特性-幅や境界条件-を値関数として定義し,入力特徴に対する予測不確かさを属性とする協調ゲームを定義する。
人工ベンチマークと実世界のデータセットを用いた実験は、我々のアプローチの実用的有用性と解釈的深さを実証する。
論文 参考訳(メタデータ) (2025-05-19T13:49:05Z) - SMARTe: Slot-based Method for Accountable Relational Triple extraction [1.2200609701777907]
三重抽出(RTE)は自然言語処理(NLP)の基本課題である
SMARTe: a Slot-based Method for Accountable Triple extract。
解釈可能性の追加は性能を損なうものではないことを実証する。
論文 参考訳(メタデータ) (2025-04-17T10:21:15Z) - Semi-supervised Semantic Segmentation with Multi-Constraint Consistency Learning [81.02648336552421]
本稿では,エンコーダとデコーダの段階的拡張を容易にするためのマルチ制約一貫性学習手法を提案する。
自己適応型特徴マスキングとノイズ注入は、デコーダの堅牢な学習のための特徴を摂動させるために、インスタンス固有の方法で設計されている。
Pascal VOC2012およびCityscapesデータセットの実験結果から,提案したMCCLが新たな最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2025-03-23T03:21:33Z) - Similarity-Distance-Magnitude Universal Verification [0.0]
本研究では,不確実性を考慮した検証と解釈可能性を考慮したSDMネットワークを本質的特性として構築する。
これらの結果を実装したオープンソースソフトウェアを提供する。
論文 参考訳(メタデータ) (2025-02-27T15:05:00Z) - FeaKM: Robust Collaborative Perception under Noisy Pose Conditions [1.9626657740463982]
FeaKM(FeaKM)は,協調エージェント間の相違を正すために特徴レベルキーポイントマッチングを利用する新しい手法である。
実験の結果, FeaKM は DAIR-V2X データセット上の既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2025-02-16T06:03:33Z) - TRACE: TRansformer-based Attribution using Contrastive Embeddings in LLMs [50.259001311894295]
TRACE と呼ばれるコントラスト埋め込みを用いた新しいTRansformer-based Attribution フレームワークを提案する。
TRACEは情報源の属性を精度良く改善し,大規模言語モデルの信頼性と信頼性を高める貴重なツールであることを示す。
論文 参考訳(メタデータ) (2024-07-06T07:19:30Z) - Federated Contrastive Learning for Personalized Semantic Communication [55.46383524190467]
我々は,パーソナライズされたセマンティックコミュニケーションを支援することを目的とした,協調型コントラスト学習フレームワークを設計する。
FedCLは、複数のクライアントにわたるローカルセマンティックエンコーダと、基地局が所有するグローバルセマンティックデコーダの協調トレーニングを可能にする。
分散クライアント間の異種データセットから生じるセマンティック不均衡問題に対処するために,コントラスト学習を用いてセマンティックセントロイドジェネレータを訓練する。
論文 参考訳(メタデータ) (2024-06-13T14:45:35Z) - Causal Feature Selection for Algorithmic Fairness [61.767399505764736]
データ管理の統合コンポーネントにおける公平性について検討する。
本稿では,データセットの公平性を保証する特徴のサブコレクションを同定する手法を提案する。
論文 参考訳(メタデータ) (2020-06-10T20:20:10Z) - Robust Learning Through Cross-Task Consistency [92.42534246652062]
クロスタスク整合性を用いた学習向上のための,広く適用可能な完全計算手法を提案する。
クロスタスク一貫性による学習は,より正確な予測と,アウト・オブ・ディストリビューション・インプットの一般化につながることを観察する。
論文 参考訳(メタデータ) (2020-06-07T09:24:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。