論文の概要: When Are Two Networks the Same? Tensor Similarity for Mechanistic Interpretability
- arxiv url: http://arxiv.org/abs/2605.15183v1
- Date: Thu, 14 May 2026 17:58:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:35.011595
- Title: When Are Two Networks the Same? Tensor Similarity for Mechanistic Interpretability
- Title(参考訳): 2つのネットワークはいつ同じか? 機械的解釈可能性に対するテンソル類似性
- Authors: ML Nissen Gonzalez, Melwina Albuquerque, Laurence Wroe, Jacob Meyer Cohen, Logan Riggs Smith, Thomas Dooms,
- Abstract要約: 重みに基づく計量、テンソル類似性を導入し、そのような対称性に不変である。
経験的に、テンソル類似性は、グラッキングやバックドア挿入のような機能的トレーニングのダイナミクスを、既存のメトリクスよりも忠実に追跡する。
- 参考スコア(独自算出の注目度): 1.2314765641075438
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mechanistic interpretability aims to break models into meaningful parts; verifying that two such parts implement the same computation is a prerequisite. Existing similarity measures evaluate either empirical behaviour, leaving them blind to out-of-distribution mechanisms, or basis-dependent parameters, meaning they disregard weight-space symmetries. To address these issues for the class of tensor-based models, we introduce a weight-based metric, tensor similarity, that is invariant to such symmetries. This metric captures global functional equivalence and accounts for cross-layer mechanisms using an efficient recursive algorithm. Empirically, tensor similarity tracks functional training dynamics, such as grokking and backdoor insertion, with higher fidelity than existing metrics. This reduces measuring similarity and verifying faithfulness into a solved algebraic problem rather than one of empirical approximation.
- Abstract(参考訳): 機械的解釈可能性(Mechanistic Interpretability)は、モデルを意味のある部分に分割することを目的としており、そのような2つの部分が同じ計算を実装することが前提条件である。
既存の類似度測定は経験的行動を評価し、分布外のメカニズムや基底に依存したパラメータに盲目のまま残し、重量空間対称性を無視する。
テンソルベースモデルのクラスに対するこれらの問題に対処するために、そのような対称性に不変な重みに基づく計量、テンソル類似性を導入する。
この計量は、グローバルな機能的等価性を捉え、効率的な再帰的アルゴリズムを用いて層間機構を説明する。
経験的に、テンソル類似性は、グラッキングやバックドア挿入のような機能的トレーニングのダイナミクスを、既存のメトリクスよりも忠実に追跡する。
これにより、類似度の測定と忠実さの検証が、経験的近似よりも解決された代数問題に還元される。
関連論文リスト
- Improving Equivariant Networks with Probabilistic Symmetry Breaking [9.164167226137664]
同変ネットワークは既知の対称性をニューラルネットワークにエンコードし、しばしば一般化を強化する。
これは(1)自己対称性が共通な領域での予測タスク、(2)高対称性の潜在空間から再構成するために対称性を破らなければならない生成モデルの両方に重要な問題を引き起こす。
このような分布を表すのに十分な条件を確立する新しい理論結果を示す。
論文 参考訳(メタデータ) (2025-03-27T21:04:49Z) - Symmetry Breaking and Equivariant Neural Networks [17.740760773905986]
我々は「緩和された同注入」という新しい概念を導入する。
我々は、この緩和を同変多層パーセプトロン(E-MLP)に組み込む方法を示す。
対称性の破れの関連性は、様々な応用領域で議論される。
論文 参考訳(メタデータ) (2023-12-14T15:06:48Z) - Duality of Bures and Shape Distances with Implications for Comparing
Neural Representations [6.698235069945606]
ニューラルネットワーク表現間の複数の類似度尺度が提案され、その結果、断片化された研究ランドスケープが生み出された。
第一に、線形回帰、正準相関解析(CCA)、形状距離などの尺度は、全て類似性を定量化するために神経ユニット間の明示的なマッピングを学習する。
第二に、表現類似性分析(RSA)、中心核アライメント(CKA)、正規化されたバーズ類似性(NBS)といった尺度は、すべて要約統計において類似性を定量化する。
論文 参考訳(メタデータ) (2023-11-19T22:17:09Z) - Enriching Disentanglement: From Logical Definitions to Quantitative Metrics [59.12308034729482]
複雑なデータにおける説明的要素を遠ざけることは、データ効率の表現学習にとって有望なアプローチである。
論理的定義と量的指標の関連性を確立し, 理論的に根ざした絡み合いの指標を導出する。
本研究では,非交叉表現の異なる側面を分離することにより,提案手法の有効性を実証的に実証する。
論文 参考訳(メタデータ) (2023-05-19T08:22:23Z) - Evaluating the Robustness of Interpretability Methods through
Explanation Invariance and Equivariance [72.50214227616728]
解釈可能性法は、それらの説明が説明されたモデルを忠実に記述した場合にのみ有用である。
特定の対称性群の下で予測が不変であるニューラルネットワークを考える。
論文 参考訳(メタデータ) (2023-04-13T17:59:03Z) - Counting Like Human: Anthropoid Crowd Counting on Modeling the
Similarity of Objects [92.80955339180119]
メインストリームの群衆計数法は 密度マップを補強して 計数結果を得るために統合する。
これに触発された我々は,合理的かつ人為的な集団カウントフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-02T07:00:53Z) - Generalized quantum similarity learning [0.0]
我々は、同じ次元を持たないデータ間のタスク依存(a)対称類似性を学習するための量子ネットワーク(GQSim)を提案する。
この手法を用いて導出された類似度尺度が$(epsilon,gamma,tau)$-goodであることを示す。
論文 参考訳(メタデータ) (2022-01-07T03:28:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。