論文の概要: Geometry-Adaptive Explainer for Faithful Dictionary-Based Interpretability under Distribution Shift
- arxiv url: http://arxiv.org/abs/2605.21849v1
- Date: Thu, 21 May 2026 00:46:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:42.039261
- Title: Geometry-Adaptive Explainer for Faithful Dictionary-Based Interpretability under Distribution Shift
- Title(参考訳): 分布シフト下における忠実辞書に基づく解釈可能性のための幾何学的適応的説明器
- Authors: Sungjun Lim, Heedong Kim, Andrew Lee, Kyungwoo Song,
- Abstract要約: 分布シフトは、モデルが積極的に使用する部分空間を回転させ、イン・ディストリビューション(ID)アクティベーションに基づいて訓練された説明者の辞書を誤ることを示す。
我々は,このミスアライメントを,ID辞書とOOD活性部分空間との間の幾何学的距離である忠実度ギャップとして定式化する。
提案するGeometry-Adaptive Explainer (GAE, Geometry-Adaptive Explainer) は,従来の特徴構造を保ちながら,OOD-active 部分空間で説明者の辞書を実現する。
- 参考スコア(独自算出の注目度): 17.611062308867275
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mechanistic interpretability aims to explain a model's behavior by identifying causally responsible internal structures. Dictionary-based explainers such as sparse autoencoders and transcoders are a primary tool, but their faithfulness under out-of-distribution (OOD) shift has received little systematic attention. We show that distribution shift rotates the subspace that the model actively uses, misaligning the explainer's dictionary trained on in-distribution (ID) activations. We formalize this misalignment as the faithfulness gap, a geometric distance between the ID dictionary and the OOD-active subspace, and show that it controls OOD faithfulness degradation. To reduce this gap, we propose the Geometry-Adaptive Explainer (GAE), which realigns the explainer's dictionary with the OOD-active subspace while preserving the original feature structure. This requires only unlabeled OOD activations and no gradient updates. We prove that GAE improves over the unadapted ID explainer, with excess loss bounded quadratically by the second-moment shift. Empirically, GAE even matches or surpasses all training-based baselines in causal faithfulness across multiple models and OOD settings.
- Abstract(参考訳): 機械的解釈可能性(Mechanistic Interpretability)は、因果的に責任を負う内部構造を特定することによってモデルの振る舞いを説明することを目的としている。
スパースオートエンコーダやトランスコーダのような辞書ベースの説明器は主要なツールであるが、アウト・オブ・ディストリビューション(OOD)シフト下での彼らの忠実さは、体系的にはほとんど注目されていない。
分布シフトは、モデルが積極的に使用する部分空間を回転させ、イン・ディストリビューション(ID)アクティベーションに基づいて訓練された説明者の辞書を誤ることを示す。
我々は,このミスアライメントを,ID辞書とOOD活性部分空間との間の幾何学的距離である忠実度ギャップとして定式化し,OOD忠実度劣化を制御することを示す。
このギャップを小さくするため,元の特徴構造を保ちながら,説明者の辞書をOOD-active subspaceで表現するGeometry-Adaptive Explainer (GAE)を提案する。
これにより、ラベルなしのOODアクティベートと、勾配更新が不要になる。
我々はGAEが非適応ID説明器よりも改善し、第二モーメントシフトによって余剰損失が四分の一に制限されていることを証明した。
実証的には、GAEは複数のモデルとOOD設定にまたがる因果的忠実さにおいて、トレーニングベースのベースラインをすべて一致または超えている。
関連論文リスト
- TAPIOCA: Why Task- Aware Pruning Improves OOD model Capability [4.56250586729666]
近年の作業では、特定のタスクにおけるモデルパフォーマンスを改善する手段として、タスク対応層プルーニングが推進されている。
このような刈り取りは, 分配データに利益をもたらすことなく, 分配精度を常に向上させることを示す。
これはタスク認識プルーニングの幾何学的説明につながる。
論文 参考訳(メタデータ) (2026-05-14T12:01:05Z) - A Signed Graph Approach to Understanding and Mitigating Oversmoothing in GNNs [54.62268052283014]
署名されたグラフの枠組みに基づく統一的な理論的視点を示す。
既存の戦略の多くは、メッセージパッシングを変えて過度な操作に抵抗する負のエッジを暗黙的に導入している。
本稿では,ラベルや特徴の類似性に基づいて署名されたエッジを割り当てるプラグイン・アンド・プレイ方式であるStructure Balanced Propagation (SBP)を提案する。
論文 参考訳(メタデータ) (2025-02-17T03:25:36Z) - Semantic or Covariate? A Study on the Intractable Case of Out-of-Distribution Detection [70.57120710151105]
ID分布のセマンティック空間をより正確に定義する。
また,OOD と ID の区別性を保証する "Tractable OOD" の設定も定義する。
論文 参考訳(メタデータ) (2024-11-18T03:09:39Z) - Dissecting the Failure of Invariant Learning on Graphs [36.11431280689549]
本研究では、2つの顕著な不変学習法の性能を理論的に判別する構造因果モデル(SCM)を開発した。
我々は,同じクラスに設定されたクロス環境表現をアライメントすることで,突発的特徴を明示的に排除する,クロス環境内アライメント(CIA)を提案する。
さらに、隣接ラベルの分布を利用してノード表現を選択的に整列させるCIA-LRA(Localized Reweighting Alignment)を提案する。
論文 参考訳(メタデータ) (2024-11-05T06:36:48Z) - Diagnosing and Rectifying Fake OOD Invariance: A Restructured Causal
Approach [51.012396632595554]
不変表現学習(IRL)は、不変因果的特徴から環境から切り離されたラベルへの予測を促進する。
最近の理論的結果は、IRLによって回復されたいくつかの因果的特徴は、訓練環境ではドメイン不変のふりをするが、目に見えない領域では失敗する。
本研究では,RS-SCMに関する条件付き相互情報に基づく手法を開発し,その効果を巧みに補正する。
論文 参考訳(メタデータ) (2023-12-15T12:58:05Z) - Disentanglement via Latent Quantization [60.37109712033694]
本研究では,組織化された潜在空間からの符号化と復号化に向けた帰納的バイアスを構築する。
本稿では,基本データレコーダ (vanilla autoencoder) と潜時再構成 (InfoGAN) 生成モデルの両方に追加することで,このアプローチの広範な適用性を実証する。
論文 参考訳(メタデータ) (2023-05-28T06:30:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。