論文の概要: Addressing divergent representations from causal interventions on neural networks
- arxiv url: http://arxiv.org/abs/2511.04638v1
- Date: Thu, 06 Nov 2025 18:32:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-07 20:17:53.558429
- Title: Addressing divergent representations from causal interventions on neural networks
- Title(参考訳): ニューラルネットワークにおける因果的介入からの発散表現への対処
- Authors: Satchel Grant, Simon Jerome Han, Alexa Tartaglini, Christopher Potts,
- Abstract要約: 機械的解釈可能性に対する一般的なアプローチは、それらの表現が何を符号化しているかを理解するために、ターゲットとなる介入を通してモデル表現を因果的に操作することである。
ここでは、そのような介入がアウト・オブ・ディストリビューション(分散)表現を生み出しているのか、そしてそれが、その自然な状態におけるターゲットモデルに対するそれらの説明がどれほど忠実であるかについての懸念を引き起こすのかを問う。
- 参考スコア(独自算出の注目度): 23.09001545790228
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A common approach to mechanistic interpretability is to causally manipulate model representations via targeted interventions in order to understand what those representations encode. Here we ask whether such interventions create out-of-distribution (divergent) representations, and whether this raises concerns about how faithful their resulting explanations are to the target model in its natural state. First, we demonstrate empirically that common causal intervention techniques often do shift internal representations away from the natural distribution of the target model. Then, we provide a theoretical analysis of two classes of such divergences: `harmless' divergences that occur in the null-space of the weights and from covariance within behavioral decision boundaries, and `pernicious' divergences that activate hidden network pathways and cause dormant behavioral changes. Finally, in an effort to mitigate the pernicious cases, we modify the Counterfactual Latent (CL) loss from Grant (2025) that regularizes interventions to remain closer to the natural distributions, reducing the likelihood of harmful divergences while preserving the interpretive power of interventions. Together, these results highlight a path towards more reliable interpretability methods.
- Abstract(参考訳): 機械的解釈可能性に対する一般的なアプローチは、それらの表現が何を符号化しているかを理解するために、ターゲットとなる介入を通してモデル表現を因果的に操作することである。
ここでは、そのような介入がアウト・オブ・ディストリビューション(分散)表現を生み出しているのか、そしてそれが、その自然な状態におけるターゲットモデルに対するそれらの説明がどれほど忠実であるかについての懸念を引き起こすのかを問う。
まず、一般的な因果介入手法が、しばしば対象モデルの自然な分布から内部表現を逸脱させることを実証的に示す。
次に、重みのヌル空間および行動決定境界内の共分散から生じる「無害な」発散と、隠れたネットワーク経路を活性化し、休息的行動変化を引き起こす「過酷な」発散とを理論的に分析する。
最後に, 有害な事例を軽減するため, 介入の解釈力を維持しつつ, 有害な発散の可能性を低減し, 自然分布に近づき続けるように介入を規則化するグラント(2025年)からの対人的遅延(CL)損失を補正する。
これらの結果は、より信頼性の高い解釈可能性手法への道のりを浮き彫りにしている。
関連論文リスト
- Incorporating Interventional Independence Improves Robustness against Interventional Distribution Shift [14.497130575562698]
既存のアプローチは、基礎となる因果モデルが知られている場合でも、観察データのような介入データを扱う。
本稿では、介入中の統計的独立性を明示するトレーニングアルゴリズムであるRepLInを提案する。
論文 参考訳(メタデータ) (2025-07-07T18:51:20Z) - Counterfactual Realizability [52.85109506684737]
本稿では, 正規化可能性の定義, 分布からサンプルを抽出する能力を導入し, 任意の反事実分布が実現可能であるかどうかを判定する完全アルゴリズムを開発する。
本稿では、因果的公正さと因果的強化学習のモチベーション例を用いて、この新たな反ファクト的データ収集フレームワークの意義を説明する。
論文 参考訳(メタデータ) (2025-03-14T20:54:27Z) - What is causal about causal models and representations? [5.128695263114213]
因果ベイズネットワークは介入分布の予測を行うため「因果」モデルである。
このような因果モデル予測と実世界の成果を結びつけるためには、どの行動がモデル内のどの介入に対応するかを決定する必要がある。
我々は、介入の正確さとして、行動の異なる解釈にそのような要件を課すための正式な枠組みを導入する。
論文 参考訳(メタデータ) (2025-01-31T17:35:21Z) - Robust Domain Generalisation with Causal Invariant Bayesian Neural Networks [9.999199798941424]
本稿では,推論プロセスのメカニズムからデータ分布の学習を阻害するベイズ型ニューラルネットワークを提案する。
理論的,実験的に,我々のモデルは因果的介入下での推論に近似していることを示す。
論文 参考訳(メタデータ) (2024-10-08T20:38:05Z) - Identifiable Latent Neural Causal Models [82.14087963690561]
因果表現学習は、低レベルの観測データから潜伏した高レベルの因果表現を明らかにすることを目指している。
因果表現の識別可能性に寄与する分布シフトのタイプを決定する。
本稿では,本研究の成果を実用的なアルゴリズムに翻訳し,信頼性の高い潜在因果表現の取得を可能にする。
論文 参考訳(メタデータ) (2024-03-23T04:13:55Z) - Proxy Methods for Domain Adaptation [78.03254010884783]
プロキシ変数は、遅延変数を明示的にリカバリしたりモデル化したりすることなく、分散シフトへの適応を可能にする。
両設定の複雑な分散シフトに適応する2段階のカーネル推定手法を開発した。
論文 参考訳(メタデータ) (2024-03-12T09:32:41Z) - Differentiable Causal Discovery Under Latent Interventions [3.867363075280544]
最近の研究は、介入した変数が未知であっても、勾配に基づく手法による介入データを活用することにより因果発見の有望な結果を示している。
複数の介入分布と1つの観察分布からサンプリングされた広範囲なデータセットを用いたシナリオを想定するが、どの分布がそれぞれのサンプルに由来するのか、どのように介入がシステムに影響を及ぼすのかはわからない。
本稿では、ニューラルネットワークと変分推論に基づいて、無限混合物間の共用因果グラフを学習することで、このシナリオに対処する手法を提案する。
論文 参考訳(メタデータ) (2022-03-04T14:21:28Z) - Towards Robust and Adaptive Motion Forecasting: A Causal Representation
Perspective [72.55093886515824]
本稿では,3つの潜伏変数群からなる動的過程として,運動予測の因果的形式化を導入する。
我々は、因果グラフを近似するために、不変なメカニズムやスタイルの共創者の表現を分解するモジュラーアーキテクチャを考案する。
合成および実データを用いた実験結果から,提案した3つの成分は,学習した動き表現の頑健性と再利用性を大幅に向上することが示された。
論文 参考訳(メタデータ) (2021-11-29T18:59:09Z) - Which Invariance Should We Transfer? A Causal Minimax Learning Approach [18.71316951734806]
本稿では、因果的観点からの包括的ミニマックス分析について述べる。
最小の最悪のリスクを持つサブセットを探索する効率的なアルゴリズムを提案する。
本手法の有効性と有効性は, 合成データとアルツハイマー病の診断で実証された。
論文 参考訳(メタデータ) (2021-07-05T09:07:29Z) - Adversarial Robustness through the Lens of Causality [105.51753064807014]
ディープニューラルネットワークの敵対的脆弱性は、機械学習において大きな注目を集めている。
我々は、因果関係を敵対的脆弱性の軽減に組み込むことを提案する。
我々の手法は、敵の脆弱性を緩和するために因果性を利用する最初の試みと見なすことができる。
論文 参考訳(メタデータ) (2021-06-11T06:55:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。