論文の概要: Causality is Key for Interpretability Claims to Generalise
- arxiv url: http://arxiv.org/abs/2602.16698v1
- Date: Wed, 18 Feb 2026 18:45:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-19 15:58:30.688982
- Title: Causality is Key for Interpretability Claims to Generalise
- Title(参考訳): 因果性(Causality)は、解釈可能性の主張を一般化するための鍵である
- Authors: Shruti Joshi, Aaron Mueller, David Klindt, Wieland Brendel, Patrik Reizinger, Dhanya Sridhar,
- Abstract要約: 大規模言語モデル(LLM)の解釈可能性の研究は、モデル行動に関する重要な洞察をもたらした。
繰り返し発生する落とし穴: 一般化しない発見と、証拠を突破する因果解釈。
パールの因果的階層は、解釈可能性の研究が正当化できることを明確にする。
- 参考スコア(独自算出の注目度): 35.833847356014154
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Interpretability research on large language models (LLMs) has yielded important insights into model behaviour, yet recurring pitfalls persist: findings that do not generalise, and causal interpretations that outrun the evidence. Our position is that causal inference specifies what constitutes a valid mapping from model activations to invariant high-level structures, the data or assumptions needed to achieve it, and the inferences it can support. Specifically, Pearl's causal hierarchy clarifies what an interpretability study can justify. Observations establish associations between model behaviour and internal components. Interventions (e.g., ablations or activation patching) support claims how these edits affect a behavioural metric (\eg, average change in token probabilities) over a set of prompts. However, counterfactual claims -- i.e., asking what the model output would have been for the same prompt under an unobserved intervention -- remain largely unverifiable without controlled supervision. We show how causal representation learning (CRL) operationalises this hierarchy, specifying which variables are recoverable from activations and under what assumptions. Together, these motivate a diagnostic framework that helps practitioners select methods and evaluations matching claims to evidence such that findings generalise.
- Abstract(参考訳): 大規模言語モデル(LLMs)に関する解釈可能性の研究は、モデル行動に関する重要な洞察を得たが、繰り返し発生する落とし穴は、一般化しない発見と、証拠を破る因果解釈を継続している。
私たちの立場では、因果推論は、モデルアクティベーションから不変なハイレベル構造への有効なマッピングを構成するもの、それを達成するために必要なデータや仮定、そしてそれがサポートできる推論を定義します。
特に、パールの因果的階層は、解釈可能性の研究が正当化できることを明確にしている。
観察はモデル行動と内部コンポーネントの関連性を確立する。
インターベンション(例えば、アブレーションやアクティベーションパッチ)のサポートは、これらの編集が一連のプロンプトに対する行動指標(トークン確率の平均変化)にどのように影響するかを主張する。
しかし、反事実的主張(すなわち、観測されていない介入の下でモデル出力が同じプロンプトで何であったのかを問う)は、制御された監督なしには、ほとんど検証できないままである。
因果表現学習(CRL)がこの階層をどう操作するかを示し、どの変数がアクティベーションから、どの仮定の下で回復可能かを指定する。
これらと合わせて,発見が一般化する証拠と一致したクレームの方法や評価を実践者が選択するのに役立つ診断フレームワークがモチベーションとなっている。
関連論文リスト
- Identifiable Latent Neural Causal Models [82.14087963690561]
因果表現学習は、低レベルの観測データから潜伏した高レベルの因果表現を明らかにすることを目指している。
因果表現の識別可能性に寄与する分布シフトのタイプを決定する。
本稿では,本研究の成果を実用的なアルゴリズムに翻訳し,信頼性の高い潜在因果表現の取得を可能にする。
論文 参考訳(メタデータ) (2024-03-23T04:13:55Z) - Causal Representation Learning Made Identifiable by Grouping of Observational Variables [8.157856010838382]
因果表現学習(Causal Representation Learning)は、データ駆動型で隠れた機能の因果モデルを学ぶことを目的としている。
ここでは、新規で弱い制約に基づく識別可能性を示す。
また,モデルに整合した新たな自己教師付き推定フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-24T10:38:02Z) - A Causal Ordering Prior for Unsupervised Representation Learning [27.18951912984905]
因果表現学習(Causal representation learning)は、データセットの変動の要因は、実際には因果関係にあると主張している。
本稿では,遅延付加雑音モデルを用いたデータ生成過程を考慮した,教師なし表現学習手法を提案する。
論文 参考訳(メタデータ) (2023-07-11T18:12:05Z) - Advancing Counterfactual Inference through Nonlinear Quantile Regression [77.28323341329461]
ニューラルネットワークで実装された効率的かつ効果的な対実的推論のためのフレームワークを提案する。
提案手法は、推定された反事実結果から見つからないデータまでを一般化する能力を高める。
複数のデータセットで実施した実証実験の結果は、我々の理論的な主張に対する説得力のある支持を提供する。
論文 参考訳(メタデータ) (2023-06-09T08:30:51Z) - Nonparametric Identifiability of Causal Representations from Unknown
Interventions [63.1354734978244]
本研究では, 因果表現学習, 潜伏因果変数を推定するタスク, およびそれらの変数の混合から因果関係を考察する。
我々のゴールは、根底にある真理潜入者とその因果グラフの両方を、介入データから解決不可能なあいまいさの集合まで識別することである。
論文 参考訳(メタデータ) (2023-06-01T10:51:58Z) - Representation Disentaglement via Regularization by Causal
Identification [3.9160947065896803]
本稿では,不整合表現学習における基礎となるデータ生成過程の仮定を記述するために,因果コライダー構造モデルを提案する。
そこで本研究では,大規模生成モデルの挙動を因果同定によって課される絡み合った制約に整合させるモジュール型正規化エンジンReIを提案する。
論文 参考訳(メタデータ) (2023-02-28T23:18:54Z) - Structural Causal Models Are (Solvable by) Credal Networks [70.45873402967297]
因果推論は、干潟網の更新のための標準的なアルゴリズムによって得ることができる。
この貢献は, 干潟ネットワークによる構造因果モデルを表現するための体系的なアプローチと見なされるべきである。
実験により, 実規模問題における因果推論には, クレーダルネットワークの近似アルゴリズムがすぐに利用できることがわかった。
論文 参考訳(メタデータ) (2020-08-02T11:19:36Z) - CausalVAE: Structured Causal Disentanglement in Variational Autoencoder [52.139696854386976]
変分オートエンコーダ(VAE)の枠組みは、観測から独立した因子をアンタングルするために一般的に用いられる。
本稿では, 因果内因性因子を因果内因性因子に変換する因果層を含むVOEベースの新しいフレームワークCausalVAEを提案する。
その結果、CausalVAEが学習した因果表現は意味論的に解釈可能であり、DAG(Directed Acyclic Graph)としての因果関係は精度良く同定された。
論文 参考訳(メタデータ) (2020-04-18T20:09:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。