論文の概要: Transformer Is Inherently a Causal Learner
- arxiv url: http://arxiv.org/abs/2601.05647v1
- Date: Fri, 09 Jan 2026 09:10:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-12 17:41:49.923596
- Title: Transformer Is Inherently a Causal Learner
- Title(参考訳): トランスフォーマーは因果学習者だ
- Authors: Xinyue Wang, Stephen Wang, Biwei Huang,
- Abstract要約: 自己回帰的に訓練されたトランスフォーマーは,時間遅れの因果構造を自然に符号化することを示す。
この関係を理論的に標準的な識別可能性条件下で証明する。
このアプローチは最先端の発見アルゴリズムの性能を大幅に上回る。
- 参考スコア(独自算出の注目度): 27.79148022495734
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We reveal that transformers trained in an autoregressive manner naturally encode time-delayed causal structures in their learned representations. When predicting future values in multivariate time series, the gradient sensitivities of transformer outputs with respect to past inputs directly recover the underlying causal graph, without any explicit causal objectives or structural constraints. We prove this connection theoretically under standard identifiability conditions and develop a practical extraction method using aggregated gradient attributions. On challenging cases such as nonlinear dynamics, long-term dependencies, and non-stationary systems, this approach greatly surpasses the performance of state-of-the-art discovery algorithms, especially as data heterogeneity increases, exhibiting scaling potential where causal accuracy improves with data volume and heterogeneity, a property traditional methods lack. This unifying view lays the groundwork for a future paradigm where causal discovery operates through the lens of foundation models, and foundation models gain interpretability and enhancement through the lens of causality.
- Abstract(参考訳): 自己回帰的な方法で訓練されたトランスフォーマーは、学習した表現の時間遅延因果構造を自然に符号化する。
多変量時系列における将来の値を予測するとき、過去の入力に対する変換器出力の勾配感度は、明確な因果目的や構造的制約なしに、根底にある因果グラフを直接回復する。
この関係を理論的に標準的な識別可能性条件下で証明し,集約的勾配属性を用いた実用的な抽出法を開発した。
非線形力学、長期依存、非定常システムといった挑戦的なケースにおいて、この手法は最先端の発見アルゴリズムの性能を大幅に上回り、特にデータの不均一性が増大し、因果精度がデータボリュームと不均一性によって向上するスケーリング可能性を示す。
この統一的な視点は、基礎モデルのレンズを通して因果発見が機能し、基礎モデルが因果関係のレンズを通して解釈可能性と拡張を得る未来のパラダイムの基盤となる。
関連論文リスト
- Adjustment for Confounding using Pre-Trained Representations [2.916285040262091]
本研究では,事前学習したニューラルネットワークの潜時的特徴をどのように活用し,共起源の調整を行うかを検討する。
ニューラルネットワークは、学習問題の空間性と次元という本質的な概念に適応することで、高速収束率を達成することができることを示す。
論文 参考訳(メタデータ) (2025-06-17T09:11:17Z) - Solving Inverse Problems with FLAIR [68.87167940623318]
本稿では,フローベース生成モデルを逆問題に先立って活用する学習自由変分フレームワークFLAIRを提案する。
標準画像ベンチマークの結果、FLAIRは再現性やサンプルの多様性の観点から、既存の拡散法や流れ法よりも一貫して優れていることが示された。
論文 参考訳(メタデータ) (2025-06-03T09:29:47Z) - In-Context Linear Regression Demystified: Training Dynamics and Mechanistic Interpretability of Multi-Head Softmax Attention [52.159541540613915]
本研究では,マルチヘッド型ソフトマックスアテンションモデルを用いて,線形データを用いたコンテキスト内学習を行う方法について検討する。
この結果から,学習内容の学習能力は,そのアーキテクチャと基礎となるデータ分布の集約的効果として,訓練されたトランスフォーマーから出現することが明らかとなった。
論文 参考訳(メタデータ) (2025-03-17T02:00:49Z) - Differentiable Causal Discovery For Latent Hierarchical Causal Models [19.373348700715578]
非線形潜在階層因果モデルの同定可能性に関する新しい理論的結果を示す。
我々は,そのようなモデルの構造を効率的に推定する,新しい微分可能な因果探索アルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-11-29T09:08:20Z) - A Temporally Disentangled Contrastive Diffusion Model for Spatiotemporal Imputation [35.46631415365955]
C$2$TSDという条件拡散フレームワークを導入する。
実世界の3つのデータセットに対する我々の実験は、最先端のベースラインと比較して、我々のアプローチの優れた性能を示している。
論文 参考訳(メタデータ) (2024-02-18T11:59:04Z) - Identifiable Latent Polynomial Causal Models Through the Lens of Change [82.14087963690561]
因果表現学習は、観測された低レベルデータから潜在的な高レベル因果表現を明らかにすることを目的としている。
主な課題の1つは、識別可能性(identifiability)として知られるこれらの潜伏因果モデルを特定する信頼性の高い保証を提供することである。
論文 参考訳(メタデータ) (2023-10-24T07:46:10Z) - Disentangling Generative Factors of Physical Fields Using Variational
Autoencoders [0.0]
本研究は,非線形次元低減のための変分オートエンコーダ (VAE) の利用について検討する。
不整合分解は解釈可能であり、生成的モデリングを含む様々なタスクに転送することができる。
論文 参考訳(メタデータ) (2021-09-15T16:02:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。