論文の概要: OrthoFormer: Instrumental Variable Estimation in Transformer Hidden States via Neural Control Functions
- arxiv url: http://arxiv.org/abs/2603.07431v2
- Date: Sun, 15 Mar 2026 20:16:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 13:51:29.003405
- Title: OrthoFormer: Instrumental Variable Estimation in Transformer Hidden States via Neural Control Functions
- Title(参考訳): OrthoFormer:ニューラルコントロール機能を用いた変圧器隠蔽状態のインストゥルメンタル変数推定
- Authors: Charles Luo,
- Abstract要約: シーケンシャルなモデリングにおいて優れたトランスフォーマーアーキテクチャは、相関学習によって基本的に制限される。
そこで我々はOrthoFormerを提案する。OrthoFormerは機械的変数推定をニューラル制御機能を介してTransformerブロックに直接組み込む因果的基底アーキテクチャである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer architectures excel at sequential modeling yet remain fundamentally limited by correlational learning - they capture spurious associations induced by latent confounders rather than invariant causal mechanisms. We identify this as an epistemological challenge: standard Transformers conflate static background factors (intrinsic identity, style, context) with dynamic causal flows (state evolution, mechanism), leading to catastrophic out-of-distribution failure. We propose OrthoFormer, a causally grounded architecture that embeds instrumental variable estimation directly into Transformer blocks via neural control functions. Our framework rests on four theoretical pillars: Structural Directionality (time-arrow enforcement), Representation Orthogonality (latent-noise separation), Causal Sparsity (Markov Blanket approximation), and End-to-End Consistency (gradient- detached stage separation). We prove that OrthoFormer achieves bias strictly less than OLS for any valid instrument lag, with residual bias decaying geometrically as O(\r{ho}k ). We characterize the bias-variance-exogeneity trilemma inherent in self-instrumenting and identify the neural forbidden regression - where removing gradient detachment improves prediction loss while destroying causal validity. Experiments confirm all theoretical predictions. OrthoFormer represents a paradigm shift from correlational to causal sequence modeling, with implications for robustness, interpretability, and reliable decision-making under distribution shift.
- Abstract(参考訳): シーケンシャルなモデリングで優れているトランスフォーマーアーキテクチャは、相関学習によって基本的に制限されている。
標準的なトランスフォーマーは静的背景因子(固有のアイデンティティ、スタイル、コンテキスト)を動的因果フロー(状態の進化、メカニズム)と説明し、破滅的なアウト・オブ・ディストリビューション障害を引き起こす。
そこで我々はOrthoFormerを提案する。OrthoFormerは機械的変数推定をニューラル制御機能を介してTransformerブロックに直接組み込む因果的基底アーキテクチャである。
我々の枠組みは, 構造指向性(時間的狭行), 表現直交性(ラテン-ノイズ分離), 因果スカラー性(マルコフブランケット近似), 終端整合性(段階分離)の4つの理論的柱に依存している。
我々はOrthoFormerがO(\r{ho}k ) として幾何的に崩壊し、任意の有効な計器ラグに対して OLS よりも厳密にバイアスを達成できることを証明した。
我々は,自己構築に固有の偏差・異質性トリレンマを特徴付けるとともに,神経性禁忌の回帰を同定し,因果的妥当性を損なうことなく,勾配剥離の除去により予測損失が向上することを示した。
実験はすべての理論的な予測を裏付ける。
OrthoFormerは、相関性から因果シーケンスモデリングへのパラダイムシフトを表しており、分散シフトの下でのロバスト性、解釈可能性、信頼性の高い意思決定を示唆している。
関連論文リスト
- Information Fidelity in Tool-Using LLM Agents: A Martingale Analysis of the Model Context Protocol [69.11739400975445]
モデルコンテキストプロトコル(MCP)エージェントにおけるエラー蓄積を解析するための最初の理論的枠組みを紹介する。
累積歪みが線形成長と高確率偏差を$O(sqrtT)$で表すことを示す。
主な発見は、意味重み付けは歪みを80%減らし、周期的再接地は、エラー制御の約9ステップごとに十分である。
論文 参考訳(メタデータ) (2026-02-10T21:08:53Z) - Simulated Adoption: Decoupling Magnitude and Direction in LLM In-Context Conflict Resolution [3.0242762196828448]
大規模言語モデル(LLM)は、既存のパラメトリックメモリよりもコンテクスト内での競合情報を優先することが多い。
モデルが「未学習」や内部の真理の大きさを抑えるのではなく、幾何変位のメカニズムを用いていることを示す。
論文 参考訳(メタデータ) (2026-02-04T06:13:11Z) - Generating Causal Temporal Interaction Graphs for Counterfactual Validation of Temporal Link Prediction [7.925229590936017]
因果的相互作用グラフ (CTIG) を, 既知の地絡因果構造と組み合わせて生成する。
因果モデルを比較するために,クロスモデル予測誤差に基づく距離メトリックを提案する。
私たちのフレームワークは因果ベンチマークの基礎を提供します。
論文 参考訳(メタデータ) (2026-02-02T14:36:18Z) - Learning Causality for Longitudinal Data [1.2691047660244335]
この論文は、高次元の時間変化データにおける因果推論と因果表現学習の手法を開発する。
最初のコントリビューションは、個別処理効果(ITE)を推定するモデルであるCDVAE(Causal Dynamic Variational Autoencoder)の導入である。
第2のコントリビューションでは,Contrastive Predictive Coding (CPC) とInfoMaxによって強化された RNN に基づく長期的反事実回帰のための効率的なフレームワークを提案する。
第3のコントリビューションは、潜伏が観察された変数にどのように現れるかに対処することでCRLを前進させる。
論文 参考訳(メタデータ) (2025-12-04T16:51:49Z) - Structured Radial Basis Function Network: Modelling Diversity for
Multiple Hypotheses Prediction [51.82628081279621]
多重モード回帰は非定常過程の予測や分布の複雑な混合において重要である。
構造的放射基底関数ネットワークは回帰問題に対する複数の仮説予測器のアンサンブルとして提示される。
この構造モデルにより, このテッセルレーションを効率よく補間し, 複数の仮説対象分布を近似することが可能であることが証明された。
論文 参考訳(メタデータ) (2023-09-02T01:27:53Z) - Representation Disentaglement via Regularization by Causal
Identification [3.9160947065896803]
本稿では,不整合表現学習における基礎となるデータ生成過程の仮定を記述するために,因果コライダー構造モデルを提案する。
そこで本研究では,大規模生成モデルの挙動を因果同定によって課される絡み合った制約に整合させるモジュール型正規化エンジンReIを提案する。
論文 参考訳(メタデータ) (2023-02-28T23:18:54Z) - Score-based Causal Representation Learning with Interventions [54.735484409244386]
本稿では,潜在因果変数を間接的に観察する際の因果表現学習問題について検討する。
目的は、 (i) 未知の線形変換(スケーリングまで)を回復し、 (ii) 潜在変数の下の有向非巡回グラフ(DAG)を決定することである。
論文 参考訳(メタデータ) (2023-01-19T18:39:48Z) - Neuro-Symbolic Entropy Regularization [78.16196949641079]
構造化予測では、目的は構造化されたオブジェクトをエンコードする多くの出力変数を共同で予測することである。
エントロピー正則化(Entropy regularization)という1つのアプローチは、決定境界が低確率領域にあるべきであることを示唆している。
我々は、モデルが有効対象を確実に予測することを奨励する損失、ニューロシンボリックエントロピー正規化を提案する。
論文 参考訳(メタデータ) (2022-01-25T06:23:10Z) - Estimation of Bivariate Structural Causal Models by Variational Gaussian
Process Regression Under Likelihoods Parametrised by Normalising Flows [74.85071867225533]
因果機構は構造因果モデルによって記述できる。
最先端の人工知能の大きな欠点の1つは、説明責任の欠如である。
論文 参考訳(メタデータ) (2021-09-06T14:52:58Z) - Which Invariance Should We Transfer? A Causal Minimax Learning Approach [18.71316951734806]
本稿では、因果的観点からの包括的ミニマックス分析について述べる。
最小の最悪のリスクを持つサブセットを探索する効率的なアルゴリズムを提案する。
本手法の有効性と有効性は, 合成データとアルツハイマー病の診断で実証された。
論文 参考訳(メタデータ) (2021-07-05T09:07:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。