論文の概要: Reading Between the Lines: Deconfounding Causal Estimates using Text Embeddings and Deep Learning
- arxiv url: http://arxiv.org/abs/2601.01511v1
- Date: Sun, 04 Jan 2026 12:36:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:22.454082
- Title: Reading Between the Lines: Deconfounding Causal Estimates using Text Embeddings and Deep Learning
- Title(参考訳): 行間を読む:テキスト埋め込みとディープラーニングを用いた因果推定を分解する
- Authors: Ahmed Dawoud, Osama El-Shamy,
- Abstract要約: 観察環境における因果治療効果の推定は、観測されていない共同設立者による選択バイアスによってしばしば損なわれる。
本研究では、因果同定にテキスト埋め込みを利用するニューラルネットワーク強化ダブル機械学習フレームワークを提案する。
- 参考スコア(独自算出の注目度): 2.166951056466717
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Estimating causal treatment effects in observational settings is frequently compromised by selection bias arising from unobserved confounders. While traditional econometric methods struggle when these confounders are orthogonal to structured covariates, high-dimensional unstructured text often contains rich proxies for these latent variables. This study proposes a Neural Network-Enhanced Double Machine Learning (DML) framework designed to leverage text embeddings for causal identification. Using a rigorous synthetic benchmark, we demonstrate that unstructured text embeddings capture critical confounding information that is absent from structured tabular data. However, we show that standard tree-based DML estimators retain substantial bias (+24%) due to their inability to model the continuous topology of embedding manifolds. In contrast, our deep learning approach reduces bias to -0.86% with optimized architectures, effectively recovering the ground-truth causal parameter. These findings suggest that deep learning architectures are essential for satisfying the unconfoundedness assumption when conditioning on high-dimensional natural language data
- Abstract(参考訳): 観察環境における因果治療効果の推定は、観測されていない共同設立者による選択バイアスによってしばしば損なわれる。
従来の計量的手法は、これらの共同創設者が構造的共変体に直交するときに苦労するが、高次元の非構造的テキストは、これらの潜伏変数に対してリッチなプロキシを含むことが多い。
本研究では、因果同定にテキスト埋め込みを利用するニューラルネットワーク強化ダブル機械学習(DML)フレームワークを提案する。
厳密な合成ベンチマークを用いて、構造化表データから欠落している重要な共起情報を非構造化テキスト埋め込みが取得できることを実証する。
しかし、埋め込み多様体の連続位相をモデル化できないため、標準木に基づくDML推定器は実質バイアス(+24%)を保っている。
対照的に、私たちのディープラーニングアプローチは最適化されたアーキテクチャで-0.86%のバイアスを減らし、地道因果パラメータを効果的に回復する。
これらの結果は,高次元自然言語データに基づく条件付けにおいて,未定の仮定を満たすためには,ディープラーニングアーキテクチャが不可欠であることを示唆している。
関連論文リスト
- A Unifying Framework for Robust and Efficient Inference with Unstructured Data [2.07180164747172]
本稿では、非構造化データから導出されるパラメータの効率的な推論を行うための一般的な枠組みを提案する。
提案手法は,既存の推論手法を統一し拡張するフレームワークであるMAR-Sで定式化する。
このフレームワーク内では、記述的および因果推定の両方のための堅牢で効率的な推定器を開発する。
論文 参考訳(メタデータ) (2025-05-01T04:11:25Z) - Learning Decision Trees as Amortized Structure Inference [59.65621207449269]
本稿では,予測決定木アンサンブルを学習するためのハイブリッドアモータイズされた構造推論手法を提案する。
提案手法であるDT-GFNは,標準分類ベンチマークにおける最先端決定木やディープラーニング手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-03-10T07:05:07Z) - Enhancing Systematic Decompositional Natural Language Inference Using Informal Logic [51.967603572656266]
我々は,分解包含を注釈付けするための一貫した理論的なアプローチを導入する。
我々の新しいデータセットRDTEは、前回の分解エンターメントデータセットよりもかなり高い内部整合性(+9%)を持つことがわかった。
また,RDTE による知識蒸留によるエンテーメント分類器の訓練や,エンテーメントツリー推論エンジンへの導入により,精度と検証精度が向上することが確認された。
論文 参考訳(メタデータ) (2024-02-22T18:55:17Z) - How Well Do Text Embedding Models Understand Syntax? [50.440590035493074]
テキスト埋め込みモデルが幅広い構文的文脈にまたがって一般化する能力は、まだ解明されていない。
その結果,既存のテキスト埋め込みモデルは,これらの構文的理解課題に十分対応していないことが明らかとなった。
多様な構文シナリオにおけるテキスト埋め込みモデルの一般化能力を高めるための戦略を提案する。
論文 参考訳(メタデータ) (2023-11-14T08:51:00Z) - A Comparative Study on Structural and Semantic Properties of Sentence
Embeddings [77.34726150561087]
本稿では,関係抽出に広く利用されている大規模データセットを用いた実験セットを提案する。
異なる埋め込み空間は、構造的および意味的特性に対して異なる強度を持つことを示す。
これらの結果は,埋め込み型関係抽出法の開発に有用な情報を提供する。
論文 参考訳(メタデータ) (2020-09-23T15:45:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。