論文の概要: Text Rationalization for Robust Causal Effect Estimation
- arxiv url: http://arxiv.org/abs/2512.05373v1
- Date: Fri, 05 Dec 2025 02:18:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-13 22:40:56.870836
- Title: Text Rationalization for Robust Causal Effect Estimation
- Title(参考訳): ロバスト因果効果推定のためのテキスト合理化
- Authors: Lijinghua Zhang, Hengrui Cai,
- Abstract要約: 高次元テキストは因果同定と推定に固有の課題を提起する。
冗長または刺激的なテキストの特徴は次元性を増し、極端な確率スコア、不安定な重み、効果推定における膨らませられたばらつきを生み出す。
トークンの少ないサブセットを選択するフレームワークであるConfounding-Aware Token Rationalization (CATR)を用いて,これらの課題に対処する。
- 参考スコア(独自算出の注目度): 4.125187280299246
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in natural language processing have enabled the increasing use of text data in causal inference, particularly for adjusting confounding factors in treatment effect estimation. Although high-dimensional text can encode rich contextual information, it also poses unique challenges for causal identification and estimation. In particular, the positivity assumption, which requires sufficient treatment overlap across confounder values, is often violated at the observational level, when massive text is represented in feature spaces. Redundant or spurious textual features inflate dimensionality, producing extreme propensity scores, unstable weights, and inflated variance in effect estimates. We address these challenges with Confounding-Aware Token Rationalization (CATR), a framework that selects a sparse necessary subset of tokens using a residual-independence diagnostic designed to preserve confounding information sufficient for unconfoundedness. By discarding irrelevant texts while retaining key signals, CATR mitigates observational-level positivity violations and stabilizes downstream causal effect estimators. Experiments on synthetic data and a real-world study using the MIMIC-III database demonstrate that CATR yields more accurate, stable, and interpretable causal effect estimates than existing baselines.
- Abstract(参考訳): 近年の自然言語処理の進歩により、因果推論におけるテキストデータの利用が増加し、特に治療効果推定における背景因子の調整が可能になった。
高次元テキストは、リッチな文脈情報をエンコードすることができるが、因果同定と推定に固有の課題を生じさせる。
特に、共同創設者の値間で十分な処理の重複を必要とする肯定的仮定は、大きなテキストが特徴空間で表現される場合、観測レベルではしばしば違反される。
冗長または刺激的なテキストの特徴は次元性を増し、極端な確率スコア、不安定な重み、効果推定における膨らませられたばらつきを生み出す。
このような課題に対処するために,未確立性に十分な情報を保持するために設計された残差診断を用いて,トークンのスパースに必要なサブセットを選択するフレームワークであるConfounding-Aware Token Rationalization (CATR) を用いて対処する。
キー信号を保持しながら無関係なテキストを破棄することにより、CATRは観測レベルの肯定的な違反を軽減し、下流の因果効果推定器を安定化させる。
合成データの実験とMIMIC-IIIデータベースを用いた実世界の研究により、CATRは既存のベースラインよりも正確で安定で解釈可能な因果効果の推定値を得ることが示された。
関連論文リスト
- Revisiting Multivariate Time Series Forecasting with Missing Values [65.30332997607141]
現実の時系列では欠落値が一般的である。
現在のアプローチでは、計算モジュールを使用して、不足した値を補う、計算済みの予測フレームワークが開発されている。
このフレームワークは、致命的な問題を見落としている: 欠落した値に対して基礎的な真理は存在せず、予測精度を劣化させる可能性のあるエラーの影響を受けやすいようにしている。
本稿では,Information Bottleneck原則に基づく新しいフレームワークであるConsistency-Regularized Information Bottleneck(CRIB)を紹介する。
論文 参考訳(メタデータ) (2025-09-27T20:57:48Z) - Data Fusion for Partial Identification of Causal Effects [62.56890808004615]
本稿では,研究者が重要な疑問に答えられるような,新しい部分的識別フレームワークを提案する。
因果効果は肯定的か否定的か?
本研究の枠組みをSTARプロジェクトに適用し,第3級の標準試験性能に対する教室規模の影響について検討する。
論文 参考訳(メタデータ) (2025-05-30T07:13:01Z) - Enhancing Systematic Decompositional Natural Language Inference Using Informal Logic [51.967603572656266]
我々は,分解包含を注釈付けするための一貫した理論的なアプローチを導入する。
我々の新しいデータセットRDTEは、前回の分解エンターメントデータセットよりもかなり高い内部整合性(+9%)を持つことがわかった。
また,RDTE による知識蒸留によるエンテーメント分類器の訓練や,エンテーメントツリー推論エンジンへの導入により,精度と検証精度が向上することが確認された。
論文 参考訳(メタデータ) (2024-02-22T18:55:17Z) - Data Augmentations for Improved (Large) Language Model Generalization [17.75815547057179]
本稿では,データの因果構造を知ることによって導かれる反ファクト的データ拡張を用いて,突発的特徴に対する介入をシミュレートすることを提案する。
この戦略は,ラベルが属性と突発的に相関しているような予測問題に適していることを示す。
論文 参考訳(メタデータ) (2023-10-19T14:59:25Z) - Local Intrinsic Dimensionality Signals Adversarial Perturbations [28.328973408891834]
局所次元(Local dimensionality, LID)は、各データポイントを記述するのに必要な潜伏変数の最小数を記述する局所計量である。
本稿では、摂動データポイントのLID値に対する下界と上界を導出し、特に下界は摂動の大きさと正の相関を持つことを示す。
論文 参考訳(メタデータ) (2021-09-24T08:29:50Z) - Provably Efficient Causal Reinforcement Learning with Confounded
Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。
提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T14:49:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。