論文の概要: Text Rationalization for Robust Causal Effect Estimation
- arxiv url: http://arxiv.org/abs/2512.05373v1
- Date: Fri, 05 Dec 2025 02:18:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-13 22:40:56.870836
- Title: Text Rationalization for Robust Causal Effect Estimation
- Title(参考訳): ロバスト因果効果推定のためのテキスト合理化
- Authors: Lijinghua Zhang, Hengrui Cai,
- Abstract要約: 高次元テキストは因果同定と推定に固有の課題を提起する。
冗長または刺激的なテキストの特徴は次元性を増し、極端な確率スコア、不安定な重み、効果推定における膨らませられたばらつきを生み出す。
トークンの少ないサブセットを選択するフレームワークであるConfounding-Aware Token Rationalization (CATR)を用いて,これらの課題に対処する。
- 参考スコア(独自算出の注目度): 4.125187280299246
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in natural language processing have enabled the increasing use of text data in causal inference, particularly for adjusting confounding factors in treatment effect estimation. Although high-dimensional text can encode rich contextual information, it also poses unique challenges for causal identification and estimation. In particular, the positivity assumption, which requires sufficient treatment overlap across confounder values, is often violated at the observational level, when massive text is represented in feature spaces. Redundant or spurious textual features inflate dimensionality, producing extreme propensity scores, unstable weights, and inflated variance in effect estimates. We address these challenges with Confounding-Aware Token Rationalization (CATR), a framework that selects a sparse necessary subset of tokens using a residual-independence diagnostic designed to preserve confounding information sufficient for unconfoundedness. By discarding irrelevant texts while retaining key signals, CATR mitigates observational-level positivity violations and stabilizes downstream causal effect estimators. Experiments on synthetic data and a real-world study using the MIMIC-III database demonstrate that CATR yields more accurate, stable, and interpretable causal effect estimates than existing baselines.
- Abstract(参考訳): 近年の自然言語処理の進歩により、因果推論におけるテキストデータの利用が増加し、特に治療効果推定における背景因子の調整が可能になった。
高次元テキストは、リッチな文脈情報をエンコードすることができるが、因果同定と推定に固有の課題を生じさせる。
特に、共同創設者の値間で十分な処理の重複を必要とする肯定的仮定は、大きなテキストが特徴空間で表現される場合、観測レベルではしばしば違反される。
冗長または刺激的なテキストの特徴は次元性を増し、極端な確率スコア、不安定な重み、効果推定における膨らませられたばらつきを生み出す。
このような課題に対処するために,未確立性に十分な情報を保持するために設計された残差診断を用いて,トークンのスパースに必要なサブセットを選択するフレームワークであるConfounding-Aware Token Rationalization (CATR) を用いて対処する。
キー信号を保持しながら無関係なテキストを破棄することにより、CATRは観測レベルの肯定的な違反を軽減し、下流の因果効果推定器を安定化させる。
合成データの実験とMIMIC-IIIデータベースを用いた実世界の研究により、CATRは既存のベースラインよりも正確で安定で解釈可能な因果効果の推定値を得ることが示された。
関連論文リスト
- Causal Effect Estimation with Latent Textual Treatments [9.451877252547197]
本稿では,テキスト介入の発生と因果推定のためのエンドツーエンドパイプラインを提案する。
我々の研究はまず、スパースオートエンコーダ(SAE)による仮説生成とステアリングを行い、続いて堅牢な因果推定を行った。
論文 参考訳(メタデータ) (2026-02-17T17:06:12Z) - CALM: A Causal Analysis Language Model for Tabular Data in Complex Systems with Local Scores, Conditional Independence Tests, and Relation Attributes [15.298086464296235]
観測データからの因果発見は生物学のような科学分野に不可欠である。
制約ベースのアプローチやスコアベースのアプローチを含む既存の手法は、重大な制限に直面している。
本稿では,表データに特化して設計された新しい因果解析言語CALMを紹介する。
論文 参考訳(メタデータ) (2025-10-10T20:19:20Z) - Revisiting Multivariate Time Series Forecasting with Missing Values [65.30332997607141]
現実の時系列では欠落値が一般的である。
現在のアプローチでは、計算モジュールを使用して、不足した値を補う、計算済みの予測フレームワークが開発されている。
このフレームワークは、致命的な問題を見落としている: 欠落した値に対して基礎的な真理は存在せず、予測精度を劣化させる可能性のあるエラーの影響を受けやすいようにしている。
本稿では,Information Bottleneck原則に基づく新しいフレームワークであるConsistency-Regularized Information Bottleneck(CRIB)を紹介する。
論文 参考訳(メタデータ) (2025-09-27T20:57:48Z) - Do-PFN: In-Context Learning for Causal Effect Estimation [75.62771416172109]
予備データ適合ネットワーク(PFN)は, 合成データに基づいて事前学習を行い, 結果を予測する。
提案手法により,基礎となる因果グラフの知識を必要とせず,因果効果の正確な推定が可能となる。
論文 参考訳(メタデータ) (2025-06-06T12:43:57Z) - Data Fusion for Partial Identification of Causal Effects [62.56890808004615]
本稿では,研究者が重要な疑問に答えられるような,新しい部分的識別フレームワークを提案する。
因果効果は肯定的か否定的か?
本研究の枠組みをSTARプロジェクトに適用し,第3級の標準試験性能に対する教室規模の影響について検討する。
論文 参考訳(メタデータ) (2025-05-30T07:13:01Z) - Enhancing Systematic Decompositional Natural Language Inference Using Informal Logic [51.967603572656266]
我々は,分解包含を注釈付けするための一貫した理論的なアプローチを導入する。
我々の新しいデータセットRDTEは、前回の分解エンターメントデータセットよりもかなり高い内部整合性(+9%)を持つことがわかった。
また,RDTE による知識蒸留によるエンテーメント分類器の訓練や,エンテーメントツリー推論エンジンへの導入により,精度と検証精度が向上することが確認された。
論文 参考訳(メタデータ) (2024-02-22T18:55:17Z) - AMRFact: Enhancing Summarization Factuality Evaluation with AMR-Driven Negative Samples Generation [57.8363998797433]
抽象的意味表現(AMR)を用いた摂動要約を生成するフレームワークであるAMRFactを提案する。
提案手法は,AMRグラフに一貫した要約を解析し,制御された事実不整合を注入して負の例を生成し,一貫性のない事実不整合要約を高い誤差型カバレッジで生成する。
論文 参考訳(メタデータ) (2023-11-16T02:56:29Z) - Data Augmentations for Improved (Large) Language Model Generalization [17.75815547057179]
本稿では,データの因果構造を知ることによって導かれる反ファクト的データ拡張を用いて,突発的特徴に対する介入をシミュレートすることを提案する。
この戦略は,ラベルが属性と突発的に相関しているような予測問題に適していることを示す。
論文 参考訳(メタデータ) (2023-10-19T14:59:25Z) - Causal Estimation for Text Data with (Apparent) Overlap Violations [16.94058221134916]
本稿では,明らかに重複する違反が存在する場合に,因果同定の扱い方と,因果推定の堅牢性を示す。
その考え方は、教師付き表現学習を使用して、情報を保存するデータ表現を作成することである。
論文 参考訳(メタデータ) (2022-09-30T20:33:17Z) - Local Intrinsic Dimensionality Signals Adversarial Perturbations [28.328973408891834]
局所次元(Local dimensionality, LID)は、各データポイントを記述するのに必要な潜伏変数の最小数を記述する局所計量である。
本稿では、摂動データポイントのLID値に対する下界と上界を導出し、特に下界は摂動の大きさと正の相関を持つことを示す。
論文 参考訳(メタデータ) (2021-09-24T08:29:50Z) - Provably Efficient Causal Reinforcement Learning with Confounded
Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。
提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T14:49:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。