論文の概要: Detecting and Mitigating Treatment Leakage in Text-Based Causal Inference: Distillation and Sensitivity Analysis
- arxiv url: http://arxiv.org/abs/2601.02400v1
- Date: Tue, 30 Dec 2025 20:36:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-07 17:02:12.62669
- Title: Detecting and Mitigating Treatment Leakage in Text-Based Causal Inference: Distillation and Sensitivity Analysis
- Title(参考訳): テキストベースの因果推論における処理漏れの検出と緩和:蒸留と感度分析
- Authors: Adel Daoud, Richard Johansson, Connor T. Jerzak,
- Abstract要約: 治療漏れは、治療状態の予測信号を含むテキストが、相反する情報を含む場合に発生する。
テキスト・アズ・ア・共同創業者のアプリケーションにおいて、治療漏れを識別し緩和するための体系的な方法はない。
本研究では,共同創設者情報を保存しながら,治療予測内容の除去を目的とした4つのテキスト蒸留手法を提案する。
- 参考スコア(独自算出の注目度): 7.710436567988377
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Text-based causal inference increasingly employs textual data as proxies for unobserved confounders, yet this approach introduces a previously undertheorized source of bias: treatment leakage. Treatment leakage occurs when text intended to capture confounding information also contains signals predictive of treatment status, thereby inducing post-treatment bias in causal estimates. Critically, this problem can arise even when documents precede treatment assignment, as authors may employ future-referencing language that anticipates subsequent interventions. Despite growing recognition of this issue, no systematic methods exist for identifying and mitigating treatment leakage in text-as-confounder applications. This paper addresses this gap through three contributions. First, we provide formal statistical and set-theoretic definitions of treatment leakage that clarify when and why bias occurs. Second, we propose four text distillation methods -- similarity-based passage removal, distant supervision classification, salient feature removal, and iterative nullspace projection -- designed to eliminate treatment-predictive content while preserving confounder information. Third, we validate these methods through simulations using synthetic text and an empirical application examining International Monetary Fund structural adjustment programs and child mortality. Our findings indicate that moderate distillation optimally balances bias reduction against confounder retention, whereas overly stringent approaches degrade estimate precision.
- Abstract(参考訳): テキストベースの因果推論は、保存されていない共同創設者のプロキシとしてテキストデータをますます採用している。
処理漏れは、不確実な情報をキャプチャしようとするテキストが、治療状態を予測する信号も含んでおり、因果推定における後処理バイアスを誘発する。
批判的に、文書が治療代行に先立ってもこの問題は発生しうる。
この問題に対する認識が高まる一方で、テキスト・アズ・ア・共同創業者のアプリケーションにおける治療漏れの特定と緩和のための体系的な手法は存在しない。
本稿では,このギャップを3つのコントリビューションを通じて解決する。
まず, バイアスの発生時期と原因を明らかにするための, 治療漏れの統計的および集合論的定義を提供する。
次に, 類似性に基づく通過除去, 遠隔監督分類, 有意な特徴除去, 反復的ヌルスペース投影という4つのテキスト蒸留手法を提案する。
第3に, 人工テキストを用いたシミュレーションと国際通貨基金構造調整プログラムと児童死亡率の実証的応用により, これらの手法を検証した。
以上の結果から, 適度蒸留は, コンファウンデーション保持に対するバイアス低減のバランスを最適に保ち, 過度に厳密なアプローチは推定精度を低下させることが明らかとなった。
関連論文リスト
- Text Rationalization for Robust Causal Effect Estimation [4.125187280299246]
高次元テキストは因果同定と推定に固有の課題を提起する。
冗長または刺激的なテキストの特徴は次元性を増し、極端な確率スコア、不安定な重み、効果推定における膨らませられたばらつきを生み出す。
トークンの少ないサブセットを選択するフレームワークであるConfounding-Aware Token Rationalization (CATR)を用いて,これらの課題に対処する。
論文 参考訳(メタデータ) (2025-12-05T02:18:45Z) - Conformal Prediction for Multi-Source Detection on a Network [59.17729745907474]
マルチソース検出問題について検討する。
グラフ上のノード感染状況のスナップショットが与えられた場合、伝播を開始するソースノードのセットを推定する。
本稿では,ソースセット検出のための統計的に有効なリコール保証を提供する新しいコンフォメーション予測フレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-12T01:09:56Z) - Assessing the robustness of heterogeneous treatment effects in survival analysis under informative censoring [50.164756034797136]
臨床研究ではドロップアウトが一般的で、副作用やその他の理由で患者の半数以上が早期に退院する。
ドロップアウトが有益な場合、治療効果の推定値にもバイアスがかかるため、検閲バイアスが導入される。
検閲バイアスに直面した場合の生存分析における条件平均処理効果推定のロバスト性を評価するための仮定リーンフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-15T10:51:17Z) - The Epistemic Suite: A Post-Foundational Diagnostic Methodology for Assessing AI Knowledge Claims [0.7233897166339268]
本稿では,AI出力の生成と受信の状況を理解するための診断手法であるEpistemic Suiteを紹介する。
真実や虚偽を判断する代わりに、スイートは20個の診断レンズを通して、信頼の洗浄、物語の圧縮、異動した権威、一時的な漂流などのパターンを明らかにする。
論文 参考訳(メタデータ) (2025-09-20T00:29:38Z) - Mitigating Multimodal Hallucinations via Gradient-based Self-Reflection [49.26064449816502]
本研究では,テキスト・視覚バイアスと共起バイアスに対処するために,グラディエントベースのインフルエンス・アウェア制約付きデコーディング(GACD)手法を提案する。
GACDは幻覚を効果的に低減し、MLLM出力の視覚的接地を改善する。
論文 参考訳(メタデータ) (2025-09-03T08:13:52Z) - Perplexity Trap: PLM-Based Retrievers Overrate Low Perplexity Documents [64.43980129731587]
因果診断・矯正法(CDC)という因果推論時間脱バイアス法を提案する。
CDCはまず、パープレキシティのバイアス効果を診断し、その後、全体の関連スコアからバイアス効果を分離する。
3つの領域にまたがる実験結果から, より優れた脱バイアス効果が示された。
論文 参考訳(メタデータ) (2025-03-11T17:59:00Z) - Classifier Guidance Enhances Diffusion-based Adversarial Purification by Preserving Predictive Information [75.36597470578724]
敵の浄化は、敵の攻撃からニューラルネットワークを守るための有望なアプローチの1つである。
分類器決定境界から遠ざかって, 清浄するgUided Purification (COUP)アルゴリズムを提案する。
実験結果から, COUPは強力な攻撃法でより優れた対向的堅牢性が得られることが示された。
論文 参考訳(メタデータ) (2024-08-12T02:48:00Z) - Proximal Causal Inference With Text Data [5.796482272333648]
本稿では,2つの前処理テキストデータを用いた因果推論手法を提案し,2つのゼロショットモデルを用いて2つのプロキシを推定し,それらのプロキシを近位g-形式に適用する。
ゼロショット予測のためのMIMIC-IIIおよびオープン大言語モデルを用いた実世界の臨床ノートを用いて, 合成および半合成条件下での手法の評価を行った。
論文 参考訳(メタデータ) (2024-01-12T16:51:02Z) - Conceptualizing Treatment Leakage in Text-based Causal Inference [0.1160208922584163]
本稿では,治療指導問題について論じるとともに,それらが提起する評価課題についても論じる。
平均処理効果 (ATE) の推定値に, 処理漏れがどのようなバイアスをもたらすか, テキスト蒸留によってこのバイアスを緩和するかを示す。
論文 参考訳(メタデータ) (2022-05-01T13:13:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。