論文の概要: Proximal Causal Inference With Text Data
- arxiv url: http://arxiv.org/abs/2401.06687v2
- Date: Tue, 21 May 2024 21:08:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-25 11:46:15.479153
- Title: Proximal Causal Inference With Text Data
- Title(参考訳): テキストデータを用いた近因性推論
- Authors: Jacob M. Chen, Rohit Bhattacharya, Katherine A. Keith,
- Abstract要約: 最近のテキストベースの因果的手法は、非構造化テキストデータから部分的にあるいは不完全に測定された共起変数のプロキシを推定することにより、共起バイアスを軽減しようとする。
本稿では,複数の前処理テキストデータを用いた因果推論手法を提案し,二つのゼロショットモデルから2つのプロキシを推定し,それらのプロキシを近位g-形式に適用する。
本手法は, 合成および半合成条件下で評価し, 低バイアスで推定値が得られた。
- 参考スコア(独自算出の注目度): 5.796482272333648
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent text-based causal methods attempt to mitigate confounding bias by estimating proxies of confounding variables that are partially or imperfectly measured from unstructured text data. These approaches, however, assume analysts have supervised labels of the confounders given text for a subset of instances, a constraint that is sometimes infeasible due to data privacy or annotation costs. In this work, we address settings in which an important confounding variable is completely unobserved. We propose a new causal inference method that uses multiple instances of pre-treatment text data, infers two proxies from two zero-shot models on the separate instances, and applies these proxies in the proximal g-formula. We prove that our text-based proxy method satisfies identification conditions required by the proximal g-formula while other seemingly reasonable proposals do not. We evaluate our method in synthetic and semi-synthetic settings and find that it produces estimates with low bias. To address untestable assumptions associated with the proximal g-formula, we further propose an odds ratio falsification heuristic. This new combination of proximal causal inference and zero-shot classifiers expands the set of text-specific causal methods available to practitioners.
- Abstract(参考訳): 最近のテキストベースの因果的手法は、非構造化テキストデータから部分的にあるいは不完全に測定された共起変数のプロキシを推定することにより、共起バイアスを軽減しようとする。
しかしこれらのアプローチは、データプライバシやアノテーションのコストのために時には不可能な制約であるインスタンスのサブセットについて、共同創設者のラベルを監督していると、アナリストは仮定している。
本研究では,重要なコンバウンディング変数が完全にオブザーブドされていない設定に対処する。
本稿では,複数の前処理テキストデータを用いた因果推論手法を提案し,二つのゼロショットモデルから2つのプロキシを推定し,それらのプロキシを近位g-形式に適用する。
テキストベースのプロキシ手法は、近位g-形式が要求する識別条件を満たすが、他の妥当な提案は満たさないことを示す。
本手法は, 合成および半合成条件下で評価し, 低バイアスで推定値が得られた。
近位 g-形式に関連する証明不可能な仮定に対処するために、我々はさらに奇数比のファルシフィケーションヒューリスティックを提案する。
近位因果推論とゼロショット分類器の新たな組み合わせは、実践者が利用できるテキスト固有の因果メソッドのセットを拡張する。
関連論文リスト
- Automating the Selection of Proxy Variables of Unmeasured Confounders [16.773841751009748]
既存のプロキシ変数推定器を拡張して、治療と結果の間に複数の未測定の共同創設者が存在するシナリオに対応する。
本稿では、プロキシ変数の選択と因果効果の偏りのない推定のための2つのデータ駆動手法を提案する。
論文 参考訳(メタデータ) (2024-05-25T08:53:49Z) - Onboard Out-of-Calibration Detection of Deep Learning Models using Conformal Prediction [4.856998175951948]
本研究では,共形予測アルゴリズムが深層学習モデルの不確かさと関係があることを示し,この関係が深層学習モデルが校正外であるかどうかを検出するのに有効であることを示す。
モデル不確かさと共形予測セットの平均サイズに関連する校正外検出手順を示す。
論文 参考訳(メタデータ) (2024-05-04T11:05:52Z) - Prototype-based Aleatoric Uncertainty Quantification for Cross-modal
Retrieval [139.21955930418815]
クロスモーダル検索手法は、共通表現空間を共同学習することにより、視覚と言語モダリティの類似性関係を構築する。
しかし、この予測は、低品質なデータ、例えば、腐敗した画像、速いペースの動画、詳細でないテキストによって引き起こされるアレタリック不確実性のために、しばしば信頼性が低い。
本稿では, 原型に基づくAleatoric Uncertainity Quantification (PAU) フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-29T09:41:19Z) - Interpretable Automatic Fine-grained Inconsistency Detection in Text
Summarization [56.94741578760294]
本研究の目的は, 要約中の事実誤りの微粒化を予測し, 微粒化不整合検出の課題を提案することである。
要約における現実的不整合の検査方法に触発され,解析可能な微粒不整合検出モデルであるFinGrainFactを提案する。
論文 参考訳(メタデータ) (2023-05-23T22:11:47Z) - Simulation-based, Finite-sample Inference for Privatized Data [14.218697973204065]
本稿では,統計的に有効な信頼区間と仮説テストを生成するためのシミュレーションベースの"repro sample"手法を提案する。
本手法は様々な個人推論問題に適用可能であることを示す。
論文 参考訳(メタデータ) (2023-03-09T15:19:31Z) - Towards Fine-Grained Information: Identifying the Type and Location of
Translation Errors [80.22825549235556]
既存のアプローチでは、エラーの位置と型を同期的に考慮することはできない。
我々はtextbf の追加と textbfomission エラーを予測するために FG-TED モデルを構築した。
実験により,本モデルではエラータイプと位置の同時同定が可能であり,最先端の結果が得られた。
論文 参考訳(メタデータ) (2023-02-17T16:20:33Z) - ADDMU: Detection of Far-Boundary Adversarial Examples with Data and
Model Uncertainty Estimation [125.52743832477404]
AED(Adversarial Examples Detection)は、敵攻撃に対する重要な防御技術である。
本手法は, 正逆検出とFB逆検出の2種類の不確実性推定を組み合わせた新しい手法である textbfADDMU を提案する。
提案手法は,各シナリオにおいて,従来の手法よりも3.6と6.0のEmphAUC点が優れていた。
論文 参考訳(メタデータ) (2022-10-22T09:11:12Z) - A Unified Evaluation of Textual Backdoor Learning: Frameworks and
Benchmarks [72.7373468905418]
我々は,テキストバックドア学習の実装と評価を促進するオープンソースツールキットOpenBackdoorを開発した。
また,単純なクラスタリングに基づく防御ベースラインであるCUBEを提案する。
論文 参考訳(メタデータ) (2022-06-17T02:29:23Z) - Approximate Conditional Coverage via Neural Model Approximations [0.030458514384586396]
実験的に信頼性の高い近似条件付きカバレッジを得るためのデータ駆動手法を解析する。
我々は、限界範囲のカバレッジ保証を持つ分割型代替案で、実質的な(そして、そうでない)アンダーカバーの可能性を実証する。
論文 参考訳(メタデータ) (2022-05-28T02:59:05Z) - Double Perturbation: On the Robustness of Robustness and Counterfactual
Bias Evaluation [109.06060143938052]
テストデータセットを超えたモデル弱点を明らかにするための"ダブル摂動"フレームワークを提案する。
この枠組みを,モデルの頑健さと英語における反事実バイアスの分析に使用される2つの摂動に基づくアプローチに応用する。
論文 参考訳(メタデータ) (2021-04-12T06:57:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。