論文の概要: Proximal Causal Inference With Text Data
- arxiv url: http://arxiv.org/abs/2401.06687v1
- Date: Fri, 12 Jan 2024 16:51:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-15 18:58:51.216814
- Title: Proximal Causal Inference With Text Data
- Title(参考訳): テキストデータを用いた近位因果推論
- Authors: Jacob M. Chen, Rohit Bhattacharya, Katherine A. Keith
- Abstract要約: 最近のテキストベースの因果的手法は、部分的に、あるいは不完全に測定された共起変数のプロキシとして、構造化されていないテキストデータを含めることで、共起バイアスを軽減する。
ここでは、重要なコンバウンディング変数が完全にオブザーバされない設定に対処する。
本稿では,前処理前のテキストデータを分割し,2つのプロキシを2つのゼロショットモデルから推定する因果推論手法を提案する。
- 参考スコア(独自算出の注目度): 6.5146651803832984
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent text-based causal methods attempt to mitigate confounding bias by
including unstructured text data as proxies of confounding variables that are
partially or imperfectly measured. These approaches assume analysts have
supervised labels of the confounders given text for a subset of instances, a
constraint that is not always feasible due to data privacy or cost. Here, we
address settings in which an important confounding variable is completely
unobserved. We propose a new causal inference method that splits pre-treatment
text data, infers two proxies from two zero-shot models on the separate splits,
and applies these proxies in the proximal g-formula. We prove that our
text-based proxy method satisfies identification conditions required by the
proximal g-formula while other seemingly reasonable proposals do not. We
evaluate our method in synthetic and semi-synthetic settings and find that it
produces estimates with low bias. This combination of proximal causal inference
and zero-shot classifiers is novel (to our knowledge) and expands the set of
text-specific causal methods available to practitioners.
- Abstract(参考訳): 最近のテキストベース因果法は、部分的にあるいは不完全に測定された共起変数のプロキシとして非構造化テキストデータを含めることで、共起バイアスの軽減を試みる。
これらのアプローチは、データプライバシやコストのために必ずしも実現不可能な制約であるインスタンスのサブセットについて、共同創設者のラベルを監督していると、アナリストが仮定している。
ここでは、重要なコンバウンディング変数が完全にオブザーバされない設定に対処する。
本稿では,処理前のテキストデータを分割し,分割した2つのゼロショットモデルから2つのプロキシを推定する新しい因果推論法を提案する。
本手法は,g-formulaの近位法に必要な識別条件を満たすが,他の妥当な提案では満足できないことを示す。
本手法は, 合成および半合成条件下で評価し, 低バイアスで推定値が得られた。
近位因果推論とゼロショット分類器の組み合わせは(我々の知る限り)新しいものであり、実践者が利用できるテキスト固有の因果的手法のセットを拡張する。
関連論文リスト
- Detecting Statements in Text: A Domain-Agnostic Few-Shot Solution [1.3654846342364308]
最先端のアプローチは通常、作成にコストがかかる大規模な注釈付きデータセット上の微調整モデルを含む。
本稿では,クレームに基づくテキスト分類タスクの共通パラダイムとして,定性的で多目的な少ショット学習手法の提案とリリースを行う。
本手法は,気候変動対策,トピック/スタンス分類,うつ病関連症状検出の3つの課題の文脈で説明する。
論文 参考訳(メタデータ) (2024-05-09T12:03:38Z) - Explaining Text Classifiers with Counterfactual Representations [0.0]
本稿では,テキスト表現の空間を介在させることで,対物生成の簡易な手法を提案する。
提案手法を検証するために,まず合成データセットを用いて実験を行い,次に現実的な反事実のデータセットを用いて実験を行った。
論文 参考訳(メタデータ) (2024-02-01T16:06:35Z) - Interpretable Automatic Fine-grained Inconsistency Detection in Text
Summarization [56.94741578760294]
本研究の目的は, 要約中の事実誤りの微粒化を予測し, 微粒化不整合検出の課題を提案することである。
要約における現実的不整合の検査方法に触発され,解析可能な微粒不整合検出モデルであるFinGrainFactを提案する。
論文 参考訳(メタデータ) (2023-05-23T22:11:47Z) - ADDMU: Detection of Far-Boundary Adversarial Examples with Data and
Model Uncertainty Estimation [125.52743832477404]
AED(Adversarial Examples Detection)は、敵攻撃に対する重要な防御技術である。
本手法は, 正逆検出とFB逆検出の2種類の不確実性推定を組み合わせた新しい手法である textbfADDMU を提案する。
提案手法は,各シナリオにおいて,従来の手法よりも3.6と6.0のEmphAUC点が優れていた。
論文 参考訳(メタデータ) (2022-10-22T09:11:12Z) - Toward the Understanding of Deep Text Matching Models for Information
Retrieval [72.72380690535766]
本稿では,既存の深層テキストマッチング手法が情報検索の基本的な勾配を満たすかどうかを検証することを目的とする。
具体的には, 項周波数制約, 項識別制約, 長さ正規化制約, TF長制約の4つの属性を用いる。
LETOR 4.0 と MS Marco の実験結果から,研究対象の深層テキストマッチング手法はすべて,統計学において高い確率で上記の制約を満たすことが示された。
論文 参考訳(メタデータ) (2021-08-16T13:33:15Z) - Comprehensive Studies for Arbitrary-shape Scene Text Detection [78.50639779134944]
ボトムアップに基づくシーンテキスト検出のための統合フレームワークを提案する。
統一されたフレームワークの下では、非コアモジュールの一貫性のある設定が保証されます。
包括的調査と精巧な分析により、以前のモデルの利点と欠点を明らかにしている。
論文 参考訳(メタデータ) (2021-07-25T13:18:55Z) - Compressive Summarization with Plausibility and Salience Modeling [54.37665950633147]
本稿では,候補空間に対する厳密な構文的制約を緩和し,その代わりに圧縮決定を2つのデータ駆動基準,すなわち妥当性とサリエンスに委ねることを提案する。
提案手法は,ベンチマーク要約データセット上で強いドメイン内結果を得るとともに,人間による評価により,文法的および事実的削除に対して,可算性モデルが一般的に選択されることを示す。
論文 参考訳(メタデータ) (2020-10-15T17:07:10Z) - The Simulator: Understanding Adaptive Sampling in the
Moderate-Confidence Regime [52.38455827779212]
エミュレータと呼ばれる適応サンプリングを解析するための新しい手法を提案する。
適切なログファクタを組み込んだトップk問題の最初のインスタンスベースの下位境界を証明します。
我々の新しい分析は、後者の問題に対するこの種の最初のエミュレータであるベストアームとトップkの識別に、シンプルでほぼ最適であることを示した。
論文 参考訳(メタデータ) (2017-02-16T23:42:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。