論文の概要: Batch-Adaptive Annotations for Causal Inference with Complex-Embedded Outcomes
- arxiv url: http://arxiv.org/abs/2502.10605v1
- Date: Fri, 14 Feb 2025 23:25:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:15:39.885262
- Title: Batch-Adaptive Annotations for Causal Inference with Complex-Embedded Outcomes
- Title(参考訳): 複雑な組込み出力を持つ因果推論のためのバッチ適応アノテーション
- Authors: Ezinne Nwankwo, Lauri Goldkind, Angela Zhou,
- Abstract要約: 結果に対する介入の因果効果を推定することが重要である。
しかし、医療やソーシャルサービスといった領域では、この結果に関する重要な情報は、構造化されていないテキストによって文書化されることが多い。
大規模言語モデル(LLM)の最近の進歩は、スケーラブルだが非構造化テキストデータの不正確なアノテーションを可能にする。
- 参考スコア(独自算出の注目度): 8.821030737167343
- License:
- Abstract: Estimating the causal effects of an intervention on outcomes is crucial. But often in domains such as healthcare and social services, this critical information about outcomes is documented by unstructured text, e.g. clinical notes in healthcare or case notes in social services. For example, street outreach to homeless populations is a common social services intervention, with ambiguous and hard-to-measure outcomes. Outreach workers compile case note records which are informative of outcomes. Although experts can succinctly extract relevant information from such unstructured case notes, it is costly or infeasible to do so for an entire corpus, which can span millions of notes. Recent advances in large language models (LLMs) enable scalable but potentially inaccurate annotation of unstructured text data. We leverage the decision of which datapoints should receive expert annotation vs. noisy imputation under budget constraints in a "design-based" estimator combining limited expert and plentiful noisy imputation data via \textit{causal inference with missing outcomes}. We develop a two-stage adaptive algorithm that optimizes the expert annotation probabilities, estimating the ATE with optimal asymptotic variance. We demonstrate how expert labels and LLM annotations can be combined strategically, efficiently and responsibly in a causal estimator. We run experiments on simulated data and two real-world datasets, including one on street outreach, to show the versatility of our proposed method.
- Abstract(参考訳): 結果に対する介入の因果効果を推定することが重要である。
しかし、医療やソーシャルサービスのようなドメインでは、この結果に関する重要な情報は、非構造化テキスト、例えば医療における臨床メモ、ソーシャルサービスにおけるケースノートによって文書化されることが多い。
例えば、ホームレスの人口に対する街路のアウトリーチは、曖昧で対策の難しい結果の社会サービス介入である。
アウトリーチ作業員は、成果を知らせるケースノートレコードをコンパイルする。
専門家は、そのような構造化されていないケースノートから関連情報を簡潔に抽出することができるが、数百万のノートにまたがるコーパス全体に対して、コストがかかるか不可能である。
大規模言語モデル(LLM)の最近の進歩は、スケーラブルだが非構造化テキストデータの不正確なアノテーションを可能にする。
我々は,限られた専門家と多能なノイズインプットデータを組み合わせた「設計ベース」推定器において,予算制約下でデータポイントが専門家アノテーションを受けるか,あるいはノイズインプットを受けるかという決定を,‘textit{causal inference with missing outcomes} を通じて活用する。
本研究では,専門家のアノテーション確率を最適化する2段階適応アルゴリズムを開発し,ATEを最適漸近分散で推定する。
本稿では,専門家ラベルとLLMアノテーションを,因果推定器において戦略的,効率的,責任的に組み合わせる方法について述べる。
提案手法の汎用性を示すため,シミュレーションデータと,街頭アウトリーチを含む実世界の2つのデータセットを用いて実験を行った。
関連論文リスト
- Data Augmentations for Improved (Large) Language Model Generalization [17.75815547057179]
本稿では,データの因果構造を知ることによって導かれる反ファクト的データ拡張を用いて,突発的特徴に対する介入をシミュレートすることを提案する。
この戦略は,ラベルが属性と突発的に相関しているような予測問題に適していることを示す。
論文 参考訳(メタデータ) (2023-10-19T14:59:25Z) - Active Learning for Abstractive Text Summarization [50.79416783266641]
本稿では,抽象テキスト要約におけるアクティブラーニングのための最初の効果的なクエリ戦略を提案する。
ALアノテーションにおける私たちの戦略は、ROUGEと一貫性スコアの点からモデル性能を向上させるのに役立ちます。
論文 参考訳(メタデータ) (2023-01-09T10:33:14Z) - Conditional Feature Importance for Mixed Data [1.6114012813668934]
ノックオフサンプリングを用いた条件付き予測インパクト(CPI)フレームワークを開発した。
提案するワークフローは,I型エラーを制御し,高い出力を達成し,他の条件FI測定結果と一致していることを示す。
本研究は,混合データに対して,統計的に適切な,専門的な手法を開発することの必要性を強調した。
論文 参考訳(メタデータ) (2022-10-06T16:52:38Z) - D-BIAS: A Causality-Based Human-in-the-Loop System for Tackling
Algorithmic Bias [57.87117733071416]
D-BIASは、人間のループ内AIアプローチを具現化し、社会的バイアスを監査し軽減する視覚対話型ツールである。
ユーザは、因果ネットワークにおける不公平な因果関係を識別することにより、グループに対する偏見の存在を検出することができる。
それぞれのインタラクション、例えばバイアスのある因果縁の弱体化/削除は、新しい(偏りのある)データセットをシミュレートするために、新しい方法を用いている。
論文 参考訳(メタデータ) (2022-08-10T03:41:48Z) - Mitigating Algorithmic Bias with Limited Annotations [65.060639928772]
機密属性が公開されていない場合、バイアスを軽減するために、トレーニングデータの小さな部分を手動でアノテートする必要がある。
本稿では,アルゴリズムバイアスの影響を最大限に排除するために,限定アノテーションを誘導する対話型フレームワークであるアクティブペナライゼーション・オブ・差別(APOD)を提案する。
APODは完全なアノテートバイアス緩和と同等のパフォーマンスを示しており、機密情報が制限された場合、APODが現実世界のアプリケーションに利益をもたらすことを実証している。
論文 参考訳(メタデータ) (2022-07-20T16:31:19Z) - The interventional Bayesian Gaussian equivalent score for Bayesian
causal inference with unknown soft interventions [0.0]
ゲノミクスのような特定の環境では、不均一な研究条件からのデータがあり、研究変数のサブセットのみに関連するソフトな(部分的な)介入がある。
観察データと介入データとの混合に対する介入BGeスコアを定義し,介入の目的と効果が不明である可能性がある。
論文 参考訳(メタデータ) (2022-05-05T12:32:08Z) - SAIS: Supervising and Augmenting Intermediate Steps for Document-Level
Relation Extraction [51.27558374091491]
本稿では,関係抽出のための中間ステップ(SAIS)を監督し,拡張することにより,関連コンテキストやエンティティタイプをキャプチャするモデルを明示的に教えることを提案する。
そこで本提案手法は,より効果的な管理を行うため,より優れた品質の関係を抽出するだけでなく,それに対応する証拠をより正確に抽出する。
論文 参考訳(メタデータ) (2021-09-24T17:37:35Z) - Truth Discovery in Sequence Labels from Crowds [12.181422057560201]
Amazon Mechanical Turk (AMT)のようなクラウドソーシングプラットフォームは、この目的のためにデプロイされている。
アノテーションアグリゲーションにおける既存の文献は、アノテーションは独立しており、シーケンシャルなラベルアグリゲーションタスクを扱う際の課題に直面していると仮定している。
逐次ラベリングタスクにおいて,作業者が提供するアノテーションを用いて,真理ラベルを推測する最適化手法を提案する。
論文 参考訳(メタデータ) (2021-09-09T19:12:13Z) - Competency Problems: On Finding and Removing Artifacts in Language Data [50.09608320112584]
複雑な言語理解タスクでは、すべての単純な特徴相関が突発的であると論じる。
人間バイアスを考慮したコンピテンシー問題に対するデータ作成の難しさを理論的に分析します。
論文 参考訳(メタデータ) (2021-04-17T21:34:10Z) - Provably Efficient Causal Reinforcement Learning with Confounded
Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。
提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T14:49:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。