論文の概要: Batch-Adaptive Annotations for Causal Inference with Complex-Embedded Outcomes
- arxiv url: http://arxiv.org/abs/2502.10605v1
- Date: Fri, 14 Feb 2025 23:25:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 20:34:44.552472
- Title: Batch-Adaptive Annotations for Causal Inference with Complex-Embedded Outcomes
- Title(参考訳): 複雑な組込み出力を持つ因果推論のためのバッチ適応アノテーション
- Authors: Ezinne Nwankwo, Lauri Goldkind, Angela Zhou,
- Abstract要約: 結果に対する介入の因果効果を推定することが重要である。
しかし、医療やソーシャルサービスといった領域では、この結果に関する重要な情報は、構造化されていないテキストによって文書化されることが多い。
大規模言語モデル(LLM)の最近の進歩は、スケーラブルだが非構造化テキストデータの不正確なアノテーションを可能にする。
- 参考スコア(独自算出の注目度): 8.821030737167343
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Estimating the causal effects of an intervention on outcomes is crucial. But often in domains such as healthcare and social services, this critical information about outcomes is documented by unstructured text, e.g. clinical notes in healthcare or case notes in social services. For example, street outreach to homeless populations is a common social services intervention, with ambiguous and hard-to-measure outcomes. Outreach workers compile case note records which are informative of outcomes. Although experts can succinctly extract relevant information from such unstructured case notes, it is costly or infeasible to do so for an entire corpus, which can span millions of notes. Recent advances in large language models (LLMs) enable scalable but potentially inaccurate annotation of unstructured text data. We leverage the decision of which datapoints should receive expert annotation vs. noisy imputation under budget constraints in a "design-based" estimator combining limited expert and plentiful noisy imputation data via \textit{causal inference with missing outcomes}. We develop a two-stage adaptive algorithm that optimizes the expert annotation probabilities, estimating the ATE with optimal asymptotic variance. We demonstrate how expert labels and LLM annotations can be combined strategically, efficiently and responsibly in a causal estimator. We run experiments on simulated data and two real-world datasets, including one on street outreach, to show the versatility of our proposed method.
- Abstract(参考訳): 結果に対する介入の因果効果を推定することが重要である。
しかし、医療やソーシャルサービスのようなドメインでは、この結果に関する重要な情報は、非構造化テキスト、例えば医療における臨床メモ、ソーシャルサービスにおけるケースノートによって文書化されることが多い。
例えば、ホームレスの人口に対する街路のアウトリーチは、曖昧で対策の難しい結果の社会サービス介入である。
アウトリーチ作業員は、成果を知らせるケースノートレコードをコンパイルする。
専門家は、そのような構造化されていないケースノートから関連情報を簡潔に抽出することができるが、数百万のノートにまたがるコーパス全体に対して、コストがかかるか不可能である。
大規模言語モデル(LLM)の最近の進歩は、スケーラブルだが非構造化テキストデータの不正確なアノテーションを可能にする。
我々は,限られた専門家と多能なノイズインプットデータを組み合わせた「設計ベース」推定器において,予算制約下でデータポイントが専門家アノテーションを受けるか,あるいはノイズインプットを受けるかという決定を,‘textit{causal inference with missing outcomes} を通じて活用する。
本研究では,専門家のアノテーション確率を最適化する2段階適応アルゴリズムを開発し,ATEを最適漸近分散で推定する。
本稿では,専門家ラベルとLLMアノテーションを,因果推定器において戦略的,効率的,責任的に組み合わせる方法について述べる。
提案手法の汎用性を示すため,シミュレーションデータと,街頭アウトリーチを含む実世界の2つのデータセットを用いて実験を行った。
関連論文リスト
- A Unifying Framework for Robust and Efficient Inference with Unstructured Data [2.07180164747172]
本稿では,非構造化データから導出されるパラメータに対して,効率的かつロバストな推論を行うための一般的な枠組みを提案する。
このアプローチをMARS(Missing At Random Structured Data)で形式化します。
我々は、記述的および因果推定の両方のための堅牢で効率的な推定器を開発し、非構造化データからの集約的および変換的予測を用いた推論のような課題に対処する。
論文 参考訳(メタデータ) (2025-05-01T04:11:25Z) - Black Box Causal Inference: Effect Estimation via Meta Prediction [56.277798874118425]
因果推論はデータセットレベルの予測問題であり,アルゴリズム設計を学習プロセスにオフロードする。
我々は,ブラックボックス因果推論 (BBCI) と呼ばれる,サンプルデータセットと効果ペアの因果効果の予測を学習することにより,ブラックボックス方式で推定器を構築する。
我々は,いくつかの因果推論問題に対して,BBCIを用いた平均治療効果(ATE)と条件平均治療効果(CATE)を正確に推定した。
論文 参考訳(メタデータ) (2025-03-07T23:43:19Z) - AMRFact: Enhancing Summarization Factuality Evaluation with AMR-Driven Negative Samples Generation [57.8363998797433]
抽象的意味表現(AMR)を用いた摂動要約を生成するフレームワークであるAMRFactを提案する。
提案手法は,AMRグラフに一貫した要約を解析し,制御された事実不整合を注入して負の例を生成し,一貫性のない事実不整合要約を高い誤差型カバレッジで生成する。
論文 参考訳(メタデータ) (2023-11-16T02:56:29Z) - Data Augmentations for Improved (Large) Language Model Generalization [17.75815547057179]
本稿では,データの因果構造を知ることによって導かれる反ファクト的データ拡張を用いて,突発的特徴に対する介入をシミュレートすることを提案する。
この戦略は,ラベルが属性と突発的に相関しているような予測問題に適していることを示す。
論文 参考訳(メタデータ) (2023-10-19T14:59:25Z) - Active Learning for Abstractive Text Summarization [50.79416783266641]
本稿では,抽象テキスト要約におけるアクティブラーニングのための最初の効果的なクエリ戦略を提案する。
ALアノテーションにおける私たちの戦略は、ROUGEと一貫性スコアの点からモデル性能を向上させるのに役立ちます。
論文 参考訳(メタデータ) (2023-01-09T10:33:14Z) - Conditional Feature Importance for Mixed Data [1.6114012813668934]
ノックオフサンプリングを用いた条件付き予測インパクト(CPI)フレームワークを開発した。
提案するワークフローは,I型エラーを制御し,高い出力を達成し,他の条件FI測定結果と一致していることを示す。
本研究は,混合データに対して,統計的に適切な,専門的な手法を開発することの必要性を強調した。
論文 参考訳(メタデータ) (2022-10-06T16:52:38Z) - D-BIAS: A Causality-Based Human-in-the-Loop System for Tackling
Algorithmic Bias [57.87117733071416]
D-BIASは、人間のループ内AIアプローチを具現化し、社会的バイアスを監査し軽減する視覚対話型ツールである。
ユーザは、因果ネットワークにおける不公平な因果関係を識別することにより、グループに対する偏見の存在を検出することができる。
それぞれのインタラクション、例えばバイアスのある因果縁の弱体化/削除は、新しい(偏りのある)データセットをシミュレートするために、新しい方法を用いている。
論文 参考訳(メタデータ) (2022-08-10T03:41:48Z) - SAIS: Supervising and Augmenting Intermediate Steps for Document-Level
Relation Extraction [51.27558374091491]
本稿では,関係抽出のための中間ステップ(SAIS)を監督し,拡張することにより,関連コンテキストやエンティティタイプをキャプチャするモデルを明示的に教えることを提案する。
そこで本提案手法は,より効果的な管理を行うため,より優れた品質の関係を抽出するだけでなく,それに対応する証拠をより正確に抽出する。
論文 参考訳(メタデータ) (2021-09-24T17:37:35Z) - Truth Discovery in Sequence Labels from Crowds [12.181422057560201]
Amazon Mechanical Turk (AMT)のようなクラウドソーシングプラットフォームは、この目的のためにデプロイされている。
アノテーションアグリゲーションにおける既存の文献は、アノテーションは独立しており、シーケンシャルなラベルアグリゲーションタスクを扱う際の課題に直面していると仮定している。
逐次ラベリングタスクにおいて,作業者が提供するアノテーションを用いて,真理ラベルを推測する最適化手法を提案する。
論文 参考訳(メタデータ) (2021-09-09T19:12:13Z) - Competency Problems: On Finding and Removing Artifacts in Language Data [50.09608320112584]
複雑な言語理解タスクでは、すべての単純な特徴相関が突発的であると論じる。
人間バイアスを考慮したコンピテンシー問題に対するデータ作成の難しさを理論的に分析します。
論文 参考訳(メタデータ) (2021-04-17T21:34:10Z) - Provably Efficient Causal Reinforcement Learning with Confounded
Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。
提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T14:49:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。