Fugu-MT 論文翻訳(概要): Batch-Adaptive Annotations for Causal Inference with Complex-Embedded Outcomes

論文の概要: Batch-Adaptive Annotations for Causal Inference with Complex-Embedded Outcomes

arxiv url: http://arxiv.org/abs/2502.10605v1
Date: Fri, 14 Feb 2025 23:25:35 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-18 20:34:44.552472
Title: Batch-Adaptive Annotations for Causal Inference with Complex-Embedded Outcomes
Title（参考訳）: 複雑な組込み出力を持つ因果推論のためのバッチ適応アノテーション
Authors: Ezinne Nwankwo, Lauri Goldkind, Angela Zhou,
Abstract要約: 結果に対する介入の因果効果を推定することが重要である。しかし、医療やソーシャルサービスといった領域では、この結果に関する重要な情報は、構造化されていないテキストによって文書化されることが多い。大規模言語モデル(LLM)の最近の進歩は、スケーラブルだが非構造化テキストデータの不正確なアノテーションを可能にする。
参考スコア（独自算出の注目度）: 8.821030737167343
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Estimating the causal effects of an intervention on outcomes is crucial. But often in domains such as healthcare and social services, this critical information about outcomes is documented by unstructured text, e.g. clinical notes in healthcare or case notes in social services. For example, street outreach to homeless populations is a common social services intervention, with ambiguous and hard-to-measure outcomes. Outreach workers compile case note records which are informative of outcomes. Although experts can succinctly extract relevant information from such unstructured case notes, it is costly or infeasible to do so for an entire corpus, which can span millions of notes. Recent advances in large language models (LLMs) enable scalable but potentially inaccurate annotation of unstructured text data. We leverage the decision of which datapoints should receive expert annotation vs. noisy imputation under budget constraints in a "design-based" estimator combining limited expert and plentiful noisy imputation data via \textit{causal inference with missing outcomes}. We develop a two-stage adaptive algorithm that optimizes the expert annotation probabilities, estimating the ATE with optimal asymptotic variance. We demonstrate how expert labels and LLM annotations can be combined strategically, efficiently and responsibly in a causal estimator. We run experiments on simulated data and two real-world datasets, including one on street outreach, to show the versatility of our proposed method.
Abstract（参考訳）: 結果に対する介入の因果効果を推定することが重要である。しかし、医療やソーシャルサービスのようなドメインでは、この結果に関する重要な情報は、非構造化テキスト、例えば医療における臨床メモ、ソーシャルサービスにおけるケースノートによって文書化されることが多い。例えば、ホームレスの人口に対する街路のアウトリーチは、曖昧で対策の難しい結果の社会サービス介入である。アウトリーチ作業員は、成果を知らせるケースノートレコードをコンパイルする。専門家は、そのような構造化されていないケースノートから関連情報を簡潔に抽出することができるが、数百万のノートにまたがるコーパス全体に対して、コストがかかるか不可能である。大規模言語モデル(LLM)の最近の進歩は、スケーラブルだが非構造化テキストデータの不正確なアノテーションを可能にする。我々は,限られた専門家と多能なノイズインプットデータを組み合わせた「設計ベース」推定器において,予算制約下でデータポイントが専門家アノテーションを受けるか,あるいはノイズインプットを受けるかという決定を,‘textit{causal inference with missing outcomes} を通じて活用する。本研究では,専門家のアノテーション確率を最適化する2段階適応アルゴリズムを開発し,ATEを最適漸近分散で推定する。本稿では,専門家ラベルとLLMアノテーションを,因果推定器において戦略的,効率的,責任的に組み合わせる方法について述べる。提案手法の汎用性を示すため,シミュレーションデータと,街頭アウトリーチを含む実世界の2つのデータセットを用いて実験を行った。

関連論文リスト

Beyond Internal Data: Bounding and Estimating Fairness from Incomplete Data [26.037607208689977]
貸付、雇用、医療といった高度な領域では、AIシステムの公平性を保証することが重要である。業界設定では、法とプライバシーに関する懸念は、集団格差を評価するために必要な人口統計データの収集を制限する。我々の研究は、そのような利用可能な別のデータを活用して、完全なデータがアクセスできないときにモデルフェアネスを見積もることを目指している。
論文参考訳（メタデータ） (2025-08-18T15:57:30Z)
A Unifying Framework for Robust and Efficient Inference with Unstructured Data [2.07180164747172]
本稿では,非構造化データから導出されるパラメータに対して,効率的かつロバストな推論を行うための一般的な枠組みを提案する。このアプローチをMARS(Missing At Random Structured Data)で形式化します。我々は、記述的および因果推定の両方のための堅牢で効率的な推定器を開発し、非構造化データからの集約的および変換的予測を用いた推論のような課題に対処する。
論文参考訳（メタデータ） (2025-05-01T04:11:25Z)
Black Box Causal Inference: Effect Estimation via Meta Prediction [56.277798874118425]
因果推論はデータセットレベルの予測問題であり,アルゴリズム設計を学習プロセスにオフロードする。我々は,ブラックボックス因果推論 (BBCI) と呼ばれる,サンプルデータセットと効果ペアの因果効果の予測を学習することにより,ブラックボックス方式で推定器を構築する。我々は,いくつかの因果推論問題に対して,BBCIを用いた平均治療効果(ATE)と条件平均治療効果(CATE)を正確に推定した。
論文参考訳（メタデータ） (2025-03-07T23:43:19Z)
Targeted Learning for Data Fairness [52.59573714151884]
データ生成プロセス自体の公平性を評価することにより、公平性推論を拡張する。我々は、人口統計学的平等、平等機会、条件付き相互情報から推定する。提案手法を検証するため,いくつかのシミュレーションを行い,実データに適用する。
論文参考訳（メタデータ） (2025-02-06T18:51:28Z)
Neural Dynamic Data Valuation [4.286118155737111]
ニューラルダイナミックデータ評価(NDDV)という最適制御の観点から,新しいデータ評価手法を提案する。本手法は,データ最適制御状態の感度を用いて,データ評価を正確に識別する理論的解釈を持つ。さらに,データポイントのユニークな特徴を捉え,データポイントと平均場状態の相互作用による公平性を確保するために,データ再重み付け戦略を実装した。
論文参考訳（メタデータ） (2024-04-30T13:39:26Z)
Improve Cost Efficiency of Active Learning over Noisy Dataset [1.3846014191157405]
本稿では,正のインスタンスの取得が負のインスタンスに比べて著しくコストがかかる二項分類の事例について考察する。本研究では,典型的な不確実性サンプリングよりも広い範囲からサンプルをサンプリングする正規分布サンプリング関数を提案する。我々のシミュレーションは,提案したサンプリング関数がノイズと正のラベル選択を制限し,20%から32%のコスト効率が異なるテストデータセットよりも向上したことを示している。
論文参考訳（メタデータ） (2024-03-02T23:53:24Z)
AMRFact: Enhancing Summarization Factuality Evaluation with AMR-Driven Negative Samples Generation [57.8363998797433]
抽象的意味表現(AMR)を用いた摂動要約を生成するフレームワークであるAMRFactを提案する。提案手法は,AMRグラフに一貫した要約を解析し,制御された事実不整合を注入して負の例を生成し,一貫性のない事実不整合要約を高い誤差型カバレッジで生成する。
論文参考訳（メタデータ） (2023-11-16T02:56:29Z)
Data Augmentations for Improved (Large) Language Model Generalization [17.75815547057179]
本稿では,データの因果構造を知ることによって導かれる反ファクト的データ拡張を用いて,突発的特徴に対する介入をシミュレートすることを提案する。この戦略は,ラベルが属性と突発的に相関しているような予測問題に適していることを示す。
論文参考訳（メタデータ） (2023-10-19T14:59:25Z)
Active Learning for Abstractive Text Summarization [50.79416783266641]
本稿では,抽象テキスト要約におけるアクティブラーニングのための最初の効果的なクエリ戦略を提案する。 ALアノテーションにおける私たちの戦略は、ROUGEと一貫性スコアの点からモデル性能を向上させるのに役立ちます。
論文参考訳（メタデータ） (2023-01-09T10:33:14Z)
Conditional Feature Importance for Mixed Data [1.6114012813668934]
ノックオフサンプリングを用いた条件付き予測インパクト(CPI)フレームワークを開発した。提案するワークフローは,I型エラーを制御し,高い出力を達成し,他の条件FI測定結果と一致していることを示す。本研究は,混合データに対して,統計的に適切な,専門的な手法を開発することの必要性を強調した。
論文参考訳（メタデータ） (2022-10-06T16:52:38Z)
D-BIAS: A Causality-Based Human-in-the-Loop System for Tackling Algorithmic Bias [57.87117733071416]
D-BIASは、人間のループ内AIアプローチを具現化し、社会的バイアスを監査し軽減する視覚対話型ツールである。ユーザは、因果ネットワークにおける不公平な因果関係を識別することにより、グループに対する偏見の存在を検出することができる。それぞれのインタラクション、例えばバイアスのある因果縁の弱体化/削除は、新しい(偏りのある)データセットをシミュレートするために、新しい方法を用いている。
論文参考訳（メタデータ） (2022-08-10T03:41:48Z)
Mitigating Algorithmic Bias with Limited Annotations [65.060639928772]
機密属性が公開されていない場合、バイアスを軽減するために、トレーニングデータの小さな部分を手動でアノテートする必要がある。本稿では,アルゴリズムバイアスの影響を最大限に排除するために,限定アノテーションを誘導する対話型フレームワークであるアクティブペナライゼーション・オブ・差別(APOD)を提案する。 APODは完全なアノテートバイアス緩和と同等のパフォーマンスを示しており、機密情報が制限された場合、APODが現実世界のアプリケーションに利益をもたらすことを実証している。
論文参考訳（メタデータ） (2022-07-20T16:31:19Z)
SAIS: Supervising and Augmenting Intermediate Steps for Document-Level Relation Extraction [51.27558374091491]
本稿では,関係抽出のための中間ステップ(SAIS)を監督し,拡張することにより,関連コンテキストやエンティティタイプをキャプチャするモデルを明示的に教えることを提案する。そこで本提案手法は,より効果的な管理を行うため,より優れた品質の関係を抽出するだけでなく,それに対応する証拠をより正確に抽出する。
論文参考訳（メタデータ） (2021-09-24T17:37:35Z)
Truth Discovery in Sequence Labels from Crowds [12.181422057560201]
Amazon Mechanical Turk (AMT)のようなクラウドソーシングプラットフォームは、この目的のためにデプロイされている。アノテーションアグリゲーションにおける既存の文献は、アノテーションは独立しており、シーケンシャルなラベルアグリゲーションタスクを扱う際の課題に直面していると仮定している。逐次ラベリングタスクにおいて,作業者が提供するアノテーションを用いて,真理ラベルを推測する最適化手法を提案する。
論文参考訳（メタデータ） (2021-09-09T19:12:13Z)
A Survey on Semi-Supervised Learning for Delayed Partially Labelled Data Streams [10.370629574634092]
本調査は, 半教師付き環境で, 不正なデータを利用する手法に特に注意を払っている。完全教師付き手法と半教師付き手法の両方に影響を及ぼす遅延ラベル問題について議論する。
論文参考訳（メタデータ） (2021-06-16T23:14:20Z)
Competency Problems: On Finding and Removing Artifacts in Language Data [50.09608320112584]
複雑な言語理解タスクでは、すべての単純な特徴相関が突発的であると論じる。人間バイアスを考慮したコンピテンシー問題に対するデータ作成の難しさを理論的に分析します。
論文参考訳（メタデータ） (2021-04-17T21:34:10Z)
Multi-Source Causal Inference Using Control Variates [81.57072928775509]
本稿では,複数のデータソースから因果効果を推定するアルゴリズムを提案する。理論的には、これはATE推定値の分散を減少させる。このフレームワークを結果選択バイアスの下で観測データからの推論に適用する。
論文参考訳（メタデータ） (2021-03-30T21:20:51Z)
Provably Efficient Causal Reinforcement Learning with Confounded Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-06-22T14:49:33Z)
Counterfactual Propagation for Semi-Supervised Individual Treatment Effect Estimation [21.285425135761795]
個別治療効果(英: individual treatment effect、ITE)とは、特定の標的に特定の行動をとる結果の期待された改善を示す。本研究では、より容易に利用可能な未ラベルのインスタンスを利用する半教師付きITE推定問題について考察する。本稿では,最初の半教師付きITT推定法である反実伝搬法を提案する。
論文参考訳（メタデータ） (2020-05-11T13:32:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。