論文の概要: From Narratives to Numbers: Valid Inference Using Language Model Predictions from Verbal Autopsy Narratives
- arxiv url: http://arxiv.org/abs/2404.02438v1
- Date: Wed, 3 Apr 2024 03:53:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 18:39:40.482372
- Title: From Narratives to Numbers: Valid Inference Using Language Model Predictions from Verbal Autopsy Narratives
- Title(参考訳): ナラティブから数値へ:言語モデル予測を用いた検証的推論
- Authors: Shuxian Fan, Adam Visokay, Kentaro Hoffman, Stephen Salerno, Li Liu, Jeffrey T. Leek, Tyler H. McCormick,
- Abstract要約: 我々は、最先端のNLP技術を用いて、自由形式のテキストから予測された結果を用いた有効推論法を開発した。
我々は、COD予測に一連のNLP技術を活用し、VAデータの実証分析を通して、輸送可能性問題に対処するためのアプローチの有効性を実証する。
- 参考スコア(独自算出の注目度): 5.730469631341288
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In settings where most deaths occur outside the healthcare system, verbal autopsies (VAs) are a common tool to monitor trends in causes of death (COD). VAs are interviews with a surviving caregiver or relative that are used to predict the decedent's COD. Turning VAs into actionable insights for researchers and policymakers requires two steps (i) predicting likely COD using the VA interview and (ii) performing inference with predicted CODs (e.g. modeling the breakdown of causes by demographic factors using a sample of deaths). In this paper, we develop a method for valid inference using outcomes (in our case COD) predicted from free-form text using state-of-the-art NLP techniques. This method, which we call multiPPI++, extends recent work in "prediction-powered inference" to multinomial classification. We leverage a suite of NLP techniques for COD prediction and, through empirical analysis of VA data, demonstrate the effectiveness of our approach in handling transportability issues. multiPPI++ recovers ground truth estimates, regardless of which NLP model produced predictions and regardless of whether they were produced by a more accurate predictor like GPT-4-32k or a less accurate predictor like KNN. Our findings demonstrate the practical importance of inference correction for public health decision-making and suggests that if inference tasks are the end goal, having a small amount of contextually relevant, high quality labeled data is essential regardless of the NLP algorithm.
- Abstract(参考訳): ほとんどの死亡が医療システム外で発生している環境では、口頭解剖(VAs)が死因の傾向を監視する一般的なツールである。
VAは、被疑者のCODを予測するために使用される、生き残った介護者や親戚とのインタビューである。
VAを研究者や政策立案者のための実用的な洞察に変えるには2つのステップが必要だ
一 VAインタビューによるCODの予測及び予測
(II)CODの予測による推定を行う(例:死亡例を用いて、人口統計因子による原因の分解をモデル化する)。
本稿では,現在最先端のNLP技術を用いて,自由形式のテキストから予測される結果(CODの場合)を用いた有効推論手法を開発する。
この手法はMultiPPI++と呼ばれ、「予測駆動推論」の最近の研究を多項分類に拡張する。
我々は、COD予測に一連のNLP技術を活用し、VAデータの実証分析を通じて、輸送可能性問題に対処するためのアプローチの有効性を実証する。
multiPPI++ は、どの NLP モデルが予測を作成したかに関わらず、GPT-4-32k のようなより正確な予測器や KNN のようなより正確な予測器によって生成されたかに関わらず、基底真理推定を復元する。
本研究は, 公衆衛生意思決定における推論訂正の実践的重要性を実証し, 推論タスクが最終目標である場合, NLPアルゴリズムによらず, 少量の文脈的関連性があり, 高品質なラベル付きデータが不可欠であることが示唆された。
関連論文リスト
- Towards Fairer Health Recommendations: finding informative unbiased samples via Word Sense Disambiguation [3.328297368052458]
LLMを含むNLPモデルを用いて,医療カリキュラムのバイアス検出に取り組む。
大規模コーパスからの偏見を医学専門家が注釈した4,105点の抜粋を含む金標準データセットで評価した。
論文 参考訳(メタデータ) (2024-09-11T17:10:20Z) - Measuring and Improving Attentiveness to Partial Inputs with Counterfactuals [91.59906995214209]
我々は,新しい評価手法であるCAT(Facterfactual Attentiveness Test)を提案する。
CATは、入力の一部を別の例から別の例に置き換えることで、予測を変更する注意深いモデルを期待することで、反事実を使用する。
実験データの精度が向上する一方, GPT3 は実演回数の増加により注意力の低下がみられた。
論文 参考訳(メタデータ) (2023-11-16T06:27:35Z) - ASPEST: Bridging the Gap Between Active Learning and Selective
Prediction [56.001808843574395]
選択予測は、不確実な場合の予測を棄却する信頼性のあるモデルを学ぶことを目的としている。
アクティブラーニングは、最も有意義な例を問うことで、ラベリングの全体、すなわち人間の依存度を下げることを目的としている。
本研究では,移動対象領域からより情報のあるサンプルを検索することを目的とした,新たな学習パラダイムである能動的選択予測を導入する。
論文 参考訳(メタデータ) (2023-04-07T23:51:07Z) - Confidence and Dispersity Speak: Characterising Prediction Matrix for
Unsupervised Accuracy Estimation [51.809741427975105]
この研究は、ラベルを使わずに、分散シフト下でのモデルの性能を評価することを目的としている。
我々は、両方の特性を特徴付けるのに有効であることが示されている核規範を用いる。
核の基準は既存の手法よりも正確で堅牢であることを示す。
論文 参考訳(メタデータ) (2023-02-02T13:30:48Z) - Improving Cause-of-Death Classification from Verbal Autopsy Reports [0.0]
自然言語処理(NLP)技術は、医療分野では不十分である。
死因は、信頼できる死亡登録システムを持たない場所での口頭解剖(VA)報告によって決定されることが多い。
本稿では,モノリンガル学習とマルチソースドメイン適応の2つのパラダイムに依存するシステムを提案する。
論文 参考訳(メタデータ) (2022-10-31T09:14:08Z) - Uncertainty Quantification with Pre-trained Language Models: A
Large-Scale Empirical Analysis [120.9545643534454]
パイプラインは校正誤差を最小限に抑えることが重要であり、特に安全クリティカルな応用において重要である。
パイプラインの背景には,(1)PLMの選択と(2)サイズ,(3)不確実性定量化器の選択,(4)微調整損失の選択など,さまざまな考察がある。
1) PLM符号化にELECTRAを使用し、(2) 可能であればより大きなPLMを使用し、(3) 不確実性定量化にTemp Scalingを使用し、(4) 微調整にFocal Lossを使用する。
論文 参考訳(メタデータ) (2022-10-10T14:16:01Z) - Measuring Causal Effects of Data Statistics on Language Model's
`Factual' Predictions [59.284907093349425]
大量のトレーニングデータが、最先端のNLPモデルの高性能化の大きな理由の1つである。
トレーニングデータがどのように予測に影響を及ぼすかを記述するための言語を,因果的フレームワークを通じて提供する。
我々のフレームワークは、高価なモデルの再訓練の必要性を回避し、観測データのみに基づいて因果効果を推定することができる。
論文 参考訳(メタデータ) (2022-07-28T17:36:24Z) - Explaining Face Presentation Attack Detection Using Natural Language [24.265611015740287]
本稿では,自然言語による顔提示攻撃予測について説明する。
提案手法は,PADモデルの深い層の特徴表現を言語モデルに渡して,PAD予測の背後にある推論を記述したテキストを生成する。
本稿では, 単語単位のクロスエントロピー損失, 文識別的損失, 文意味的損失など, 生成した説明の質が, 異なる損失関数にどのように影響するかを検討する。
論文 参考訳(メタデータ) (2021-11-08T22:55:55Z) - Coherent False Seizure Prediction in Epilepsy, Coincidence or
Providence? [0.2770822269241973]
機械学習を用いた清水予測は可能であるが、その性能は理想的ではない。
本稿では,長期データセット上での2つのアルゴリズムの誤報と誤報について検討する。
論文 参考訳(メタデータ) (2021-10-26T10:25:14Z) - Double Robust Representation Learning for Counterfactual Prediction [68.78210173955001]
そこで本稿では, 対実予測のための2次ロバスト表現を学習するための, スケーラブルな新しい手法を提案する。
我々は、個々の治療効果と平均的な治療効果の両方に対して、堅牢で効率的な対実的予測を行う。
このアルゴリズムは,実世界の最先端技術と合成データとの競合性能を示す。
論文 参考訳(メタデータ) (2020-10-15T16:39:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。