論文の概要: QuaLLM-Health: An Adaptation of an LLM-Based Framework for Quantitative Data Extraction from Online Health Discussions
- arxiv url: http://arxiv.org/abs/2411.17967v1
- Date: Wed, 27 Nov 2024 00:52:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-28 15:27:18.754797
- Title: QuaLLM-Health: An Adaptation of an LLM-Based Framework for Quantitative Data Extraction from Online Health Discussions
- Title(参考訳): QuaLLM-Health:オンラインヘルスディスカッションから量的データ抽出のためのLCMベースのフレームワークの適応
- Authors: Ramez Kouzy, Roxanna Attar-Olyaee, Michael K. Rooney, Comron J. Hassanzadeh, Junyi Jessy Li, Osama Mohamad,
- Abstract要約: 本報告では,QuaLLMからQuaLLM-Healthに適応したフレームワークを用いて,非構造化テキストから臨床的に関連のある定量的データを抽出する。
2024年7月にReddit APIを使って5つのGLP-1関連コミュニティから410万の投稿とコメントを収集しました。
フレームワークを完全なデータセットに適用することで、下流分析に必要な変数の効率的な抽出が可能になった。
- 参考スコア(独自算出の注目度): 30.089810404792
- License:
- Abstract: Health-related discussions on social media like Reddit offer valuable insights, but extracting quantitative data from unstructured text is challenging. In this work, we present an adapted framework from QuaLLM into QuaLLM-Health for extracting clinically relevant quantitative data from Reddit discussions about glucagon-like peptide-1 (GLP-1) receptor agonists using large language models (LLMs). We collected 410k posts and comments from five GLP-1-related communities using the Reddit API in July 2024. After filtering for cancer-related discussions, 2,059 unique entries remained. We developed annotation guidelines to manually extract variables such as cancer survivorship, family cancer history, cancer types mentioned, risk perceptions, and discussions with physicians. Two domain-experts independently annotated a random sample of 100 entries to create a gold-standard dataset. We then employed iterative prompt engineering with OpenAI's "GPT-4o-mini" on the gold-standard dataset to build an optimized pipeline that allowed us to extract variables from the large dataset. The optimized LLM achieved accuracies above 0.85 for all variables, with precision, recall and F1 score macro averaged > 0.90, indicating balanced performance. Stability testing showed a 95% match rate across runs, confirming consistency. Applying the framework to the full dataset enabled efficient extraction of variables necessary for downstream analysis, costing under $3 and completing in approximately one hour. QuaLLM-Health demonstrates that LLMs can effectively and efficiently extract clinically relevant quantitative data from unstructured social media content. Incorporating human expertise and iterative prompt refinement ensures accuracy and reliability. This methodology can be adapted for large-scale analysis of patient-generated data across various health domains, facilitating valuable insights for healthcare research.
- Abstract(参考訳): Redditのようなソーシャルメディアに関する健康に関する議論は、貴重な洞察を提供するが、構造化されていないテキストから定量的データを抽出することは難しい。
本研究では,大規模な言語モデル (LLMs) を用いたグルカゴン様ペプチド-1 (GLP-1) 受容体アゴニストに関するRedditの議論から臨床的に重要な定量的データを抽出するために,QuaLLMからQuaLLM-Healthに適応したフレームワークを提案する。
2024年7月にReddit APIを使って5つのGLP-1関連コミュニティから410万の投稿とコメントを収集しました。
がんに関する議論のフィルタリングの後、2,059のユニークなエントリが残った。
がん生存率,家族歴,がんの種類,リスク認識,医師との議論などの変数を手作業で抽出するためのガイドラインを開発した。
2つのドメインエキスパートが独立して100項目のランダムなサンプルを注釈付けし、ゴールドスタンダードのデータセットを作成した。
次に私たちは、OpenAIの"GPT-4o-mini"をゴールドスタンダードデータセットに反復的なプロンプトエンジニアリングを採用して、大規模なデータセットから変数を抽出する最適化パイプラインを構築しました。
最適化されたLLMは、すべての変数に対して0.85以上の精度を達成し、精度、リコール、F1スコアマクロの平均は0.90であり、バランスの取れた性能を示している。
安定性テストでは、実行中の95%の一致率を示し、一貫性を確認した。
フレームワークを完全なデータセットに適用することで、ダウンストリーム分析に必要な変数の効率的な抽出が可能になり、コストは3ドル未満で、約1時間で完了した。
QuaLLM-Healthは、LLMが非構造化ソーシャルメディアコンテンツから臨床的に関係のある定量的データを効果的に効率的に抽出できることを示した。
人間の専門知識と反復的な迅速な改善を取り入れることで、正確性と信頼性が保証される。
この手法は、様々な医療領域にまたがる患者生成データの大規模分析に応用でき、医療研究に有用な洞察を得られる。
関連論文リスト
- Leveraging large language models for structured information extraction from pathology reports [0.0]
乳がん病理組織学的報告から構造情報を抽出する際の大規模言語モデルの精度を評価する。
構造化情報抽出のためのオープンソースツールは、自然言語を使って非プログラマがカスタマイズできる。
論文 参考訳(メタデータ) (2025-02-14T21:46:02Z) - Enhanced Electronic Health Records Text Summarization Using Large Language Models [0.0]
このプロジェクトは、臨床が優先する、焦点を絞った要約を生成するシステムを作成することで、以前の作業の上に構築される。
提案システムでは,Flan-T5モデルを用いて,臨床専門のトピックに基づいた調整されたERHサマリーを生成する。
論文 参考訳(メタデータ) (2024-10-12T19:36:41Z) - Towards Enhancing Coherence in Extractive Summarization: Dataset and Experiments with LLMs [70.15262704746378]
我々は,5つの公開データセットと自然言語ユーザフィードバックのためのコヒーレントな要約からなる,体系的に作成された人間アノテーションデータセットを提案する。
Falcon-40BとLlama-2-13Bによる予備的な実験では、コヒーレントなサマリーを生成するという点で大幅な性能向上(10%ルージュ-L)が見られた。
論文 参考訳(メタデータ) (2024-07-05T20:25:04Z) - Automatically Extracting Numerical Results from Randomized Controlled Trials with Large Language Models [19.72316842477808]
我々は,現代の大規模言語モデル (LLM) がこのタスクを確実に実行できるかを評価する。
長い入力を許容できる大規模なLSMは、完全に自動メタ分析を実現するために、微妙に近い。
論文 参考訳(メタデータ) (2024-05-02T19:20:11Z) - Reshaping Free-Text Radiology Notes Into Structured Reports With Generative Transformers [0.29530625605275984]
構造化報告(SR)は様々な医療社会で推奨されている。
自由テキストレポートから情報を抽出するパイプラインを提案する。
我々の研究は自然言語処理(NLP)とトランスフォーマーベースのモデルを活用することを目的としている。
論文 参考訳(メタデータ) (2024-03-27T18:38:39Z) - Multimodal LLMs for health grounded in individual-specific data [1.8473477867376036]
基礎となる大規模言語モデル(LLM)は、健康を含む幅広い分野のタスクを解く素晴らしい能力を示している。
我々は、個人固有のデータに基づいて、健康のためのマルチモーダルLSMを作成するための一歩を踏み出した。
我々は,HLMが高次元時系列データに加えて,人口統計学的,臨床的特徴を効果的に利用し,疾患リスクを推定できることを示した。
論文 参考訳(メタデータ) (2023-07-18T07:12:46Z) - Self-Verification Improves Few-Shot Clinical Information Extraction [73.6905567014859]
大規模言語モデル (LLMs) は、数発のテキスト内学習を通じて臨床キュレーションを加速する可能性を示している。
正確性や解釈可能性に関する問題、特に健康のようなミッションクリティカルな領域ではまだ苦戦している。
本稿では,自己検証を用いた汎用的な緩和フレームワークについて検討する。このフレームワークはLLMを利用して,自己抽出のための証明を提供し,その出力をチェックする。
論文 参考訳(メタデータ) (2023-05-30T22:05:11Z) - Does Synthetic Data Generation of LLMs Help Clinical Text Mining? [51.205078179427645]
臨床テキストマイニングにおけるOpenAIのChatGPTの可能性を検討する。
本稿では,高品質な合成データを大量に生成する新たな学習パラダイムを提案する。
提案手法により,下流タスクの性能が大幅に向上した。
論文 参考訳(メタデータ) (2023-03-08T03:56:31Z) - Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of
Code-Mixed Clinical Texts [56.72488923420374]
事前学習型言語モデル (LM) は低リソース環境下での言語間移動に大きな可能性を示している。
脳卒中におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために,NER (name recognition) のためのLMの多言語間転写特性を示す。
論文 参考訳(メタデータ) (2022-04-10T21:46:52Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z) - Text Mining to Identify and Extract Novel Disease Treatments From
Unstructured Datasets [56.38623317907416]
Google Cloudを使って、NPRラジオ番組のポッドキャストのエピソードを書き起こします。
次に、テキストを体系的に前処理するためのパイプラインを構築します。
我々のモデルは、Omeprazoleが心臓熱傷の治療に役立てることに成功しました。
論文 参考訳(メタデータ) (2020-10-22T19:52:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。