論文の概要: Crowdsourcing with Enhanced Data Quality Assurance: An Efficient Approach to Mitigate Resource Scarcity Challenges in Training Large Language Models for Healthcare
- arxiv url: http://arxiv.org/abs/2405.13030v1
- Date: Thu, 16 May 2024 08:29:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-27 02:48:13.089371
- Title: Crowdsourcing with Enhanced Data Quality Assurance: An Efficient Approach to Mitigate Resource Scarcity Challenges in Training Large Language Models for Healthcare
- Title(参考訳): データ品質保証を強化したクラウドソーシング:医療用大規模言語モデルの訓練における資源スカシティの課題を効果的に解決するためのアプローチ
- Authors: P. Barai, G. Leroy, P. Bisht, J. M. Rothman, S. Lee, J. Andrews, S. A. Rice, A. Ahmed,
- Abstract要約: 本稿では,事前,リアルタイムおよびデータ収集段階における品質管理対策を充実したクラウドソーシングフレームワークを提案する。
本研究は,大規模言語モデルによる自閉症関連症状の予測によるデータ品質向上効果について検討した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have demonstrated immense potential in artificial intelligence across various domains, including healthcare. However, their efficacy is hindered by the need for high-quality labeled data, which is often expensive and time-consuming to create, particularly in low-resource domains like healthcare. To address these challenges, we propose a crowdsourcing (CS) framework enriched with quality control measures at the pre-, real-time-, and post-data gathering stages. Our study evaluated the effectiveness of enhancing data quality through its impact on LLMs (Bio-BERT) for predicting autism-related symptoms. The results show that real-time quality control improves data quality by 19 percent compared to pre-quality control. Fine-tuning Bio-BERT using crowdsourced data generally increased recall compared to the Bio-BERT baseline but lowered precision. Our findings highlighted the potential of crowdsourcing and quality control in resource-constrained environments and offered insights into optimizing healthcare LLMs for informed decision-making and improved patient care.
- Abstract(参考訳): 大規模言語モデル(LLM)は、医療を含むさまざまな領域にわたる人工知能において、大きな可能性を実証している。
しかし、それらの有効性は、高品質なラベル付きデータの必要性によって妨げられ、特に医療のような低リソースの領域では、しばしばコストがかかり、作成に時間がかかる。
これらの課題に対処するため,クラウドソーシング(CS)フレームワークを提案する。
本研究は, LLM(Bio-BERT)への影響によるデータ品質向上効果について検討した。
その結果、リアルタイム品質管理は、事前品質管理と比較して、データ品質を19%改善することがわかった。
クラウドソースデータを用いた微調整Bio-BERTは,Bio-BERTベースラインに比べてリコール率が高くなったが,精度は低下した。
本研究は, 資源制約環境におけるクラウドソーシングと品質管理の可能性を強調し, 情報意思決定のための医療用LSMの最適化と患者ケアの改善に関する洞察を提供した。
関連論文リスト
- Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。
このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。
生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文 参考訳(メタデータ) (2024-11-21T02:30:53Z) - Fine-Tuning LLMs for Reliable Medical Question-Answering Services [0.6103716315036845]
LLMを用いたQAサービスへの先進的なアプローチを提案する。
我々の研究はLLaMA-2やMistralのようなモデルの最適化に重点を置いており、正確で信頼性の高い医療回答を提供する上で大きな可能性を秘めている。
論文 参考訳(メタデータ) (2024-10-21T15:12:20Z) - COMFORT: A Continual Fine-Tuning Framework for Foundation Models Targeted at Consumer Healthcare [3.088223994180069]
COMFORTはTransformerベースの基盤モデルとWMSベースの疾患検出のギャップを埋めることを目的としている。
本稿では,トランスフォーマーに基づく基礎モデルを生理的信号の大規模データセット上で事前学習するための新しいアプローチを提案する。
次に、低ランク適応(LoRA)とその変種など、パラメータ効率のよい各種細調整法(PEFT)を用いて、モデルを微調整し、下流の様々な疾患検出タスクに適応させる。
論文 参考訳(メタデータ) (2024-09-14T22:24:52Z) - Privacy-Preserving SAM Quantization for Efficient Edge Intelligence in Healthcare [9.381558154295012]
Segment Anything Model (SAM) はインテリジェントなイメージセグメンテーションに優れている。
SAMはリソース制限されたエッジデバイスにデプロイする上で大きな課題となる。
本研究では,原データなしで量子化パラメータを学習・校正する DFQ-SAM という,SAM のためのデータフリー量子化フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-14T10:43:35Z) - Speaking the Same Language: Leveraging LLMs in Standardizing Clinical Data for AI [0.0]
本研究は、医療データの標準化など、特定の課題に対処するため、大規模言語モデルの採用を念頭においている。
この結果から,大規模言語モデルを用いることで手作業によるデータキュレーションの必要性が著しく低下することが示唆された。
提案手法は、医療におけるAIの統合を迅速化し、患者のケアの質を向上させるとともに、AIのためのデータ作成に必要な時間と資金を最小化する。
論文 参考訳(メタデータ) (2024-08-16T20:51:21Z) - STLLaVA-Med: Self-Training Large Language and Vision Assistant for Medical Question-Answering [58.79671189792399]
STLLaVA-Medは、医療ビジュアルインストラクションデータを自動生成できるポリシーモデルを訓練するために設計されている。
STLLaVA-Medの有効性とデータ効率を3つの主要な医用視覚質問応答(VQA)ベンチマークで検証した。
論文 参考訳(メタデータ) (2024-06-28T15:01:23Z) - AI-Driven Frameworks for Enhancing Data Quality in Big Data Ecosystems: Error_Detection, Correction, and Metadata Integration [0.0]
この論文は、ビッグデータの品質を包括的に向上することを目的とした、新しい相互接続フレームワークセットを提案する。
まず,データ品質を正確に評価するために,新しい品質指標と重み付きスコアシステムを導入する。
第3に,AIモデルを用いた各種品質異常検出のための汎用フレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-06T21:36:45Z) - Enhancing Data Quality in Federated Fine-Tuning of Foundation Models [54.757324343062734]
本稿では,基礎モデルのファインチューニングのためのデータ品質制御パイプラインを提案する。
このパイプラインは、トレーニングデータの質を反映したスコアを計算し、統一された標準のグローバルしきい値を決定する。
実験の結果,提案した品質制御パイプラインはモデルトレーニングの有効性と信頼性を向上し,性能が向上することが示された。
論文 参考訳(メタデータ) (2024-03-07T14:28:04Z) - Large Language Models for Healthcare Data Augmentation: An Example on
Patient-Trial Matching [49.78442796596806]
患者-心電図マッチング(LLM-PTM)のための革新的なプライバシ対応データ拡張手法を提案する。
本実験では, LLM-PTM法を用いて平均性能を7.32%向上させ, 新しいデータへの一般化性を12.12%向上させた。
論文 参考訳(メタデータ) (2023-03-24T03:14:00Z) - SPeC: A Soft Prompt-Based Calibration on Performance Variability of
Large Language Model in Clinical Notes Summarization [50.01382938451978]
本稿では,ソフトプロンプトを用いたモデルに依存しないパイプラインを導入し,確率に基づく要約の利点を保ちながら分散を減少させる。
実験結果から,本手法は性能を向上するだけでなく,様々な言語モデルの分散を効果的に抑制することが明らかとなった。
論文 参考訳(メタデータ) (2023-03-23T04:47:46Z) - Does Synthetic Data Generation of LLMs Help Clinical Text Mining? [51.205078179427645]
臨床テキストマイニングにおけるOpenAIのChatGPTの可能性を検討する。
本稿では,高品質な合成データを大量に生成する新たな学習パラダイムを提案する。
提案手法により,下流タスクの性能が大幅に向上した。
論文 参考訳(メタデータ) (2023-03-08T03:56:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。