論文の概要: Crowdsourcing with Enhanced Data Quality Assurance: An Efficient Approach to Mitigate Resource Scarcity Challenges in Training Large Language Models for Healthcare
- arxiv url: http://arxiv.org/abs/2405.13030v1
- Date: Thu, 16 May 2024 08:29:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-27 02:48:13.089371
- Title: Crowdsourcing with Enhanced Data Quality Assurance: An Efficient Approach to Mitigate Resource Scarcity Challenges in Training Large Language Models for Healthcare
- Title(参考訳): データ品質保証を強化したクラウドソーシング:医療用大規模言語モデルの訓練における資源スカシティの課題を効果的に解決するためのアプローチ
- Authors: P. Barai, G. Leroy, P. Bisht, J. M. Rothman, S. Lee, J. Andrews, S. A. Rice, A. Ahmed,
- Abstract要約: 本稿では,事前,リアルタイムおよびデータ収集段階における品質管理対策を充実したクラウドソーシングフレームワークを提案する。
本研究は,大規模言語モデルによる自閉症関連症状の予測によるデータ品質向上効果について検討した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have demonstrated immense potential in artificial intelligence across various domains, including healthcare. However, their efficacy is hindered by the need for high-quality labeled data, which is often expensive and time-consuming to create, particularly in low-resource domains like healthcare. To address these challenges, we propose a crowdsourcing (CS) framework enriched with quality control measures at the pre-, real-time-, and post-data gathering stages. Our study evaluated the effectiveness of enhancing data quality through its impact on LLMs (Bio-BERT) for predicting autism-related symptoms. The results show that real-time quality control improves data quality by 19 percent compared to pre-quality control. Fine-tuning Bio-BERT using crowdsourced data generally increased recall compared to the Bio-BERT baseline but lowered precision. Our findings highlighted the potential of crowdsourcing and quality control in resource-constrained environments and offered insights into optimizing healthcare LLMs for informed decision-making and improved patient care.
- Abstract(参考訳): 大規模言語モデル(LLM)は、医療を含むさまざまな領域にわたる人工知能において、大きな可能性を実証している。
しかし、それらの有効性は、高品質なラベル付きデータの必要性によって妨げられ、特に医療のような低リソースの領域では、しばしばコストがかかり、作成に時間がかかる。
これらの課題に対処するため,クラウドソーシング(CS)フレームワークを提案する。
本研究は, LLM(Bio-BERT)への影響によるデータ品質向上効果について検討した。
その結果、リアルタイム品質管理は、事前品質管理と比較して、データ品質を19%改善することがわかった。
クラウドソースデータを用いた微調整Bio-BERTは,Bio-BERTベースラインに比べてリコール率が高くなったが,精度は低下した。
本研究は, 資源制約環境におけるクラウドソーシングと品質管理の可能性を強調し, 情報意思決定のための医療用LSMの最適化と患者ケアの改善に関する洞察を提供した。
関連論文リスト
- STLLaVA-Med: Self-Training Large Language and Vision Assistant for Medical [58.79671189792399]
STLLaVA-Medは、医療ビジュアルインストラクションデータを自動生成できるポリシーモデルを訓練するために設計されている。
STLLaVA-Medの有効性とデータ効率を3つの主要な医用視覚質問応答(VQA)ベンチマークで検証した。
論文 参考訳(メタデータ) (2024-06-28T15:01:23Z) - Global Data Constraints: Ethical and Effectiveness Challenges in Large Language Model [4.7245503050933335]
本稿では,大規模言語モデルにおける高品質な学習データ取得に関わる課題について検討する。
我々は、公開されているがバイアスのある、あるいは無関係なデータソースに依存することの技術的および倫理的意味を強調します。
我々は,データ品質の向上とロバストネスのモデル化を目的としたいくつかの緩和戦略を提案し,検証する。
論文 参考訳(メタデータ) (2024-06-17T05:13:25Z) - AI-Driven Frameworks for Enhancing Data Quality in Big Data Ecosystems: Error_Detection, Correction, and Metadata Integration [0.0]
この論文は、ビッグデータの品質を包括的に向上することを目的とした、新しい相互接続フレームワークセットを提案する。
まず,データ品質を正確に評価するために,新しい品質指標と重み付きスコアシステムを導入する。
第3に,AIモデルを用いた各種品質異常検出のための汎用フレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-06T21:36:45Z) - Enhancing Data Quality in Federated Fine-Tuning of Foundation Models [54.757324343062734]
本稿では,基礎モデルのファインチューニングのためのデータ品質制御パイプラインを提案する。
このパイプラインは、トレーニングデータの質を反映したスコアを計算し、統一された標準のグローバルしきい値を決定する。
実験の結果,提案した品質制御パイプラインはモデルトレーニングの有効性と信頼性を向上し,性能が向上することが示された。
論文 参考訳(メタデータ) (2024-03-07T14:28:04Z) - Towards Faithful and Robust LLM Specialists for Evidence-Based Question-Answering [10.624293689624151]
我々は、ソースの品質向上と属性応答性向上のために、LLM(Large Language Models)を頑健に微調整する方法について検討する。
具体的には、自動データ品質フィルタを備えたデータ生成パイプラインを導入し、多様な高品質なトレーニングおよびテストデータを大規模に合成する。
総合評価の結果, 合成データの微調整により, 内分布と外分布の両方の性能が向上することがわかった。
論文 参考訳(メタデータ) (2024-02-13T08:12:48Z) - README: Bridging Medical Jargon and Lay Understanding for Patient Education through Data-Centric NLP [9.432205523734707]
医療用語を患者に親しみやすい平易な言語に簡略化することを目的とした,レイ定義の自動生成という新たなタスクを導入する。
このデータセットは、5万以上のユニークな(医療用語、日常の定義)ペアと30万の言及からなる。
また、データフィルタリング、拡張、選択を相乗化してデータ品質を改善する、データ中心のHuman-AIパイプラインも開発しました。
論文 参考訳(メタデータ) (2023-12-24T23:01:00Z) - Deep Reinforcement Learning for Efficient and Fair Allocation of Health
Care Resources [49.956569971833105]
医療資源の枯渇は、レーションの避けられない結果をもたらす可能性がある。
医療資源割り当てプロトコルの普遍的な標準は存在しない。
本稿では,患者の疾患進行と患者間の相互作用効果を統合するためのトランスフォーマーベースのディープQネットワークを提案する。
論文 参考訳(メタデータ) (2023-09-15T17:28:06Z) - Large Language Models for Healthcare Data Augmentation: An Example on
Patient-Trial Matching [49.78442796596806]
患者-心電図マッチング(LLM-PTM)のための革新的なプライバシ対応データ拡張手法を提案する。
本実験では, LLM-PTM法を用いて平均性能を7.32%向上させ, 新しいデータへの一般化性を12.12%向上させた。
論文 参考訳(メタデータ) (2023-03-24T03:14:00Z) - SPeC: A Soft Prompt-Based Calibration on Performance Variability of
Large Language Model in Clinical Notes Summarization [50.01382938451978]
本稿では,ソフトプロンプトを用いたモデルに依存しないパイプラインを導入し,確率に基づく要約の利点を保ちながら分散を減少させる。
実験結果から,本手法は性能を向上するだけでなく,様々な言語モデルの分散を効果的に抑制することが明らかとなった。
論文 参考訳(メタデータ) (2023-03-23T04:47:46Z) - Does Synthetic Data Generation of LLMs Help Clinical Text Mining? [51.205078179427645]
臨床テキストマイニングにおけるOpenAIのChatGPTの可能性を検討する。
本稿では,高品質な合成データを大量に生成する新たな学習パラダイムを提案する。
提案手法により,下流タスクの性能が大幅に向上した。
論文 参考訳(メタデータ) (2023-03-08T03:56:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。