論文の概要: A Comprehensive Study on Fine-Tuning Large Language Models for Medical Question Answering Using Classification Models and Comparative Analysis
- arxiv url: http://arxiv.org/abs/2501.17190v1
- Date: Mon, 27 Jan 2025 03:31:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-30 15:54:12.983841
- Title: A Comprehensive Study on Fine-Tuning Large Language Models for Medical Question Answering Using Classification Models and Comparative Analysis
- Title(参考訳): 分類モデルと比較分析を用いた医療質問応答のための微調整大言語モデルに関する総合的研究
- Authors: Aysegul Ucar, Soumik Nayak, Anunak Roy, Burak Taşcı, Gülay Taşcı,
- Abstract要約: 医療問題に対する信頼性の高い回答の提供の精度と効率を改善している。
また,RoBERTaやBERTなどの各種モデルについて,その能力に基づいて検討・評価を行った。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: This paper presents the overview of the development and fine-tuning of large language models (LLMs) designed specifically for answering medical questions. We are mainly improving the accuracy and efficiency of providing reliable answers to medical queries. In our approach, we have two stages, prediction of a specific label for the received medical question and then providing a predefined answer for this label. Various models such as RoBERTa and BERT were examined and evaluated based on their ability. The models are trained using the datasets derived from 6,800 samples that were scraped from Healthline. com with additional synthetic data. For evaluation, we conducted a comparative study using 5-fold cross-validation. For accessing performance we used metrics like, accuracy, precision, recall, and F1 score and also recorded the training time. The performance of the models was evaluated using 5-fold cross-validation. The LoRA Roberta-large model achieved an accuracy of 78.47%, precision of 72.91%, recall of 76.95%, and an F1 score of 73.56%. The Roberta-base model demonstrated high performance with an accuracy of 99.87%, precision of 99.81%, recall of 99.86%, and an F1 score of 99.82%. The Bert Uncased model showed strong results with an accuracy of 95.85%, precision of 94.42%, recall of 95.58%, and an F1 score of 94.72%. Lastly, the Bert Large Uncased model achieved the highest performance, with an accuracy, precision, recall, and F1 score of 100%. The results obtained have helped indicate the capability of the models in classifying the medical questions and generating accurate answers in the prescription of improved health-related AI solutions.
- Abstract(参考訳): 本稿では,医学的な疑問に答えるために設計された大規模言語モデル(LLM)の開発と微調整の概要について述べる。
医用クエリに対する信頼性の高い回答の提供の精度と効率を主に改善しています。
提案手法では,受信した医療質問に対する特定のラベルの予測と,そのラベルに対する事前定義された回答の2つの段階がある。
また,RoBERTaやBERTなどの各種モデルについて,その能力に基づいて検討・評価を行った。
モデルはHealthlineからスクラップされた6,800のサンプルから得られたデータセットを使用してトレーニングされる。
合成データも追加されています。
評価のために5倍のクロスバリデーションを用いた比較検討を行った。
パフォーマンスにアクセスするには、精度、精度、リコール、F1スコアといったメトリクスを使用し、トレーニング時間を記録しました。
モデルの性能を5倍のクロスバリデーションを用いて評価した。
ロラ・ロバータ大モデルは78.47%、精度72.91%、リコール76.95%、F1スコア73.56%を達成した。
ロバータベースモデルは99.87%の精度、99.81%の精度、99.86%のリコール、F1スコアの99.82%のハイパフォーマンスを示した。
Bert Uncasedモデルは95.85%の精度、94.42%の精度、95.58%のリコール、F1スコア94.72%の強力な結果を示した。
最後に、Bert Large Uncasedモデルは、精度、精度、リコール、F1スコアで最高性能を達成した。
得られた結果は、医療質問を分類し、改善された健康関連AIソリューションの処方薬で正確な回答を生成するモデルの能力を示すのに役立っている。
関連論文リスト
- Brain Tumor Classification on MRI in Light of Molecular Markers [61.77272414423481]
1p/19q遺伝子の同時欠失は、低グレードグリオーマの臨床成績と関連している。
本研究の目的は,MRIを用いた畳み込みニューラルネットワークを脳がん検出に活用することである。
論文 参考訳(メタデータ) (2024-09-29T07:04:26Z) - Stacking-Enhanced Bagging Ensemble Learning for Breast Cancer Classification with CNN [0.24578723416255752]
本稿では,乳がん分類のためのBaggingおよびスタックングアンサンブル学習手法に基づくCNN分類ネットワークを提案する。
このモデルは入力画像の高速かつ正確な分類を行うことができる。
二項分類(乳がんの有無)では、精度は98.84%に達し、5級分類では98.34%に達した。
論文 参考訳(メタデータ) (2024-07-15T09:44:43Z) - Using Pre-training and Interaction Modeling for ancestry-specific disease prediction in UK Biobank [69.90493129893112]
近年のゲノムワイド・アソシエーション(GWAS)研究は、複雑な形質の遺伝的基盤を明らかにしているが、非ヨーロッパ系個体の低発現を示している。
そこで本研究では,マルチオミクスデータを用いて,多様な祖先間での疾患予測を改善することができるかを評価する。
論文 参考訳(メタデータ) (2024-04-26T16:39:50Z) - Common 7B Language Models Already Possess Strong Math Capabilities [61.61442513067561]
本稿では,LLaMA-2 7Bモデルと事前学習を併用したモデルが,すでに強力な数学的能力を示していることを示す。
拡張スケーリングの可能性は、公開されている数学の質問の不足によって制限されている。
論文 参考訳(メタデータ) (2024-03-07T18:00:40Z) - Early prediction of onset of sepsis in Clinical Setting [0.8471078314535754]
教師付き学習手法が採用され、列車データセットの80%をXGBoostモデルでトレーニングした。
モデルは、トレーニング期間中に全く見えなかった予測データに基づいて検証された。
このモデルでは、試験データでは0.494点、予測データでは0.378点の正常化ユーティリティスコアが得られた。
論文 参考訳(メタデータ) (2024-02-05T19:58:40Z) - Symptom-based Machine Learning Models for the Early Detection of
COVID-19: A Narrative Review [0.0]
機械学習モデルは、患者の報告した症状、臨床データ、医療画像などを取り入れて、大規模なデータセットを分析することができる。
本稿では、その性能と限界を含む、COVID-19を予測するための症状のみの機械学習モデルの概要について概説する。
また、画像ベースモデルと比較して、症状ベースのモデルの性能についても検討する。
論文 参考訳(メタデータ) (2023-12-08T01:41:42Z) - A Federated Learning Framework for Stenosis Detection [70.27581181445329]
本研究は,冠動脈造影画像(CA)の狭窄検出におけるFL(Federated Learning)の使用について検討した。
アンコナのOspedale Riuniti(イタリア)で取得した200人の患者1219枚の画像を含む2施設の異種データセットについて検討した。
データセット2には、文献で利用可能な90人の患者からの7492のシーケンシャルな画像が含まれている。
論文 参考訳(メタデータ) (2023-10-30T11:13:40Z) - Large Language Models to Identify Social Determinants of Health in
Electronic Health Records [2.168737004368243]
健康の社会的決定因子(SDoH)は、患者の結果に重要な影響を与えるが、電子健康記録(EHR)から不完全に収集される。
本研究では,EHRにおける自由テキストからSDoHを抽出する大規模言語モデルについて検討した。
800の患者ノートをSDoHカテゴリーにアノテートし,いくつかのトランスフォーマーモデルを評価した。
論文 参考訳(メタデータ) (2023-08-11T19:18:35Z) - Comparative Analysis of Epileptic Seizure Prediction: Exploring Diverse
Pre-Processing Techniques and Machine Learning Models [0.0]
脳波データを用いたてんかん発作予測のための5つの機械学習モデルの比較分析を行った。
本分析の結果は,各モデルの性能を精度で示すものである。
ETモデルは99.29%の精度で最高の性能を示した。
論文 参考訳(メタデータ) (2023-08-06T08:50:08Z) - Alexa Teacher Model: Pretraining and Distilling Multi-Billion-Parameter
Encoders for Natural Language Understanding Systems [63.713297451300086]
本研究では,700Mから9.3Bまでの非埋め込みパラメータ数を持つ事前学習エンコーダの大規模実験結果について述べる。
その後、17M-170Mパラメータからより小さなモデルに蒸留し、仮想アシスタントシステムの自然言語理解(NLU)コンポーネントに応用した。
論文 参考訳(メタデータ) (2022-06-15T20:44:23Z) - UNITE: Uncertainty-based Health Risk Prediction Leveraging Multi-sourced
Data [81.00385374948125]
我々はUNcertaInTyベースのhEalth Risk Prediction(UNITE)モデルを提案する。
UNITEは、複数ソースの健康データを活用した正確な疾患リスク予測と不確実性推定を提供する。
非アルコール性脂肪肝疾患(NASH)とアルツハイマー病(AD)の実態予測タスクにおけるUNITEの評価を行った。
UNITEはAD検出のF1スコアで最大0.841点、NASH検出のPR-AUCで最大0.609点を達成し、最高のベースラインで最大19%の高パフォーマンスを達成している。
論文 参考訳(メタデータ) (2020-10-22T02:28:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。