論文の概要: Fine-tuning Large Language Models for Automated Diagnostic Screening Summaries
- arxiv url: http://arxiv.org/abs/2403.20145v2
- Date: Thu, 4 Apr 2024 10:36:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-05 19:04:16.793774
- Title: Fine-tuning Large Language Models for Automated Diagnostic Screening Summaries
- Title(参考訳): 自動診断用サプライヤーのための微調整大言語モデル
- Authors: Manjeet Yadav, Nilesh Kumar Sahu, Mudita Chaturvedi, Snehil Gupta, Haroon R Lone,
- Abstract要約: 我々は、精神状態検査から簡潔な要約を生成するために、いくつかの最先端の大規模言語モデル(LLM)を評価した。
確立されたROUGEメトリクスと人間評価器からの入力を用いて、要約生成のための4つの異なるモデルを厳格に評価する。
我々の最高性能の微調整モデルは既存のモデルより優れており、ROUGE-1とROUGE-Lはそれぞれ0.810と0.764である。
- 参考スコア(独自算出の注目度): 0.024105148723769353
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Improving mental health support in developing countries is a pressing need. One potential solution is the development of scalable, automated systems to conduct diagnostic screenings, which could help alleviate the burden on mental health professionals. In this work, we evaluate several state-of-the-art Large Language Models (LLMs), with and without fine-tuning, on our custom dataset for generating concise summaries from mental state examinations. We rigorously evaluate four different models for summary generation using established ROUGE metrics and input from human evaluators. The results highlight that our top-performing fine-tuned model outperforms existing models, achieving ROUGE-1 and ROUGE-L values of 0.810 and 0.764, respectively. Furthermore, we assessed the fine-tuned model's generalizability on a publicly available D4 dataset, and the outcomes were promising, indicating its potential applicability beyond our custom dataset.
- Abstract(参考訳): 発展途上国におけるメンタルヘルスサポートの改善は、強いニーズである。
潜在的な解決策の1つは、診断スクリーニングを行うスケーラブルで自動化されたシステムの開発であり、メンタルヘルスの専門家の負担を軽減するのに役立つ。
本研究では、精神状態検査から簡潔な要約を生成するためのカスタムデータセットを用いて、微調整の有無にかかわらず、いくつかの最先端のLarge Language Model (LLMs)を評価した。
確立されたROUGEメトリクスと人間評価器からの入力を用いて、要約生成のための4つの異なるモデルを厳格に評価する。
その結果,本モデルが既存のモデルより優れており,ROUGE-1とROUGE-Lはそれぞれ0.810と0.764であることがわかった。
さらに、利用可能なD4データセット上で、微調整されたモデルの一般化性を評価し、その結果が期待でき、私たちのカスタムデータセットを超えて、その潜在的な適用可能性を示した。
関連論文リスト
- Language Models and Retrieval Augmented Generation for Automated Structured Data Extraction from Diagnostic Reports [2.932283627137903]
この研究は、2つのデータセットを利用していた:7,294の放射線診断報告は、BT-RADS(Brain tumor Reporting and Data System)スコアに注釈付けされ、2,154の病理診断報告は、isocitrate dehydrogenase(IDH)変異のステータスに注釈付けされた。
論文 参考訳(メタデータ) (2024-09-15T15:21:45Z) - Towards a clinically accessible radiology foundation model: open-access and lightweight, with automated evaluation [113.5002649181103]
オープンソースの小型マルチモーダルモデル(SMM)を訓練し、放射線学における未測定臨床ニーズに対する能力ギャップを埋める。
トレーニングのために,697万以上の画像テキストペアからなる大規模なデータセットを組み立てる。
評価のために,GPT-4に基づく実測値CheXpromptを提案する。
LlaVA-Radの推論は高速で、単一のV100 GPU上でプライベート設定で実行できる。
論文 参考訳(メタデータ) (2024-03-12T18:12:02Z) - Leveraging Professional Radiologists' Expertise to Enhance LLMs'
Evaluation for Radiology Reports [22.599250713630333]
提案手法は,Large Language Models (LLMs) を用いた専門的放射線技師の専門知識を相乗化する。
我々のアプローチは、LLM評価を放射線学の基準と整合させ、人間とAIが生成したレポートの詳細な比較を可能にする。
実験の結果, 詳細な GPT-4 (5-shot) モデルでは0.48 のスコアが得られ, METEOR のスコアは0.19 を上回った。
論文 参考訳(メタデータ) (2024-01-29T21:24:43Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - Development of patients triage algorithm from nationwide COVID-19
registry data based on machine learning [1.0323063834827415]
本稿では,機械学習技術を用いた重症度評価モデルの開発過程について述べる。
モデルは基本的な患者の基本的個人データのみを必要とするため、患者は自身の重症度を判断できる。
本研究の目的は、患者が自身の重症度をチェックできる医療システムを構築し、同様の重症度を持つ他の患者の過去の治療内容に基づいて、適切な診療所への訪問を通知することである。
論文 参考訳(メタデータ) (2021-09-18T19:56:27Z) - A comparison of approaches to improve worst-case predictive model
performance over patient subpopulations [14.175321968797252]
患者において平均的に正確な臨床結果の予測モデルは、いくつかのサブ集団に対して劇的に過小評価される可能性がある。
サブポピュレーションに対する解離および最悪の性能を一貫して改善するモデル開発と選択のアプローチを同定する。
本研究は, 比較的少数の例外を除いて, 標準学習法よりも, 患者サブポピュレーションに対するアプローチが優れていることが確認された。
論文 参考訳(メタデータ) (2021-08-27T13:10:00Z) - How Faithful is your Synthetic Data? Sample-level Metrics for Evaluating
and Auditing Generative Models [95.8037674226622]
ドメインに依存しない方法で生成モデルの忠実度,多様性,一般化性能を特徴付ける3次元評価指標を提案する。
当社のメトリクスは、精度リコール分析により統計的発散測定を統合し、モデル忠実度と多様性のサンプルおよび分布レベルの診断を可能にします。
論文 参考訳(メタデータ) (2021-02-17T18:25:30Z) - Adversarial Sample Enhanced Domain Adaptation: A Case Study on
Predictive Modeling with Electronic Health Records [57.75125067744978]
ドメイン適応を容易にするデータ拡張手法を提案する。
逆生成したサンプルはドメイン適応時に使用される。
その結果,本手法の有効性とタスクの一般性が確認された。
論文 参考訳(メタデータ) (2021-01-13T03:20:20Z) - UNITE: Uncertainty-based Health Risk Prediction Leveraging Multi-sourced
Data [81.00385374948125]
我々はUNcertaInTyベースのhEalth Risk Prediction(UNITE)モデルを提案する。
UNITEは、複数ソースの健康データを活用した正確な疾患リスク予測と不確実性推定を提供する。
非アルコール性脂肪肝疾患(NASH)とアルツハイマー病(AD)の実態予測タスクにおけるUNITEの評価を行った。
UNITEはAD検出のF1スコアで最大0.841点、NASH検出のPR-AUCで最大0.609点を達成し、最高のベースラインで最大19%の高パフォーマンスを達成している。
論文 参考訳(メタデータ) (2020-10-22T02:28:11Z) - Hemogram Data as a Tool for Decision-making in COVID-19 Management:
Applications to Resource Scarcity Scenarios [62.997667081978825]
新型コロナウイルス(COVID-19)のパンデミックは世界中の緊急対応システムに挑戦している。
本研究は, 症状患者の血液検査データから得られた機械学習モデルについて述べる。
提案されたモデルでは、新型コロナウイルスqRT-PCRの結果を、高い精度、感度、特異性で症状のある個人に予測することができる。
論文 参考訳(メタデータ) (2020-05-10T01:45:03Z) - Language Models Are An Effective Patient Representation Learning
Technique For Electronic Health Record Data [7.260199064831896]
本研究では,自然言語処理技術に触発された患者表現方式により,臨床予測モデルの精度が向上することを示す。
このような患者表現方式は、標準的な基準よりも5つの予測タスクにおいて、3.5%の平均的なAUROCの改善を可能にする。
論文 参考訳(メタデータ) (2020-01-06T22:24:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。