論文の概要: Fine-Tuning LLMs on Small Medical Datasets: Text Classification and Normalization Effectiveness on Cardiology reports and Discharge records
- arxiv url: http://arxiv.org/abs/2503.21349v1
- Date: Thu, 27 Mar 2025 10:35:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-28 12:54:28.193674
- Title: Fine-Tuning LLMs on Small Medical Datasets: Text Classification and Normalization Effectiveness on Cardiology reports and Discharge records
- Title(参考訳): 微小医療データセットの微調整LDM: テキスト分類と正規化が心臓医学報告および退院記録に及ぼす影響
- Authors: Noah Losch, Lucas Plagwitz, Antonius Büscher, Julian Varghese,
- Abstract要約: テキスト分類と名前付きエンティティ認識タスクのための小さな医療データセットに対する細調整大言語モデル(LLM)の有効性について検討する。
実験の結果,微調整は両タスクのパフォーマンスを向上し,200-300のトレーニング例では顕著な改善が見られた。
- 参考スコア(独自算出の注目度): 0.07499722271664144
- License:
- Abstract: We investigate the effectiveness of fine-tuning large language models (LLMs) on small medical datasets for text classification and named entity recognition tasks. Using a German cardiology report dataset and the i2b2 Smoking Challenge dataset, we demonstrate that fine-tuning small LLMs locally on limited training data can improve performance achieving comparable results to larger models. Our experiments show that fine-tuning improves performance on both tasks, with notable gains observed with as few as 200-300 training examples. Overall, the study highlights the potential of task-specific fine-tuning of LLMs for automating clinical workflows and efficiently extracting structured data from unstructured medical text.
- Abstract(参考訳): テキスト分類と名前付きエンティティ認識タスクのための小さな医療データセットに対する細調整大言語モデル(LLM)の有効性について検討する。
ドイツの心臓医学レポートデータセットとi2b2喫煙チャレンジデータセットを用いて、限られたトレーニングデータ上で局所的に微調整された小さなLSMが、より大きなモデルに匹敵するパフォーマンス向上を実現することを実証した。
実験の結果,微調整は両タスクのパフォーマンスを向上し,200-300のトレーニング例では顕著な改善が見られた。
全体として、この研究は、臨床ワークフローを自動化し、構造化されていない医療テキストから構造化データを効率的に抽出するLLMのタスク特異的微調整の可能性を強調している。
関連論文リスト
- ELMTEX: Fine-Tuning Large Language Models for Structured Clinical Information Extraction. A Case Study on Clinical Reports [3.0363830583066713]
本稿では,Large Language Models (LLMs) を用いて,構造化されていない臨床報告から構造化情報を抽出することを目的としたプロジェクトの結果について述べる。
我々は,ユーザインタフェースを用いたワークフローを開発し,戦略と微調整により,様々なサイズのLCMを評価した。
以上の結果から,微調整された小型モデルでは性能が向上し,資源制限設定の効率化が期待できることがわかった。
論文 参考訳(メタデータ) (2025-02-08T16:44:56Z) - Evaluating LLM Abilities to Understand Tabular Electronic Health Records: A Comprehensive Study of Patient Data Extraction and Retrieval [1.986227187900497]
我々はMIMICデータセットを用いて実験を行い、素早い構造、命令、文脈、実演の影響を探索する。
その結果,最適特徴選択とシリアライズ手法はタスク性能を最大26.79%向上させることができた。
実例選択によるインコンテキスト学習では,データ抽出性能が5.95%向上した。
論文 参考訳(メタデータ) (2025-01-16T08:52:50Z) - How Hard is this Test Set? NLI Characterization by Exploiting Training Dynamics [49.9329723199239]
本稿では, 実例と非実例を手作業で構築することなく, 挑戦的なテストセットを自動生成する手法を提案する。
一般的なNLIデータセットのテストセットを,トレーニングダイナミクスを利用した3つの難易度に分類する。
我々の評価法がトレーニングセットに適用された場合、トレーニング対象データのごく一部でトレーニングされたモデルは、フルデータセットでトレーニングされたモデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-10-04T13:39:21Z) - When Raw Data Prevails: Are Large Language Model Embeddings Effective in Numerical Data Representation for Medical Machine Learning Applications? [8.89829757177796]
大規模言語モデルの最後の隠れ状態からベクター表現が医療診断および予後に有効であることを示す。
我々は,異常な生理的データを表すため,ゼロショット設定の命令調整LDMに着目し,それらのユーティリティを特徴抽出器として評価する。
医学MLタスクでは生データの特徴が依然として有効であることが示唆されているが、ゼロショットLSM埋め込みは競争力のある結果を示している。
論文 参考訳(メタデータ) (2024-08-15T03:56:40Z) - Is larger always better? Evaluating and prompting large language models for non-generative medical tasks [11.799956298563844]
本研究は、GPTベースのLCM、BERTベースのモデル、従来の臨床予測モデルなど、さまざまなモデルをベンチマークする。
我々は,寛容と予測,疾患階層再構築,生物医学的文章マッチングといった課題に焦点をあてた。
その結果, LLMは, 適切に設計されたプロンプト戦略を用いて, 構造化EHRデータに対して頑健なゼロショット予測能力を示した。
構造化されていない医療用テキストでは、LLMは細調整されたBERTモデルよりも優れておらず、教師なしタスクと教師なしタスクの両方に優れていた。
論文 参考訳(メタデータ) (2024-07-26T06:09:10Z) - Developing Healthcare Language Model Embedding Spaces [0.20971479389679337]
事前トレーニングされた大規模言語モデル(LLM)は、医療中心のテキストのようなドメイン外のデータセットに苦労することが多い。
従来のマスキング言語モデリング、Deep Contrastive Learning for Unsupervised Textual Representations(DeCLUTR)、およびヘルスケア設定からメタデータカテゴリを利用する新しい事前学習目標の3つの手法が評価されている。
対照的に訓練されたモデルは、分類タスクにおける他のアプローチよりも優れており、限られたラベル付きデータから強力なパフォーマンスを提供し、必要なモデルパラメータの更新を少なくする。
論文 参考訳(メタデータ) (2024-03-28T19:31:32Z) - Interpretable Medical Diagnostics with Structured Data Extraction by
Large Language Models [59.89454513692417]
タブラルデータはしばしばテキストに隠され、特に医学的診断報告に使用される。
本稿では,TEMED-LLM と呼ばれるテキスト医療報告から構造化表状データを抽出する手法を提案する。
本手法は,医学診断における最先端のテキスト分類モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-08T09:12:28Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - Does Synthetic Data Generation of LLMs Help Clinical Text Mining? [51.205078179427645]
臨床テキストマイニングにおけるOpenAIのChatGPTの可能性を検討する。
本稿では,高品質な合成データを大量に生成する新たな学習パラダイムを提案する。
提案手法により,下流タスクの性能が大幅に向上した。
論文 参考訳(メタデータ) (2023-03-08T03:56:31Z) - BERT WEAVER: Using WEight AVERaging to enable lifelong learning for
transformer-based models in biomedical semantic search engines [49.75878234192369]
We present WEAVER, a simple, yet efficient post-processing method that infuse old knowledge into the new model。
WEAVERを逐次的に適用すると、同じ単語の埋め込み分布が、一度にすべてのデータに対する総合的なトレーニングとして得られることを示す。
論文 参考訳(メタデータ) (2022-02-21T10:34:41Z) - Self-Training with Improved Regularization for Sample-Efficient Chest
X-Ray Classification [80.00316465793702]
挑戦的なシナリオで堅牢なモデリングを可能にするディープラーニングフレームワークを提案する。
その結果,85%のラベル付きデータを用いて,大規模データ設定で学習した分類器の性能に適合する予測モデルを構築することができた。
論文 参考訳(メタデータ) (2020-05-03T02:36:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。