論文の概要: KDH-MLTC: Knowledge Distillation for Healthcare Multi-Label Text Classification
- arxiv url: http://arxiv.org/abs/2505.07162v1
- Date: Mon, 12 May 2025 00:58:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:49.231438
- Title: KDH-MLTC: Knowledge Distillation for Healthcare Multi-Label Text Classification
- Title(参考訳): KDH-MLTC:医療マルチラベルテキスト分類のための知識蒸留
- Authors: Hajar Sakai, Sarah S. Lam,
- Abstract要約: 本研究は、医療用多ラベルテキスト分類(KDH-MLTC)における知識蒸留について述べる。
提案手法は,知識蒸留と逐次微調整を統合することで,従来の医療用マルチラベルテキスト分類の課題に対処する。
3つの医学文献データセットを用いて実験を行った結果、KDH-MLTCは既存の手法に比べて優れた性能を示した。
- 参考スコア(独自算出の注目度): 4.8342038441006805
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The increasing volume of healthcare textual data requires computationally efficient, yet highly accurate classification approaches able to handle the nuanced and complex nature of medical terminology. This research presents Knowledge Distillation for Healthcare Multi-Label Text Classification (KDH-MLTC), a framework leveraging model compression and Large Language Models (LLMs). The proposed approach addresses conventional healthcare Multi-Label Text Classification (MLTC) challenges by integrating knowledge distillation and sequential fine-tuning, subsequently optimized through Particle Swarm Optimization (PSO) for hyperparameter tuning. KDH-MLTC transfers knowledge from a more complex teacher LLM (i.e., BERT) to a lighter student LLM (i.e., DistilBERT) through sequential training adapted to MLTC that preserves the teacher's learned information while significantly reducing computational requirements. As a result, the classification is enabled to be conducted locally, making it suitable for healthcare textual data characterized by sensitivity and, therefore, ensuring HIPAA compliance. The experiments conducted on three medical literature datasets of different sizes, sampled from the Hallmark of Cancer (HoC) dataset, demonstrate that KDH-MLTC achieves superior performance compared to existing approaches, particularly for the largest dataset, reaching an F1 score of 82.70%. Additionally, statistical validation and an ablation study are carried out, proving the robustness of KDH-MLTC. Furthermore, the PSO-based hyperparameter optimization process allowed the identification of optimal configurations. The proposed approach contributes to healthcare text classification research, balancing efficiency requirements in resource-constrained healthcare settings with satisfactory accuracy demands.
- Abstract(参考訳): 医療用テキストデータの量の増加には、計算的に効率的かつ高精度な分類アプローチが必要であり、医療用語の微妙で複雑な性質を扱うことができる。
本研究は, モデル圧縮とLarge Language Models (LLMs) を利用したKDH-MLTC(KDH-MLTC)について述べる。
提案手法は、知識蒸留と逐次微調整を統合することで、従来の医療用マルチラベルテキスト分類(MLTC)の課題に対処し、その後、超パラメータチューニングのためのParticle Swarm Optimization(PSO)によって最適化される。
KDH-MLTC は、より複雑な教師 LLM (すなわちBERT) からより軽い学生 LLM (すなわち DistilBERT) に知識を伝達する。
その結果、この分類を局所的に行うことができ、感度を特徴とする医療用テキストデータに適合し、したがってHIPAAコンプライアンスを確保することができる。
ホルマーク・オブ・がん(Hollmark of Cancer, HoC)データセットから採取した3つの医学文献データセットを用いて行われた実験は、KDH-MLTCが既存のアプローチ、特に最大のデータセットと比較して、82.70%のF1スコアに達するという優れたパフォーマンスを達成していることを示した。
さらに,KDH-MLTCのロバスト性を証明し,統計的検証とアブレーション試験を行った。
さらに、PSOベースのハイパーパラメータ最適化プロセスにより、最適構成の特定が可能となった。
提案手法は, 医療用テキスト分類研究に寄与し, リソース制約のある医療環境における効率要件を, 良好な精度でバランスさせる。
関連論文リスト
- Lightweight Clinical Decision Support System using QLoRA-Fine-Tuned LLMs and Retrieval-Augmented Generation [0.0]
本研究では,医療におけるLarge Language Models(LLM)の適用について検討する。
我々は、病院固有のデータと統合された検索型RAG(Retrieval-Augmented Generation)による医療意思決定支援と、量子化低ランク適応(QLoRA)を用いた微調整に焦点を当てる。
我々は、患者のプライバシ、データセキュリティ、厳格な臨床検証の必要性、およびそのようなシステムを現実の医療に組み込むための実践的な課題など、倫理的な配慮に目を向ける。
論文 参考訳(メタデータ) (2025-05-06T10:31:54Z) - Reasoning-Enhanced Healthcare Predictions with Knowledge Graph Community Retrieval [61.70489848327436]
KAREは、知識グラフ(KG)コミュニティレベルの検索と大規模言語モデル(LLM)推論を統合する新しいフレームワークである。
MIMIC-IIIでは最大10.8~15.0%、MIMIC-IVでは12.6~12.7%である。
論文 参考訳(メタデータ) (2024-10-06T18:46:28Z) - Improving Extraction of Clinical Event Contextual Properties from Electronic Health Records: A Comparative Study [2.0884301753594334]
本研究は,医学テキスト分類のための様々な自然言語モデルの比較分析を行う。
BERTはBi-LSTMモデルを最大28%、ベースラインのBERTモデルを最大16%上回り、マイノリティクラスをリコールする。
論文 参考訳(メタデータ) (2024-08-30T10:28:49Z) - Developing Healthcare Language Model Embedding Spaces [0.20971479389679337]
事前トレーニングされた大規模言語モデル(LLM)は、医療中心のテキストのようなドメイン外のデータセットに苦労することが多い。
従来のマスキング言語モデリング、Deep Contrastive Learning for Unsupervised Textual Representations(DeCLUTR)、およびヘルスケア設定からメタデータカテゴリを利用する新しい事前学習目標の3つの手法が評価されている。
対照的に訓練されたモデルは、分類タスクにおける他のアプローチよりも優れており、限られたラベル付きデータから強力なパフォーマンスを提供し、必要なモデルパラメータの更新を少なくする。
論文 参考訳(メタデータ) (2024-03-28T19:31:32Z) - Learnable Weight Initialization for Volumetric Medical Image Segmentation [66.3030435676252]
本稿では,学習可能な重みに基づくハイブリッド医療画像セグメンテーション手法を提案する。
我々のアプローチはどんなハイブリッドモデルにも簡単に統合でき、外部のトレーニングデータを必要としない。
多臓器・肺がんセグメンテーションタスクの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2023-06-15T17:55:05Z) - Large Language Models for Healthcare Data Augmentation: An Example on
Patient-Trial Matching [49.78442796596806]
患者-心電図マッチング(LLM-PTM)のための革新的なプライバシ対応データ拡張手法を提案する。
本実験では, LLM-PTM法を用いて平均性能を7.32%向上させ, 新しいデータへの一般化性を12.12%向上させた。
論文 参考訳(メタデータ) (2023-03-24T03:14:00Z) - Large Language Models for Biomedical Knowledge Graph Construction:
Information extraction from EMR notes [0.0]
大規模言語モデル(LLM)に基づくエンドツーエンド機械学習ソリューションを提案する。
KG構築プロセスで使用される物質は、疾患、因子、治療、および疾患を経験中に患者と共存する症状である。
提案手法の応用は加齢に伴う黄斑変性に対して実証される。
論文 参考訳(メタデータ) (2023-01-29T15:52:33Z) - Auto-FedRL: Federated Hyperparameter Optimization for
Multi-institutional Medical Image Segmentation [48.821062916381685]
Federated Learning(FL)は、明示的なデータ共有を避けながら協調的なモデルトレーニングを可能にする分散機械学習技術である。
本稿では,Auto-FedRLと呼ばれる,効率的な強化学習(RL)に基づくフェデレーションハイパーパラメータ最適化アルゴリズムを提案する。
提案手法の有効性は,CIFAR-10データセットと2つの実世界の医用画像セグメンテーションデータセットの不均一なデータ分割に対して検証される。
論文 参考訳(メタデータ) (2022-03-12T04:11:42Z) - BoostMIS: Boosting Medical Image Semi-supervised Learning with Adaptive
Pseudo Labeling and Informative Active Annotation [39.9910035951912]
本稿では,BoostMISという新しい半教師付き学習(SSL)フレームワークを提案する。
適応的な擬似ラベリングと情報的アクティブアノテーションを組み合わせて、医療画像SSLモデルの可能性を解き放つ。
論文 参考訳(メタデータ) (2022-03-04T19:19:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。