論文の概要: Segmented Harmonic Loss: Handling Class-Imbalanced Multi-Label Clinical
Data for Medical Coding with Large Language Models
- arxiv url: http://arxiv.org/abs/2310.04595v1
- Date: Fri, 6 Oct 2023 21:20:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 17:31:53.814399
- Title: Segmented Harmonic Loss: Handling Class-Imbalanced Multi-Label Clinical
Data for Medical Coding with Large Language Models
- Title(参考訳): セグメンテッド・ハーモニック・ロス:大規模言語モデルを用いた医療符号化のためのクラス不均衡多ラベル臨床データ処理
- Authors: Surjya Ray, Pratik Mehta, Hongen Zhang, Ada Chaman, Jian Wang,
Chung-Jen Ho, Michael Chiou, Tashfeen Suleman
- Abstract要約: 実生活雑音データに対するLLM(Large Language Models)の効果を評価する。
マルチラベルシナリオにおいて,ほとんどの医療データにおいて,過度なクラス不均衡に対処する新たな損失関数であるSegmented Harmonic Lossを開発した。
実験の結果,提案した損失をトレーニングすると,LLMはノイズの多い長期データセットにおいても大きな性能向上を達成できることがわかった。
- 参考スコア(独自算出の注目度): 1.5913129437464046
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The precipitous rise and adoption of Large Language Models (LLMs) have
shattered expectations with the fastest adoption rate of any consumer-facing
technology in history. Healthcare, a field that traditionally uses NLP
techniques, was bound to be affected by this meteoric rise. In this paper, we
gauge the extent of the impact by evaluating the performance of LLMs for the
task of medical coding on real-life noisy data. We conducted several
experiments on MIMIC III and IV datasets with encoder-based LLMs, such as BERT.
Furthermore, we developed Segmented Harmonic Loss, a new loss function to
address the extreme class imbalance that we found to prevail in most medical
data in a multi-label scenario by segmenting and decoupling co-occurring
classes of the dataset with a new segmentation algorithm. We also devised a
technique based on embedding similarity to tackle noisy data. Our experimental
results show that when trained with the proposed loss, the LLMs achieve
significant performance gains even on noisy long-tailed datasets, outperforming
the F1 score of the state-of-the-art by over ten percentage points.
- Abstract(参考訳): 大規模言語モデル(llm)の普及と普及は、歴史上最も早い消費者向け技術の採用率で、期待を砕いた。
伝統的にNLP技術を使っている医療は、この隕石の上昇の影響を受けている。
本稿では,実生活雑音データに基づく医療用符号化作業におけるLCMの性能評価により,その影響範囲を計測する。
BERT などのエンコーダを用いた LLM を用いたMIMIC III および IV データセットの実験を行った。
さらに,新しいセグメンテーションアルゴリズムを用いてデータセットの共起クラスをセグメンテーションし,分離することにより,マルチラベルシナリオにおいて,ほとんどの医療データに共通する極小クラス不均衡に対処するための新しい損失関数であるsegmented harmonic lossを開発した。
また,ノイズの多いデータに類似性を埋め込む手法も考案した。
提案した損失をトレーニングすると,LLMはノイズの多い長い尾のデータセットでも顕著な性能向上を達成し,最先端のF1スコアを10ポイント以上上回る結果となった。
関連論文リスト
- Artificial Data Point Generation in Clustered Latent Space for Small
Medical Datasets [4.542616945567623]
本稿では,クラスタ化潜在空間(AGCL)における人工データポイント生成手法を提案する。
AGCLは、合成データ生成により、小さな医療データセットの分類性能を向上させるように設計されている。
顔の表情データを利用してパーキンソン病検診に応用した。
論文 参考訳(メタデータ) (2024-09-26T09:51:08Z) - When Raw Data Prevails: Are Large Language Model Embeddings Effective in Numerical Data Representation for Medical Machine Learning Applications? [8.89829757177796]
大規模言語モデルの最後の隠れ状態からベクター表現が医療診断および予後に有効であることを示す。
我々は,異常な生理的データを表すため,ゼロショット設定の命令調整LDMに着目し,それらのユーティリティを特徴抽出器として評価する。
医学MLタスクでは生データの特徴が依然として有効であることが示唆されているが、ゼロショットLSM埋め込みは競争力のある結果を示している。
論文 参考訳(メタデータ) (2024-08-15T03:56:40Z) - Multi-Epoch learning with Data Augmentation for Deep Click-Through Rate Prediction [53.88231294380083]
非連続的な学習シナリオと連続的な学習シナリオの両方に適合する、新しいMulti-Epoch Learning with Data Augmentation (MEDA)フレームワークを導入する。
MEDAは、その後のトレーニングデータへの埋め込み層の依存性を減らし、過度な適合を最小化する。
実験の結果,プレトレーニングした層が新しい埋め込み空間に適応し,過度に適合することなく性能を向上できることが確認された。
論文 参考訳(メタデータ) (2024-06-27T04:00:15Z) - Unveiling Incomplete Modality Brain Tumor Segmentation: Leveraging Masked Predicted Auto-Encoder and Divergence Learning [6.44069573245889]
脳腫瘍のセグメンテーションは、特にマルチモーダルMRI(Multi-modal magnetic resonance imaging)における重要な課題である。
本稿では,不完全なモダリティデータから頑健な特徴学習を可能にする,マスク付き予測事前学習方式を提案する。
微調整段階において、我々は知識蒸留技術を用いて、完全なモダリティデータと欠落したモダリティデータの間に特徴を整列させ、同時にモデルロバスト性を向上する。
論文 参考訳(メタデータ) (2024-06-12T20:35:16Z) - Improving Multiple Sclerosis Lesion Segmentation Across Clinical Sites:
A Federated Learning Approach with Noise-Resilient Training [75.40980802817349]
深層学習モデルは、自動的にMS病変を分節する約束を示しているが、正確な注釈付きデータの不足は、この分野の進歩を妨げている。
我々は,MS病変の不均衡分布とファジィ境界を考慮したDecoupled Hard Label Correction(DHLC)戦略を導入する。
また,集約型中央モデルを利用したCELC(Centrally Enhanced Label Correction)戦略も導入した。
論文 参考訳(メタデータ) (2023-08-31T00:36:10Z) - To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis [50.31589712761807]
大規模言語モデル(LLM)は、事前トレーニング中にトークンに悩まされていることで知られており、Web上の高品質なテキストデータは、LSMのスケーリング制限に近づいている。
本研究では,事前学習データの再学習の結果について検討し,モデルが過度に適合する可能性が示唆された。
第2に, マルチエポック劣化の原因となる要因について検討し, データセットのサイズ, モデルパラメータ, トレーニング目標など, 重要な要因について検討した。
論文 参考訳(メタデータ) (2023-05-22T17:02:15Z) - Time Associated Meta Learning for Clinical Prediction [78.99422473394029]
本稿では,時間関連メタラーニング(TAML)手法を提案する。
タスク分割後のスパーシリティ問題に対処するため、TAMLは時間情報共有戦略を採用し、正のサンプル数を増やす。
複数の臨床データセットに対するTAMLの有効性を示す。
論文 参考訳(メタデータ) (2023-03-05T03:54:54Z) - Long-term stable Electromyography classification using Canonical
Correlation Analysis [5.949779668853555]
表面筋電図(sEMG)信号に基づく手のジェスチャーの識別は、補綴器を制御するための確立されたアプローチである。
最も重要な課題の1つは、復号システムを再訓練することなく、数日にわたって高いEMGデータ分類性能を維持することである。
本稿では, 補綴装置の長期制御のために, 複数日にわたってEMG分類性能を安定させる新しい統計手法を提案する。
論文 参考訳(メタデータ) (2023-01-23T21:45:00Z) - MS Lesion Segmentation: Revisiting Weighting Mechanisms for Federated
Learning [92.91544082745196]
フェデレートラーニング(FL)は医用画像解析に広く用いられている。
FLのパフォーマンスは、多発性硬化症(MS)病変セグメンテーションタスクに制限される。
2つの効果的な再重み付け機構によるFLMS病変分割フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-03T14:06:03Z) - Towards Robust Partially Supervised Multi-Structure Medical Image
Segmentation on Small-Scale Data [123.03252888189546]
データ不足下における部分教師付き学習(PSL)における方法論的ギャップを埋めるために,不確実性下でのビシナルラベル(VLUU)を提案する。
マルチタスク学習とヴィジナルリスク最小化によって動機づけられたVLUUは、ビジナルラベルを生成することによって、部分的に教師付き問題を完全な教師付き問題に変換する。
本研究は,ラベル効率の高い深層学習における新たな研究の方向性を示唆するものである。
論文 参考訳(メタデータ) (2020-11-28T16:31:00Z) - Combined Cleaning and Resampling Algorithm for Multi-Class Imbalanced
Data with Label Noise [11.868507571027626]
本稿では,新しいオーバーサンプリング手法であるマルチクラス・コンバインド・クリーニングとリサンプリングのアルゴリズムを提案する。
提案手法は, オーバーサンプリングに適した領域をモデル化するためのエネルギーベース手法を用いて, SMOTEよりも小さな解離や外れ値の影響を受けない。
重なり合うクラス分布が学習アルゴリズムの性能に与える影響を低減することを目的として, 同時クリーニング操作と組み合わせた。
論文 参考訳(メタデータ) (2020-04-07T13:59:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。