論文の概要: Unlocking Public Catalogues: Instruction-Tuning LLMs for ICD Coding of German Tumor Diagnoses
- arxiv url: http://arxiv.org/abs/2510.13624v1
- Date: Wed, 15 Oct 2025 14:51:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.71942
- Title: Unlocking Public Catalogues: Instruction-Tuning LLMs for ICD Coding of German Tumor Diagnoses
- Title(参考訳): 公開カタログのアンロック:ドイツ腫瘍診断のICD符号化のための命令調整LDM
- Authors: Stefan Lenz, Lakisha Ortiz Rosario, Georg Vollmar, Arsenij Ustjanzew, Fatma Alickovic, Thomas Kindler, Torsten Panholzer,
- Abstract要約: 本研究では,公開データセットを用いた命令ベース微調整が,ドイツの腫瘍診断テキストに対するオープンウェイトLLMの符号化精度を向上させるかを検討する。
トレーニングデータとして、ICD-10-GM、ICD-O-3、OPSカタログに基づいて50,000以上の質問応答ペアが作成された。
ICD-10-GMの精度は1.4-24%から41-58%に上昇し、部分精度は31-74%から73-83%に上昇した。
ICD-O-3トポグラフィー符号化の精度も向上したが、精度は22~40%、微調整後の部分精度は56~67%と大幅に低下した。
- 参考スコア(独自算出の注目度): 0.0827768525428837
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate coding of tumor diagnoses with ICD-10-GM and ICD-O-3 is essential for structured cancer documentation in Germany. Smaller open-weight LLMs are appealing for privacy-preserving automation but often struggle with coding accuracy in German-language contexts. This study investigates whether instruction-based fine-tuning on public datasets improves the coding accuracy of open-weight LLMs for German tumor diagnosis texts. The evaluation uses coded diagnoses from the local tumor documentation system as test data. In a systematic data quality assessment, the upper limit for ICD-10 coding performance was estimated at 60-79% for exact and 81-94% for partial (three-character codes only) derivation. As training data, over 500,000 question-answer pairs were created based on the ICD-10-GM, ICD-O-3, and OPS catalogues. Eight open-weight models from the Qwen, Llama, and Mistral families (7-70 B parameters) were fine-tuned. ICD-10-GM accuracy rose from 1.4-24% to 41-58%, and partial accuracy from 31-74% to 73-83%. The accuracy of ICD-O-3 topography coding also improved but started and remained considerably lower with an exact accuracy of 22-40% and a partial accuracy of 56-67% after fine-tuning. Malformed code outputs dropped to 0% for all models. Tumor-diagnosis recognition reached 99%. Accuracy correlated positively with model size, but gaps between small and large models narrowed after fine-tuning. The reasoning mode in Qwen3 generally yielded a lower performance than fine-tuning and was over 100 times slower. Our findings highlight the potential of leveraging public catalogues to build instruction datasets that improve LLMs in medical documentation tasks. The complete training dataset and the best-performing checkpoints of the fine-tuned models are available from https://huggingface.co/datasets/stefan-m-lenz/ICDOPS-QA-2024.
- Abstract(参考訳): ICD-10-GMおよびICD-O-3による腫瘍診断の正確なコーディングは、ドイツの構造化癌文書に必須である。
より小さなオープンウェイトなLLMは、プライバシー保護の自動化を訴えるが、しばしばドイツ語の文脈でコーディングの正確さに悩まされる。
本研究では,公開データセットを用いた命令ベース微調整が,ドイツの腫瘍診断テキストに対するオープンウェイトLLMの符号化精度を向上させるかを検討する。
この評価は、局所的な腫瘍ドキュメンテーションシステムからのコード診断をテストデータとして利用する。
系統的なデータ品質評価では、ICD-10符号化性能の上限は精度60~79%、部分的(3文字のみ)の導出率81~94%と推定された。
トレーニングデータとして、ICD-10-GM、ICD-O-3、OPSカタログに基づいて50,000以上の質問応答ペアが作成された。
Qwen、Llama、Mistralの8つのオープンウェイトモデル(7-70Bパラメータ)が微調整された。
ICD-10-GMの精度は1.4-24%から41-58%に上昇し、部分精度は31-74%から73-83%に上昇した。
ICD-O-3の精度も向上したが, 微調整後の精度は22~40%, 部分精度56~67%であった。
不正なコード出力は、すべてのモデルで0%に低下した。
腫瘍診断は99%であった。
精度はモデルサイズと正の相関を示したが、小型モデルと大型モデルの間のギャップは微調整後に狭まった。
Qwen3の推論モードは一般的に微調整よりも性能が低く、100倍以上遅かった。
本研究は,医療文書作成作業におけるLLMを改善するための指導データセットを構築するために,公開カタログを活用する可能性を明らかにするものである。
完全なトレーニングデータセットと、微調整されたモデルの最高のパフォーマンスチェックポイントは、https://huggingface.co/datasets/stefan-m-lenz/ICDOPS-QA-2024から入手できる。
関連論文リスト
- Can Reasoning LLMs Enhance Clinical Document Classification? [7.026393789313748]
大規模言語モデル(LLM)は、このタスクの正確性と効率性において有望な改善を提供する。
本研究では,8つのLDMの性能と一貫性を評価する。4つの推論(Qwen QWQ, Deepseek Reasoner, GPT o3 Mini, Gemini 2.0 Flash Thinking)と4つの非推論(Llama 3.3, GPT 4o Mini, Gemini 2.0 Flash, Deepseek Chat)。
その結果、推論モデルは精度71%(68%)とF1スコア(67%(60%))で非推論モデルを上回った。
論文 参考訳(メタデータ) (2025-04-10T18:00:27Z) - Brain Tumor Classification on MRI in Light of Molecular Markers [56.99710477905796]
1p/19q遺伝子の同時欠失は、低グレードグリオーマの臨床成績と関連している。
本研究の目的は,MRIを用いた畳み込みニューラルネットワークを脳がん検出に活用することである。
論文 参考訳(メタデータ) (2024-09-29T07:04:26Z) - Step-DPO: Step-wise Preference Optimization for Long-chain Reasoning of LLMs [54.05511925104712]
本稿では,Step-DPOと呼ばれるシンプルで効果的でデータ効率のよい手法を提案する。
Step-DPOは、個々の推論ステップを、論理的に回答を評価するのではなく、優先最適化の単位として扱う。
以上の結果から,70B パラメータ以上のモデルでは,10K の選好データペアと500 Step-DPO トレーニングステップ以下では,MATH の精度が約3%向上する可能性が示唆された。
論文 参考訳(メタデータ) (2024-06-26T17:43:06Z) - Beyond Accuracy: Automated De-Identification of Large Real-World
Clinical Text Datasets [7.6631083158336715]
本稿では,10億以上の臨床論文を識別するシステムの構築から学んだ教訓を要約する。
完全に自動化されたソリューションでは、手作業によるレビューを必要としない、非常に高いレベルの精度が必要です。
論文 参考訳(メタデータ) (2023-12-13T20:15:29Z) - An Evaluation of Machine Learning Approaches for Early Diagnosis of
Autism Spectrum Disorder [0.0]
自閉症スペクトラム障害(Autistic Spectrum disorder、ASD)は、社会的相互作用、コミュニケーション、反復活動の困難を特徴とする神経疾患である。
本研究は,診断プロセスの強化と自動化を目的として,多様な機械学習手法を用いて重要なASD特性を同定する。
論文 参考訳(メタデータ) (2023-09-20T21:23:37Z) - Exploiting prompt learning with pre-trained language models for
Alzheimer's Disease detection [70.86672569101536]
アルツハイマー病(AD)の早期診断は予防ケアの促進とさらなる進行の遅らせに不可欠である。
本稿では,AD分類誤差をトレーニング対象関数として一貫して用いたPLMの高速微調整法について検討する。
論文 参考訳(メタデータ) (2022-10-29T09:18:41Z) - Multi-label natural language processing to identify diagnosis and
procedure codes from MIMIC-III inpatient notes [0.0]
米国では、医療用コードや請求書を含む管理費として、病院支出の25%以上を計上している。
自然言語処理は、構造化されていない臨床ノートからコードやラベルの抽出を自動化することができる。
我々のモデルは、87.08%、F1スコア85.82%、AUC91.76%をトップ10コードで達成した。
論文 参考訳(メタデータ) (2020-03-17T02:56:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。