論文の概要: Bridging the Version Gap: Multi-version Training Improves ICD Code Prediction, Especially for Rare Codes
- arxiv url: http://arxiv.org/abs/2605.17755v1
- Date: Mon, 18 May 2026 02:19:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:48.592374
- Title: Bridging the Version Gap: Multi-version Training Improves ICD Code Prediction, Especially for Rare Codes
- Title(参考訳): バージョンギャップのブリッジ: マルチバージョントレーニングによるICDコード予測の改善,特にレアコード
- Authors: Jinghui Liu, Anthony Nguyen,
- Abstract要約: ICD版に注釈付きデータを組み合わせることで、バージョンに依存しないモデルをトレーニングできるかどうかを検討する。
ICD-10予測のための修正ラベル対応アテンションモデルのトレーニングにICD-9データを追加し、バージョンミスマッチにもかかわらず、ICD-9は18KのレアICD符号に対して27%のマイクロF1増加をもたらすことを発見した。
- 参考スコア(独自算出の注目度): 0.028573858481708746
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Clinical coding maps clinical documentation to standardized medical codes, an essential yet time-consuming administrative task that could benefit from automation. Current models on ICD coding are typically optimized for codes from a specific ICD version. However, in reality, ICD systems evolve continuously, and different versions are adopted across time periods and regions. Moreover, ICD coding suffers from the long-tail problem, and rare code performance can be a bottleneck for developing implementable models. We examine whether it is viable to train version-independent models by combining data annotated in different ICD versions, which may help address these challenges. We add ICD-9 data to the training of a modified label-wise attention model for ICD-10 prediction, and find that despite the version mismatch, adding ICD-9 yields a 27% increase in micro F1 for 18K rare ICD codes compared to training on ICD-10 alone. On 8K frequent ICD-10 codes, the multi-version training also substantially improves macro metrics, with far fewer model parameters.
- Abstract(参考訳): 臨床コーディングは、臨床ドキュメントを標準化された医療コードにマッピングする。
現在のICD符号化モデルは、通常、特定のICDバージョンのコードに最適化されている。
しかし、実際にはICDシステムは継続的に進化し、時代や地域によって異なるバージョンが採用されている。
さらに、ICDコーディングは長い問題に悩まされており、実装可能なモデルを開発する上では、希少なコードパフォーマンスがボトルネックとなる可能性がある。
異なるICDバージョンにアノテートされたデータを組み合わせることで、バージョンに依存しないモデルをトレーニングできるかどうかを検討する。
ICD-9は,ICD-10予測に改良されたラベル対応アテンションモデルのトレーニングに付加され,バージョンミスマッチにもかかわらず,ICD-9は18KのレアICD符号に対して27%増加し,ICD-10単独のトレーニングに比べてマイクロF1が増加した。
8Kの頻繁なICD-10符号では、マルチバージョントレーニングはマクロメトリクスを大幅に改善し、モデルパラメータははるかに少ない。
関連論文リスト
- Synthetic Clinical Notes for Rare ICD Codes: A Data-Centric Framework for Long-Tail Medical Coding [26.840057002860235]
MIMIC-IIIのようなデータセットでは、数千のレアおよびゼロショットのICD符号が著しく不足している。
我々は7,902のICDコードをカバーする90,000の合成ノートを生成し、トレーニング分布を大幅に拡大した。
実験の結果,我々はマイクロF1を維持しながらマクロF1を緩やかに改善した。
論文 参考訳(メタデータ) (2025-11-18T03:52:12Z) - Consultant Decoding: Yet Another Synergistic Mechanism [49.996656694586164]
コンサルタント・デコーディング(CD)は、大きな言語モデルでのみ計算されるトークンレベルの確率を用いて、候補のドラフトを検証する。
CDは、目標モデルと比較して2.5倍の推論速度向上を実現し、同等の生成品質を維持している。
論文 参考訳(メタデータ) (2025-06-03T03:13:27Z) - CoRelation: Boosting Automatic ICD Coding Through Contextualized Code
Relation Learning [56.782963838838036]
我々は,ICDコード表現の学習を促進するために,文脈的かつ柔軟なフレームワークである新しい手法を提案する。
提案手法では,可能なすべてのコード関係をモデル化する際の臨床ノートのコンテキストを考慮した,依存型学習パラダイムを採用している。
論文 参考訳(メタデータ) (2024-02-24T03:25:28Z) - Automated clinical coding using off-the-shelf large language models [10.365958121087305]
診断用ICD符号を患者病院入院に割り当てる作業は、典型的には、熟練した人間のコーダーによって行われる。
自動ICD符号化への取り組みは、教師付きディープラーニングモデルによって支配されている。
本研究では,既製の事前学習型大規模言語モデルを活用し,実用的ソリューションを開発する。
論文 参考訳(メタデータ) (2023-10-10T11:56:48Z) - Training Data Protection with Compositional Diffusion Models [99.46239561159953]
比較拡散モデル(CDM)は、異なるデータソース上で異なる拡散モデル(またはプロンプト)を訓練する手法である。
個々のモデルは、独立した、異なるタイミングで、異なる分散とドメインでトレーニングすることができる。
各モデルには、トレーニング中に露出したデータのサブセットに関する情報のみが含まれており、いくつかの形式のトレーニングデータ保護を可能にする。
論文 参考訳(メタデータ) (2023-08-02T23:27:49Z) - Multi-label Few-shot ICD Coding as Autoregressive Generation with Prompt [7.554528566861559]
本研究では,このマルチラベル分類タスクを自己回帰生成タスクに変換する。
ICD符号の高次元空間を直接予測する代わりに、我々のモデルはテキスト記述の低次元を生成する。
MIMIC-III-few実験により,従来のMIMIC-III-full SOTAモデルよりも大幅に優れるマルコF130.2が得られた。
論文 参考訳(メタデータ) (2022-11-24T22:10:50Z) - Few-Shot Electronic Health Record Coding through Graph Contrastive
Learning [64.8138823920883]
我々は,グラフベースのEHRコーディングフレームワークであるCoGraphを用いて,頻繁かつ希少なICD符号の性能向上を図る。
CoGraphは、異なるICDコードからHEWEグラフ間の類似点と相似点を学習し、それら間で情報を転送する。
2つのグラフコントラスト学習スキームであるGSCLとGECLは、HEWEグラフ構造を利用して、転送可能な特徴を符号化する。
論文 参考訳(メタデータ) (2021-06-29T14:53:17Z) - From Extreme Multi-label to Multi-class: A Hierarchical Approach for
Automated ICD-10 Coding Using Phrase-level Attention [4.387302129801651]
臨床コーディングは、ICD(International Classification of Diseases)と呼ばれる一組のアルファ数値符号を、臨床物語で捉えた文脈に基づいて医療イベントに割り当てるタスクである。
本論文では, 階層的解を用いて, 極限多ラベル問題から単純多クラス問題へ再構成し, 自動ICD符号化のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2021-02-18T03:19:14Z) - Collaborative residual learners for automatic icd10 prediction using
prescribed medications [45.82374977939355]
本稿では,処方用データのみを用いたicd10符号の自動予測のための協調残差学習モデルを提案する。
平均精度0.71および0.57のマルチラベル分類精度、F1スコア0.57および0.38の0.73および0.44の精度を取得し、患者および外来データセットの主診断をそれぞれ予測します。
論文 参考訳(メタデータ) (2020-12-16T07:07:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。