論文の概要: Probability-Biased Attention over Directed Bipartite Graphs for Long-Tail ICD Coding
- arxiv url: http://arxiv.org/abs/2511.09559v1
- Date: Fri, 31 Oct 2025 04:47:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-16 06:38:31.07216
- Title: Probability-Biased Attention over Directed Bipartite Graphs for Long-Tail ICD Coding
- Title(参考訳): 長距離ICD符号化のための直進二部グラフ上の確率バイアスアテンション
- Authors: Tianlei Chen, Yuxiao Chen, Yang Li, Feifei Wang,
- Abstract要約: コード間の微粒な共起関係をモデル化する学習手法を提案する。
提案手法は,Macro-F1において特に顕著な改良を施した最先端性能を実現する。
- 参考スコア(独自算出の注目度): 12.66839524860715
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Automated International Classification of Diseases (ICD) coding aims to assign multiple disease codes to clinical documents, constituting a crucial multi-label text classification task in healthcare informatics. However, the task is challenging due to its large label space (10,000 to 20,000 codes) and long-tail distribution, where a few codes dominate while many rare codes lack sufficient training data. To address this, we propose a learning method that models fine-grained co-occurrence relationships among codes. Specifically, we construct a Directed Bipartite Graph Encoder with disjoint sets of common and rare code nodes. To facilitate a one-way information flow, edges are directed exclusively from common to rare codes. The nature of these connections is defined by a probability-based bias, which is derived from the conditional probability of a common code co-occurring given the presence of a rare code. This bias is then injected into the encoder's attention module, a process we term Co-occurrence Encoding. This structure empowers the graph encoder to enrich rare code representations by aggregating latent comorbidity information reflected in the statistical co-occurrence of their common counterparts. To ensure high-quality input to the graph, we utilize a large language model (LLM) to generate comprehensive descriptions for codes, enriching initial embeddings with clinical context and comorbidity information, serving as external knowledge for the statistical co-occurrence relationships in the code system. Experiments on three automated ICD coding benchmark datasets demonstrate that our method achieves state-of-the-art performance with particularly notable improvements in Macro-F1, which is the key metric for long-tail classification.
- Abstract(参考訳): ICD(Automated International Classification of Diseases)コーディングは、医療情報学において重要なマルチラベルテキスト分類タスクを構成する、複数の疾患コードを臨床文書に割り当てることを目的としている。
しかし、その大きなラベル空間(10,000から20,000のコード)と、少数のコードが支配的であり、多くの稀なコードでは十分なトレーニングデータが不足しているため、このタスクは困難である。
そこで本研究では,コード間の微粒な共起関係をモデル化する学習手法を提案する。
具体的には、共通および稀なコードノードの解離した集合を持つディレクテッドバイパートグラフエンコーダを構築する。
ワンウェイ情報フローを容易にするため、エッジは共通コードからレアコードに限られる。
これらの接続の性質は確率に基づくバイアスによって定義され、これは希少な符号の存在によって共起する共通符号の条件付き確率から導かれる。
このバイアスはエンコーダのアテンションモジュールに注入されます。
この構造により、グラフエンコーダは、それらの共通の共起の統計的共起に反映される潜在的共生情報を集約することにより、希少なコード表現を豊かにする。
グラフへの高品質な入力を保証するため,我々は,大規模言語モデル(LLM)を用いてコードの包括的記述を生成し,臨床コンテキストと相性情報による初期埋め込みを強化し,コードシステムにおける統計的共起関係の外部知識として機能する。
3つの自動ICD符号化ベンチマークデータセットを用いた実験により,本手法は長テール分類の重要な指標であるマクロF1を特に改良し,最先端の性能を達成できることが示されている。
関連論文リスト
- TraceCoder: Towards Traceable ICD Coding via Multi-Source Knowledge Integration [12.474362087939456]
我々は、CD符号化におけるトレーサビリティと説明可能性を高めるために、マルチソース外部知識を統合するフレームワークであるTraceCoderを提案する。
TraceCoderはUMLS、ウィキペディア、大型言語モデル(LLM)など様々な知識ソースを動的に組み込んで、コード表現の充実、セマンティックギャップの橋渡し、希少かつ曖昧なコードを扱う。
また、ラベル、臨床コンテキスト、知識間の相互作用をモデル化するハイブリッドアテンション機構を導入し、ロングテールコード認識を改善し、それらを外部証拠に根拠付けることによって解釈する。
論文 参考訳(メタデータ) (2025-10-17T03:08:07Z) - Is Compression Really Linear with Code Intelligence? [60.123628177110206]
textitFormat Annealingは、事前訓練されたモデルの本質的な能力を同等に評価するために設計された、軽量で透明なトレーニング手法である。
我々の経験的結果は、測定されたコードインテリジェンスとビット・パー・キャラクタ(BPC)の基本的な対数関係を明らかにする。
私たちの研究は、コードインテリジェンスの開発における圧縮の役割をより微妙に理解し、コードドメインにおける堅牢な評価フレームワークに貢献します。
論文 参考訳(メタデータ) (2025-05-16T16:59:14Z) - A Two-Stage Decoder for Efficient ICD Coding [10.634394331433322]
ICD符号の予測のための2段階復号機構を提案する。
まず、まず親コードを予測し、その子コードを前回の予測に基づいて予測する。
公開MIMIC-IIIデータセット実験により,本モデルが単一モデル設定で良好に動作することを示す。
論文 参考訳(メタデータ) (2023-05-27T17:25:13Z) - HieNet: Bidirectional Hierarchy Framework for Automated ICD Coding [2.9373912230684573]
International Classification of Diseases (ICD) は、医学記録の分類コードである。
本研究では,その課題に対処する新しい双方向階層フレームワーク(HieNet)を提案する。
具体的には、コードのコリレーションをキャプチャするパーソナライズされたPageRankルーチンと、コードの階層的表現をキャプチャする双方向階層パスエンコーダと、予測のセマンティック検索空間を狭めるプログレッシブ予測手法を提案する。
論文 参考訳(メタデータ) (2022-12-09T14:51:12Z) - Few-Shot Electronic Health Record Coding through Graph Contrastive
Learning [64.8138823920883]
我々は,グラフベースのEHRコーディングフレームワークであるCoGraphを用いて,頻繁かつ希少なICD符号の性能向上を図る。
CoGraphは、異なるICDコードからHEWEグラフ間の類似点と相似点を学習し、それら間で情報を転送する。
2つのグラフコントラスト学習スキームであるGSCLとGECLは、HEWEグラフ構造を利用して、転送可能な特徴を符号化する。
論文 参考訳(メタデータ) (2021-06-29T14:53:17Z) - TransICD: Transformer Based Code-wise Attention Model for Explainable
ICD Coding [5.273190477622007]
国際疾患分類法 (ICD) は, 医療分野の請求システムにおいて有効かつ重要であることが示されている。
現在、ICDコードは手動で臨床メモに割り当てられており、多くのエラーを引き起こす可能性がある。
本稿では,文書のトークン間の相互依存を捉えるためにトランスフォーマーベースのアーキテクチャを適用し,コードワイド・アテンション・メカニズムを用いて文書全体のコード固有表現を学習する。
論文 参考訳(メタデータ) (2021-03-28T05:34:32Z) - A Label Attention Model for ICD Coding from Clinical Text [14.910833190248319]
自動ICD符号化のための新しいラベルアテンションモデルを提案する。
ICDコードに関連するテキストフラグメントの様々な長さと相互依存の両方を扱うことができる。
本モデルでは,3つのベンチマークMIMICデータセットに対して,最先端の新たな結果が得られる。
論文 参考訳(メタデータ) (2020-07-13T12:42:43Z) - Auto-Encoding Twin-Bottleneck Hashing [141.5378966676885]
本稿では,効率よく適応的なコード駆動グラフを提案する。
自動エンコーダのコンテキストでデコードすることで更新される。
ベンチマークデータセットの実験は、最先端のハッシュ手法よりもフレームワークの方が優れていることを明らかに示しています。
論文 参考訳(メタデータ) (2020-02-27T05:58:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。