論文の概要: Model selection meets clinical semantics: Optimizing ICD-10-CM prediction via LLM-as-Judge evaluation, redundancy-aware sampling, and section-aware fine-tuning
- arxiv url: http://arxiv.org/abs/2509.18846v1
- Date: Tue, 23 Sep 2025 09:35:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.800722
- Title: Model selection meets clinical semantics: Optimizing ICD-10-CM prediction via LLM-as-Judge evaluation, redundancy-aware sampling, and section-aware fine-tuning
- Title(参考訳): モデル選択は臨床的意味に合致する:LCM-as-Judge評価によるICD-10-CM予測の最適化、冗長性を考慮したサンプリング、セクション認識微調整
- Authors: Hong-Jie Dai, Zheng-Hao Li, An-Tai Lu, Bo-Tsz Shain, Ming-Ta Li, Tatheer Hussain Mir, Kuang-Te Wang, Min-I Su, Pei-Kang Liu, Ming-Ju Tsai,
- Abstract要約: ICD-10(ICD-10-CM)コード予測のためのモジュラーフレームワークを提案する。
モデル選択の原則、冗長性を認識したデータサンプリング、構造化された入力設計による課題に対処する。
提案するフレームワークは、自動化された医療コーディングシステムの現実的な展開に対して、スケーラブルで機関対応のソリューションを提供する。
- 参考スコア(独自算出の注目度): 1.208527102371119
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate International Classification of Diseases (ICD) coding is critical for clinical documentation, billing, and healthcare analytics, yet it remains a labour-intensive and error-prone task. Although large language models (LLMs) show promise in automating ICD coding, their challenges in base model selection, input contextualization, and training data redundancy limit their effectiveness. We propose a modular framework for ICD-10 Clinical Modification (ICD-10-CM) code prediction that addresses these challenges through principled model selection, redundancy-aware data sampling, and structured input design. The framework integrates an LLM-as-judge evaluation protocol with Plackett-Luce aggregation to assess and rank open-source LLMs based on their intrinsic comprehension of ICD-10-CM code definitions. We introduced embedding-based similarity measures, a redundancy-aware sampling strategy to remove semantically duplicated discharge summaries. We leverage structured discharge summaries from Taiwanese hospitals to evaluate contextual effects and examine section-wise content inclusion under universal and section-specific modelling paradigms. Experiments across two institutional datasets demonstrate that the selected base model after fine-tuning consistently outperforms baseline LLMs in internal and external evaluations. Incorporating more clinical sections consistently improves prediction performance. This study uses open-source LLMs to establish a practical and principled approach to ICD-10-CM code prediction. The proposed framework provides a scalable, institution-ready solution for real-world deployment of automated medical coding systems by combining informed model selection, efficient data refinement, and context-aware prompting.
- Abstract(参考訳): 正確な国際疾患分類 (ICD) のコーディングは、臨床文書、請求書、医療分析において重要であるが、労働集約的でエラーを起こしやすい課題である。
大規模言語モデル(LLM)は、ICD符号化の自動化を約束するが、ベースモデル選択、入力コンテキスト化、トレーニングデータ冗長性における彼らの課題は、その有効性を制限している。
本稿では,ICD-10 臨床修正 (ICD-10-CM) コード予測のためのモジュラーフレームワークを提案し,これらの課題をモデル選択,冗長性を考慮したデータサンプリング,構造化された入力設計を通じて解決する。
このフレームワークは、LCM-as-judge評価プロトコルとPlockett-Luceアグリゲーションを統合し、ICD-10-CMコード定義の固有の理解に基づいてオープンソースのLCMを評価し、ランク付けする。
我々は,意味的に重複した放電要約を除去する冗長性を考慮したサンプリング戦略である埋め込み型類似度尺度を導入した。
台湾の病院における構造的退院サマリーを利用して、コンテキスト効果を評価し、普遍的・分節的モデリングパラダイムに基づく分節的コンテンツ包摂性を検討する。
2つの機関データセットに対する実験により、微調整後の選択されたベースモデルは、内部および外部評価において、ベースラインLLMよりも一貫して優れていることが示された。
よりクリニカルなセクションを組み込むことは、予測性能を継続的に改善する。
本研究は、オープンソースのLCMを用いて、ICD-10-CMコード予測の実践的で原則化されたアプローチを確立する。
提案するフレームワークは,情報付きモデル選択,効率的なデータリファインメント,コンテキスト認識プロンプトを組み合わせることで,自動化された医療コーディングシステムの現実的な展開に対して,スケーラブルで機関対応のソリューションを提供する。
関連論文リスト
- Discrete Tokenization for Multimodal LLMs: A Comprehensive Survey [69.45421620616486]
本研究は、大規模言語モデル(LLM)用に設計された離散トークン化手法の最初の構造的分類と解析である。
古典的および近代的なパラダイムにまたがる8つの代表的なVQ変種を分類し、アルゴリズムの原理を分析し、力学を訓練し、LLMパイプラインとの統合に挑戦する。
コードブックの崩壊、不安定な勾配推定、モダリティ固有の符号化制約など、重要な課題を特定する。
論文 参考訳(メタデータ) (2025-07-21T10:52:14Z) - Federated Learning for ICD Classification with Lightweight Models and Pretrained Embeddings [0.9668407688201359]
本研究では,多ラベルICD符号分類におけるフェデレート学習の有効性と性能について検討した。
本稿では, シンプルな多層パーセプトロン(MLP)分類器と凍結したテキスト埋め込みを組み合わせたスケーラブルなパイプラインを提案する。
論文 参考訳(メタデータ) (2025-07-03T18:58:36Z) - Evaluating Hierarchical Clinical Document Classification Using Reasoning-Based LLMs [7.026393789313748]
本研究は,大規模言語モデル(LLM)が病院退院サマリーからICD-10コードをどのように分類できるかを評価する。
推論ベースのモデルは一般的に非推論モデルよりも優れており、ジェミニ2.5 Proは全体として最高のパフォーマンスを示した。
論文 参考訳(メタデータ) (2025-07-02T00:53:54Z) - RedactOR: An LLM-Powered Framework for Automatic Clinical Data De-Identification [10.378433440829712]
構造化および非構造化の電子健康記録を識別するための完全に自動化されたフレームワークであるRedactorを提案する。
当社のフレームワークでは,インテリジェントルーティングやハイブリッドルール,LLMベースのアプローチなど,コスト効率の高いDe-ID戦略を採用している。
本稿では,保護されたエンティティの一貫した置換を保証するために,検索に基づくエンティティリラクシゼーション手法を提案する。
論文 参考訳(メタデータ) (2025-05-23T21:13:18Z) - Collab: Controlled Decoding using Mixture of Agents for LLM Alignment [90.6117569025754]
人間のフィードバックからの強化学習は、大規模言語モデルを整合させる効果的な手法として現れてきた。
制御された復号化は、再訓練せずに推論時にモデルを整列するメカニズムを提供する。
本稿では,既存の既成のLCMポリシを活用するエージェントベースのデコーディング戦略の混合を提案する。
論文 参考訳(メタデータ) (2025-03-27T17:34:25Z) - Medchain: Bridging the Gap Between LLM Agents and Clinical Practice through Interactive Sequential Benchmarking [58.25862290294702]
臨床ワークフローの5つの重要な段階をカバーする12,163の臨床症例のデータセットであるMedChainを提示する。
フィードバック機構とMCase-RAGモジュールを統合したAIシステムであるMedChain-Agentも提案する。
論文 参考訳(メタデータ) (2024-12-02T15:25:02Z) - Exploring LLM Multi-Agents for ICD Coding [15.730751450511333]
ICD符号化のためのマルチエージェント方式は実世界の符号化プロセスを効果的に模倣し、一般的な符号と稀な符号の両方の性能を向上させる。
提案手法は, 事前学習や微調整を必要とする最先端のICD符号化手法に匹敵する結果を得るとともに, 稀なコード精度, 説明可能性で性能を向上する。
論文 参考訳(メタデータ) (2024-04-01T15:17:39Z) - CoRelation: Boosting Automatic ICD Coding Through Contextualized Code
Relation Learning [56.782963838838036]
我々は,ICDコード表現の学習を促進するために,文脈的かつ柔軟なフレームワークである新しい手法を提案する。
提案手法では,可能なすべてのコード関係をモデル化する際の臨床ノートのコンテキストを考慮した,依存型学習パラダイムを採用している。
論文 参考訳(メタデータ) (2024-02-24T03:25:28Z) - From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning [52.257422715393574]
本稿では,Large Language Models (LLMs) の自己誘導手法を導入し,オープンソースデータセットからサクラサンプルを自動識別し,選択する。
我々の重要な革新である命令追従困難度(IFD)メトリックは、モデルが期待する応答と本質的な生成能力の相違を識別するための重要な指標として現れます。
論文 参考訳(メタデータ) (2023-08-23T09:45:29Z) - A Meta-embedding-based Ensemble Approach for ICD Coding Prediction [64.42386426730695]
国際疾病分類 (icd) は、世界中で臨床コーディングに使われているデファクトコードである。
これらのコードにより、医療提供者は償還を請求し、診断情報の効率的な保管と検索を容易にします。
提案手法は,日常的な医学データと科学論文の外部知識を用いて,効果的に単語ベクトルを訓練することにより,神経モデルの性能を高める。
論文 参考訳(メタデータ) (2021-02-26T17:49:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。