論文の概要: Toward Reliable Clinical Coding with Language Models: Verification and Lightweight Adaptation
- arxiv url: http://arxiv.org/abs/2510.07629v1
- Date: Wed, 08 Oct 2025 23:50:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:14.78266
- Title: Toward Reliable Clinical Coding with Language Models: Verification and Lightweight Adaptation
- Title(参考訳): 言語モデルを用いた信頼性の高い臨床コーディングに向けて:検証と軽量適応
- Authors: Zhangdie Yuan, Han-Chin Shing, Mitch Strong, Chaitanya Shivade,
- Abstract要約: 本稿では,高速エンジニアリングや小型微調整を含む軽量な介入により,探索手法の計算オーバーヘッドを伴わずに精度を向上できることを示す。
階層的なニアミスエラーに対処するために,単体タスクとパイプラインコンポーネントの両方に臨床コード検証を導入する。
- 参考スコア(独自算出の注目度): 3.952186976672079
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate clinical coding is essential for healthcare documentation, billing, and decision-making. While prior work shows that off-the-shelf LLMs struggle with this task, evaluations based on exact match metrics often overlook errors where predicted codes are hierarchically close but incorrect. Our analysis reveals that such hierarchical misalignments account for a substantial portion of LLM failures. We show that lightweight interventions, including prompt engineering and small-scale fine-tuning, can improve accuracy without the computational overhead of search-based methods. To address hierarchically near-miss errors, we introduce clinical code verification as both a standalone task and a pipeline component. To mitigate the limitations in existing datasets, such as incomplete evidence and inpatient bias in MIMIC, we release an expert double-annotated benchmark of outpatient clinical notes with ICD-10 codes. Our results highlight verification as an effective and reliable step toward improving LLM-based medical coding.
- Abstract(参考訳): 正確な臨床コーディングは、医療文書、請求書、意思決定に不可欠である。
以前の研究は、既製のLLMがこのタスクに苦労していることを示しているが、正確なマッチングメトリクスに基づく評価は、予測されたコードが階層的に近いが正しくないエラーを見落としていることが多い。
これらの階層的不整合がLLM障害のかなりの部分を占めることが明らかとなった。
本稿では,高速エンジニアリングや小型微調整を含む軽量な介入により,探索手法の計算オーバーヘッドを伴わずに精度を向上できることを示す。
階層的なニアミスエラーに対処するために,単体タスクとパイプラインコンポーネントの両方に臨床コード検証を導入する。
不完全な証拠やMIMICの患者バイアスなどの既存のデータセットの制限を軽減するため、ICD-10コードによる外来臨床ノートの2つの注釈付きベンチマークを作成した。
以上の結果から,LSMに基づく医用符号化の改善に向けた有効かつ信頼性の高いステップとして,検証が注目されている。
関連論文リスト
- From Scores to Steps: Diagnosing and Improving LLM Performance in Evidence-Based Medical Calculations [45.414878840652115]
大規模言語モデル(LLM)は医療ベンチマークで有望な性能を示した。
しかし、医学的な計算を行う能力は未熟であり、評価も不十分である。
本研究は,臨床信頼性を重視した医療計算評価を再考する。
論文 参考訳(メタデータ) (2025-09-20T09:10:26Z) - Not What the Doctor Ordered: Surveying LLM-based De-identification and Quantifying Clinical Information Loss [1.514900191663287]
医療環境の非識別化は、NLPの応用であり、自動化されたアルゴリズムを使用して患者の個人識別情報(時には提供者)を除去する。
近年, 生成型大規模言語モデル (LLM) の台頭に伴い, LLM を非識別に応用する論文が増えてきている。
本報告では, 従来の分類基準が誤りを捉える上で不十分であったこと, それらの誤りを定量化するための自動指標の検証が手作業で行われていないこと, など, 現状の文献における3つの重要な限界について述べる。
論文 参考訳(メタデータ) (2025-09-17T22:37:15Z) - CRG Score: A Distribution-Aware Clinical Metric for Radiology Report Generation [6.930435788495898]
CRGスコア(CRG Score, CRGスコア, CRGスコア, CRGスコア, CRGスコア, CRGスコア, CRGスコア, CRGスコア, CRGスコア, CRGスコア, CRGスコア, CRGスコア, CRGスコア, CRGスコア, CRGスコア, CRGスコア, CRGスコア)
ラベル分布に基づく罰則のバランスをとることにより、より公平で堅牢な評価を可能にし、臨床に整合した報酬機能として機能する。
論文 参考訳(メタデータ) (2025-05-22T17:02:28Z) - Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。
本稿では,構造化医療推論を利用した新しいアプローチを提案する。
我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文 参考訳(メタデータ) (2025-03-05T05:24:55Z) - WangLab at MEDIQA-CORR 2024: Optimized LLM-based Programs for Medical Error Detection and Correction [5.7931394318054155]
3つのサブタスクすべてでトップパフォーマンスを達成したアプローチを提示する。
微妙な誤りを含むMSデータセットに対して,検索に基づくシステムを開発した。
UWデータセットでは、より現実的な臨床ノートを反映して、エラーを検出し、ローカライズし、修正するためのモジュールのパイプラインを作成しました。
論文 参考訳(メタデータ) (2024-04-22T19:31:45Z) - Surpassing GPT-4 Medical Coding with a Two-Stage Approach [1.7014913888753238]
GPT-4 LLMは、医療コーディングタスクのICD符号の過剰な数を予測する。
LLM-codexは,まずエビデンス提案を発生させ,LSTMに基づく検証段階を用いる2段階のICD符号予測手法である。
我々のモデルは、医学的コーディングの精度、稀な符号の精度、文章レベルの証拠の特定を同時に達成する唯一の方法である。
論文 参考訳(メタデータ) (2023-11-22T23:35:13Z) - Self-Verification Improves Few-Shot Clinical Information Extraction [73.6905567014859]
大規模言語モデル (LLMs) は、数発のテキスト内学習を通じて臨床キュレーションを加速する可能性を示している。
正確性や解釈可能性に関する問題、特に健康のようなミッションクリティカルな領域ではまだ苦戦している。
本稿では,自己検証を用いた汎用的な緩和フレームワークについて検討する。このフレームワークはLLMを利用して,自己抽出のための証明を提供し,その出力をチェックする。
論文 参考訳(メタデータ) (2023-05-30T22:05:11Z) - Rapid Adaptation in Online Continual Learning: Are We Evaluating It
Right? [135.71855998537347]
オンライン連続学習(OCL)アルゴリズムの適応性を評価するための一般的な手法を,オンライン精度の指標を用いて再検討する。
空白のブラインド分類器でさえ、非現実的に高いオンライン精度を達成できるため、この指標は信頼できない。
既存のOCLアルゴリズムは、オンラインの精度も高いが、有用な情報の保持は不十分である。
論文 参考訳(メタデータ) (2023-05-16T08:29:33Z) - Automated Medical Coding on MIMIC-III and MIMIC-IV: A Critical Review
and Replicability Study [60.56194508762205]
我々は、最先端の医療自動化機械学習モデルを再現し、比較し、分析する。
その結果, 弱い構成, サンプル化の不十分さ, 評価の不十分さなどにより, いくつかのモデルの性能が低下していることが判明した。
再生モデルを用いたMIMIC-IVデータセットの総合評価を行った。
論文 参考訳(メタデータ) (2023-04-21T11:54:44Z) - Detecting Shortcut Learning for Fair Medical AI using Shortcut Testing [62.9062883851246]
機械学習は医療の改善に大いに貢献するが、その利用が健康格差を広めたり増幅したりしないことを確実にすることは重要である。
アルゴリズムの不公平性の潜在的な要因の1つ、ショートカット学習は、トレーニングデータにおける不適切な相関に基づいてMLモデルが予測した時に発生する。
マルチタスク学習を用いて,臨床MLシステムの公平性評価の一環として,ショートカット学習の評価と緩和を行う手法を提案する。
論文 参考訳(メタデータ) (2022-07-21T09:35:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。