論文の概要: Regularizing Log-Linear Cost Models for Inpatient Stays by Merging ICD-10 Codes
- arxiv url: http://arxiv.org/abs/2507.03843v1
- Date: Sat, 05 Jul 2025 00:07:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.898697
- Title: Regularizing Log-Linear Cost Models for Inpatient Stays by Merging ICD-10 Codes
- Title(参考訳): ICD-10符号の併用による入院患者の対数線費用の正規化
- Authors: Chi-Ken Lu, David Alonge, Nicole Richardson, Bruno Richard,
- Abstract要約: ICD-10符号の粒度の削減はOLSにおける効果的な正規化戦略であることを示す。
モデルの解釈可能性と一貫性を維持しながら回帰問題の次元性を低下させる。
DRG や HCC などのより広範な診断グループ化が,現実世界のリスク調整やコストモデルにおいて,高粒度の ICD-10 コードよりも好まれる理由を考察した。
- 参考スコア(独自算出の注目度): 0.16874375111244327
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cost models in healthcare research must balance interpretability, accuracy, and parameter consistency. However, interpretable models often struggle to achieve both accuracy and consistency. Ordinary least squares (OLS) models for high-dimensional regression can be accurate but fail to produce stable regression coefficients over time when using highly granular ICD-10 diagnostic codes as predictors. This instability arises because many ICD-10 codes are infrequent in healthcare datasets. While regularization methods such as Ridge can address this issue, they risk discarding important predictors. Here, we demonstrate that reducing the granularity of ICD-10 codes is an effective regularization strategy within OLS while preserving the representation of all diagnostic code categories. By truncating ICD-10 codes from seven characters (e.g., T67.0XXA, T67.0XXD) to six (e.g., T67.0XX) or fewer, we reduce the dimensionality of the regression problem while maintaining model interpretability and consistency. Mathematically, the merging of predictors in OLS leads to increased trace of the Hessian matrix, which reduces the variance of coefficient estimation. Our findings explain why broader diagnostic groupings like DRGs and HCC codes are favored over highly granular ICD-10 codes in real-world risk adjustment and cost models.
- Abstract(参考訳): 医療研究におけるコストモデルは、解釈可能性、正確性、パラメータ一貫性のバランスをとる必要がある。
しかし、解釈可能なモデルは精度と一貫性の両方を達成するのに苦労することが多い。
高次元回帰のための通常最小二乗モデル(OLS)は正確であるが、高粒度のICD-10診断符号を予測器として使用すると、時間とともに安定な回帰係数が得られない。
この不安定性は、多くのICD-10コードが医療データセットで頻繁に発生するためである。
リッジのような正規化手法はこの問題に対処できるが、重要な予測器を捨てるリスクがある。
ここでは、ICD-10コードの粒度を小さくすることは、全ての診断コードカテゴリの表現を保ちながら、OLS内の効果的な正規化戦略であることを示す。
ICD-10符号を7文字(例: T67.0XXA, T67.0XXD)から6文字(例: T67.0XXD)以下に切り換えることで、モデルの解釈可能性と一貫性を維持しながら回帰問題の次元を小さくする。
数学的には、OLSにおける予測子の融合は、ヘッセン行列のトレースを増大させ、係数推定のばらつきを減少させる。
DRG や HCC などのより広範な診断グループ化が,現実世界のリスク調整やコストモデルにおいて,高粒度の ICD-10 コードよりも好まれる理由を考察した。
関連論文リスト
- Parameterized Diffusion Optimization enabled Autoregressive Ordinal Regression for Diabetic Retinopathy Grading [53.11883409422728]
本研究は, AOR-DRと呼ばれる新しい自己回帰的順序回帰法を提案する。
我々は,糖尿病網膜症分類タスクを,前ステップの予測と抽出画像の特徴を融合させることにより,一連の順序段階に分解する。
拡散過程を利用して条件付き確率モデリングを行い、連続的グローバルな画像特徴を自己回帰に利用できるようにする。
論文 参考訳(メタデータ) (2025-07-07T13:22:35Z) - Evaluating Hierarchical Clinical Document Classification Using Reasoning-Based LLMs [7.026393789313748]
本研究は,大規模言語モデル(LLM)が病院退院サマリーからICD-10コードをどのように分類できるかを評価する。
推論ベースのモデルは一般的に非推論モデルよりも優れており、ジェミニ2.5 Proは全体として最高のパフォーマンスを示した。
論文 参考訳(メタデータ) (2025-07-02T00:53:54Z) - Advancing Tabular Stroke Modelling Through a Novel Hybrid Architecture and Feature-Selection Synergy [0.9999629695552196]
本研究は、ストロークを予測するように設計されたデータ駆動型、解釈可能な機械学習フレームワークを開発し、検証する。
定期的に収集された人口統計、生活習慣、臨床変数は4,981件の公的なコホートから得られた。
提案したモデルでは精度97.2%、F1スコア97.15%が達成され、先行する個人モデルと比較して大幅に向上した。
論文 参考訳(メタデータ) (2025-05-18T21:46:45Z) - Training-free Ultra Small Model for Universal Sparse Reconstruction in Compressed Sensing [39.36305648162564]
本稿では,係数学習(CL)と呼ばれる超小型人工ニューラルモデルを提案する。
CLは、従来の反復的手法の一般性と解釈性を継承しつつ、トレーニング不要で迅速なスパース再構築を可能にする。
代表的反復法と比較して、CLOMPは大規模データの効率を100から1000倍に改善する。
論文 参考訳(メタデータ) (2025-01-20T16:50:59Z) - Continuous time recurrent neural networks: overview and application to
forecasting blood glucose in the intensive care unit [56.801856519460465]
連続時間自己回帰リカレントニューラルネットワーク(Continuous Time Autoregressive Recurrent Neural Network, CTRNN)は、不規則な観測を考慮に入れたディープラーニングモデルである。
重篤なケア環境下での血糖値の確率予測へのこれらのモデルの適用を実証する。
論文 参考訳(メタデータ) (2023-04-14T09:39:06Z) - Synthesize High-dimensional Longitudinal Electronic Health Records via
Hierarchical Autoregressive Language Model [40.473866438962034]
合成電子健康記録は、機械学習(ML)モデリングと統計解析のための実際のEHRの代替として機能することができる。
階層型自己回帰言語mOdel(HALO)を提案する。
論文 参考訳(メタデータ) (2023-04-04T23:53:34Z) - SANSformers: Self-Supervised Forecasting in Electronic Health Records
with Attention-Free Models [48.07469930813923]
本研究は,医療施設への患者訪問数を予測することにより,医療サービスの需要を予測することを目的とする。
SNSformerは、特定の帰納バイアスを設計し、EHRデータの特異な特徴を考慮に入れた、注意のない逐次モデルである。
本研究は, 各種患者集団を対象とした医療利用予測の修正における, 注意力のないモデルと自己指導型事前訓練の有望な可能性について考察した。
論文 参考訳(メタデータ) (2021-08-31T08:23:56Z) - Collaborative residual learners for automatic icd10 prediction using
prescribed medications [45.82374977939355]
本稿では,処方用データのみを用いたicd10符号の自動予測のための協調残差学習モデルを提案する。
平均精度0.71および0.57のマルチラベル分類精度、F1スコア0.57および0.38の0.73および0.44の精度を取得し、患者および外来データセットの主診断をそれぞれ予測します。
論文 参考訳(メタデータ) (2020-12-16T07:07:27Z) - Ensemble model for pre-discharge icd10 coding prediction [45.82374977939355]
正確なコード予測のための複数の臨床データソースを組み込んだアンサンブルモデルを提案する。
平均精度は0.73および0.58、F1スコアは0.56および0.35、患者および外来データセットの主診断予測では0.71および0.4のマルチラベル分類精度を得る。
論文 参考訳(メタデータ) (2020-12-16T07:02:56Z) - A Systematic Approach to Featurization for Cancer Drug Sensitivity
Predictions with Deep Learning [49.86828302591469]
35,000以上のニューラルネットワークモデルをトレーニングし、一般的な成果化技術を駆使しています。
RNA-seqは128以上のサブセットであっても非常に冗長で情報的であることがわかった。
論文 参考訳(メタデータ) (2020-04-30T20:42:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。