論文の概要: Representation Before Training: A Fixed-Budget Benchmark for Generative Medical Event Models
- arxiv url: http://arxiv.org/abs/2604.16775v1
- Date: Sat, 18 Apr 2026 01:38:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.167659
- Title: Representation Before Training: A Fixed-Budget Benchmark for Generative Medical Event Models
- Title(参考訳): 研修前の表現:医療イベント生成モデルのための固定予算ベンチマーク
- Authors: Inhyeok Lee, Luke Solo, Michael C. Burkhart, Bashar Ramadan, William F. Parker, Brett K. Beaulieu-Jones,
- Abstract要約: 我々は,表現決定が1世紀前の事前学習予算の共有後の下流予測にどのように影響するかを評価する。
我々はMIMIC-IVで28個の整形トランスを訓練し,30個の臨床結果について評価した。
- 参考スコア(独自算出の注目度): 0.3250525349446657
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Every prediction from a generative medical event model is bounded by how clinical events are tokenized, yet input representation is rarely isolated from other system and architectural choices. We evaluate how representation decisions affect downstream prediction after a shared one-epoch pretraining budget. We train 28 matched transformers on MIMIC-IV and evaluate them on 30 clinical outcomes in three experiments: (1) quantization granularity, reference-range anchoring, and code-value fusion; (2) value encoding (hard bins, soft discretization, code-normalized xVal) crossed with temporal encoding (event order, time tokens, admission-relative RoPE); and (3) native MIMIC laboratory/vital codes versus the Common Longitudinal ICU Format (CLIF)-remapped laboratory/vital codes with compression-preserving perturbation arms. In Experiment 1, fused code-value tokenization improves mortality AUROC from 0.891 to 0.915 (BH-adjusted p < 0.001), hospital length-of-stay AUROC from 0.763 to 0.788 (BH-adjusted p < 0.001), and, for the decile fused-vs-unfused comparison, mean regression Spearman rho across the 13 regression outcomes from 0.414 to 0.494. Across the three temporal encodings, event order only and admission-relative RoPE match or exceed inserting time tokens on average while shortening sequences by 11%. CLIF remapping preserves downstream performance in our single-site setting while yielding a smaller, clinically interpretable token set compatible with multi-site use. Finer-than-decile quantization, reference-range anchoring, and soft discretization help in selective outcomes, while code-normalized xVal remains well below the discrete and soft families, consistent with near-median suppression that persists after the affine variant.
- Abstract(参考訳): 生成医療イベントモデルからの予測はすべて、臨床イベントがどのようにトークン化されるかによって境界づけられるが、入力表現は他のシステムやアーキテクチャから分離されることは滅多にない。
我々は,表現決定が1世紀前の事前学習予算の共有後の下流予測にどのように影響するかを評価する。
我々はMIMIC-IV上で28個の整合トランスフォーマーを訓練し,(1)量子化粒度,基準レンジアンカー,符号値融合,(2)値符号化(ハードビン,ソフト離散化,コード正規化xVal)と時間エンコーディング(イベントオーダ,タイムトークン,入力相対性RoPE),(3)ネイティブMICラボ/ビクタルコードとCLIF(Common Longitudinal ICU Format)リマップされた研究室/ビクタルコードとの3つの実験で30個の臨床結果について評価した。
実験1では、融合符号値のトークン化はAUROCの死亡率を0.891から0.915(BH調整p < 0.001)に改善し、病院長は0.763から0.788(BH調整p < 0.001)に改善し、十進フザードvs未利用比較では平均回帰スピアマンローを0.414から0.494まで改善した。
3つのテンポラリエンコーディング、イベント順序のみ、入場関連RoPEは平均時間トークンを上回り、シーケンスを11%短縮する。
CLIFリマッピングは、単一サイト設定で下流のパフォーマンスを保ちつつ、マルチサイト使用と互換性のあるより小さく、臨床的に解釈可能なトークンセットを提供する。
決定的な量子化、参照範囲のアンカー、ソフトな離散化は選択的な結果に寄与するが、符号正規化 xVal はアフィン変種後に持続する準中間的抑制と一致する。
関連論文リスト
- LLM-Extracted Covariates for Clinical Causal Inference: Rethinking Integration Strategies [7.5675661390024125]
電子的健康記録からの因果推論は、測定されていないコンバウンディングによって根本的に制限される。
我々は、潜伏した共同ファウンダーを因果推定パイプラインに効果的に統合する方法を示す。
論文 参考訳(メタデータ) (2026-04-18T00:26:10Z) - ConvFormer3D-TAP: Phase/Uncertainty-Aware Front-End Fusion for Cine CMR View Classification Pipelines [0.879504058268139]
ConvFormer3D-TAPは3D畳み込みトークン化とマルチスケールの自己アテンションを統合し、心臓相と曖昧な側頭節間の堅牢性を高める。
ConvFormer3D-は150,974の臨床的に得られたシネ配列のコホートで、クラスごとのF1スコアによる検証精度が96%に達した。
これらの結果は、エンドツーエンドのcMRIにおけるビュールーティング、フィルタリング、品質制御のためのスケーラブルなフロントエンドとして、ConvFormer3DTAPをサポートする。
論文 参考訳(メタデータ) (2026-04-13T12:29:16Z) - Differential Attention-Augmented BiomedCLIP with Asymmetric Focal Optimization for Imbalanced Multi-Label Video Capsule Endoscopy Classification [1.2246649738388389]
本研究は,ビデオカプセル内視鏡(VCE)のためのマルチラベル分類フレームワークを提案する。
アーキテクチャと最適化レベルの戦略を組み合わせることで、Galarデータセットに固有の極端なクラス不均衡に対処する。
論文 参考訳(メタデータ) (2026-03-18T16:04:50Z) - PREBA: Surgical Duration Prediction via PCA-Weighted Retrieval-Augmented LLMs and Bayesian Averaging Aggregation [51.96735866702332]
PreBAはPCA重み付き検索とベイズ平均アグリゲーションを統合した検索拡張フレームワークである。
例えば、PreBAはパフォーマンスを大幅に改善し、MAEを最大40%削減し、ゼロショット推論でR2を-0.13から0.62に引き上げる。
論文 参考訳(メタデータ) (2026-02-27T07:19:23Z) - Suppressing Prior-Comparison Hallucinations in Radiology Report Generation via Semantically Decoupled Latent Steering [94.37535002230504]
本研究では,Semantically Decoupled Latent Steeringと呼ばれる学習自由な推論時間制御フレームワークを開発した。
提案手法は,大言語モデル (LLM) による意味分解による意味のない介入ベクトルを構築する。
本手法は歴史的幻覚の可能性を著しく低下させることを示す。
論文 参考訳(メタデータ) (2026-02-27T04:49:01Z) - Transparent Early ICU Mortality Prediction with Clinical Transformer and Per-Case Modality Attribution [42.85462513661566]
ICU滞在後48時間から, 生理的時系列測定と非構造的臨床記録とを融合した, 軽量で透明なマルチモーダルアンサンブルを提案する。
ロジスティック回帰モデルは、バイタル用双方向LSTMとノート用微調整された臨床ModernBERT変換器の2つのモード固有モデルからの予測を組み合わせる。
MIMIC-IIIベンチマークでは、遅延融合アンサンブルは、よく校正された予測を維持しながら、最高の単一モデルに対する差別を改善する。
論文 参考訳(メタデータ) (2025-11-19T20:11:49Z) - Conformal Lesion Segmentation for 3D Medical Images [82.92159832699583]
本稿では,データ駆動しきい値の校正をコンフォーマル化することで,テスト時間FNRが目標許容値以下であることを保証する,リスク制約付きフレームワークを提案する。
5つのバックボーンモデルにまたがる6つの3D-LSデータセット上でのCLSの統計的健全性と予測性能を検証し,臨床実践におけるリスク認識セグメンテーションの展開に関する実用的な知見を得た。
論文 参考訳(メタデータ) (2025-10-19T08:21:00Z) - Clinical-Grade Blood Pressure Prediction in ICU Settings: An Ensemble Framework with Uncertainty Quantification and Cross-Institutional Validation [0.0]
血圧モニタリング(BP)は集中治療室(ICU)において重要であり、血行動態の不安定性は心臓血管の崩壊に急速に進展する。
現在の機械学習(ML)アプローチには、外部検証の欠如、不確実な定量化の欠如、データ漏洩防止の不適切な3つの制限がある。
本研究は,新しいアルゴリズムリーク防止,不確実性定量化,施設間検証を含む,初めての包括的枠組みを提案する。
論文 参考訳(メタデータ) (2025-07-21T11:15:33Z) - Hierarchical Semi-Supervised Contrastive Learning for
Contamination-Resistant Anomaly Detection [81.07346419422605]
異常検出は、通常のデータ分布から逸脱したサンプルを特定することを目的としている。
コントラスト学習は、異常の効果的な識別を可能にする表現のサンプル化に成功している。
汚染耐性異常検出のための新しい階層型半教師付きコントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-24T18:49:26Z) - MSED: a multi-modal sleep event detection model for clinical sleep
analysis [62.997667081978825]
ポリソムノグラムで睡眠イベントを共同検出する,単一のディープニューラルネットワークアーキテクチャを設計した。
モデルの性能は,F1,精度,リコールスコア,および指標値と臨床値との相関で定量化した。
論文 参考訳(メタデータ) (2021-01-07T13:08:44Z) - Ensemble model for pre-discharge icd10 coding prediction [45.82374977939355]
正確なコード予測のための複数の臨床データソースを組み込んだアンサンブルモデルを提案する。
平均精度は0.73および0.58、F1スコアは0.56および0.35、患者および外来データセットの主診断予測では0.71および0.4のマルチラベル分類精度を得る。
論文 参考訳(メタデータ) (2020-12-16T07:02:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。