論文の概要: Rethinking Tokenization for Clinical Time Series: When Less is More
- arxiv url: http://arxiv.org/abs/2512.05217v1
- Date: Thu, 04 Dec 2025 19:39:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-13 22:40:56.792792
- Title: Rethinking Tokenization for Clinical Time Series: When Less is More
- Title(参考訳): クリニカルタイムシリーズにおけるトークン化の再考
- Authors: Rafi Al Attrach, Rajna Fani, David Restrepo, Yugang Jia, Peter Schüffler,
- Abstract要約: 本稿では,臨床時系列モデリングにおけるトークン化アプローチの体系的評価について述べる。
評価された下流タスクに対して,明示的な時間エンコーディングは統計的に一貫した利点を与えないことを示す。
価値の特徴はタスク依存の重要さを示し、死亡予測に影響を与えるが、可読性には影響しない。
- 参考スコア(独自算出の注目度): 0.20388938295521575
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tokenization strategies shape how models process electronic health records, yet fair comparisons of their effectiveness remain limited. We present a systematic evaluation of tokenization approaches for clinical time series modeling using transformer-based architectures, revealing task-dependent and sometimes counterintuitive findings about temporal and value feature importance. Through controlled ablations across four clinical prediction tasks on MIMIC-IV, we demonstrate that explicit time encodings provide no consistent statistically significant benefit for the evaluated downstream tasks. Value features show task-dependent importance, affecting mortality prediction but not readmission, suggesting code sequences alone can carry sufficient predictive signal. We further show that frozen pretrained code encoders dramatically outperform their trainable counterparts while requiring dramatically fewer parameters. Larger clinical encoders provide consistent improvements across tasks, benefiting from frozen embeddings that eliminate computational overhead. Our controlled evaluation enables fairer tokenization comparisons and demonstrates that simpler, parameter-efficient approaches can, in many cases, achieve strong performance, though the optimal tokenization strategy remains task-dependent.
- Abstract(参考訳): トークン化戦略は、モデルが電子健康記録を処理する方法を形成するが、その効果の公正な比較は限定的である。
本稿では,トランスフォーマーアーキテクチャを用いた臨床時系列モデリングのためのトークン化手法の体系的評価を行い,時間的・価値的特徴の重要性に関するタスク依存的かつ時には直感的な発見を明らかにする。
MIMIC-IV上での4つの臨床予測課題に対する制御的改善を通じて、明示的な時間エンコーディングは、評価された下流タスクに対して一貫した統計的に有意な利益をもたらすものではないことを実証した。
価値の特徴はタスク依存の重要さを示し、死亡予測に影響を与えるが、可読性には影響しない。
さらに、凍結した事前訓練されたコードエンコーダは、トレーニング可能なコードよりも劇的に優れ、パラメータが劇的に少ないことを示す。
より大規模な臨床エンコーダは、計算オーバーヘッドを排除した凍結埋め込みの恩恵を受け、タスク間で一貫した改善を提供する。
制御された評価により、より公平なトークン化比較が可能となり、より単純でパラメータ効率のよいアプローチが、多くの場合、タスク依存のまま、高い性能を達成できることを示す。
関連論文リスト
- Latent Factor Point Processes for Patient Representation in Electronic Health Records [12.377029213322198]
ほとんどの統計的手法は、EHR符号の不規則なタイミングを単純なカウントに減らし、これにより豊富な時間構造を破棄する。
本稿では,コード発生を高次元のポイントプロセスとして表現する潜在因子点プロセスモデルを提案する。
この低ランク構造は、数千のコードが少数の基礎疾患プロセスによって管理されているという臨床的現実を反映している。
論文 参考訳(メタデータ) (2025-08-28T00:08:55Z) - Causal Contrastive Learning for Counterfactual Regression Over Time [3.3523758554338734]
本稿では, 長期予測を重視した, 反実的回帰に対するユニークなアプローチを提案する。
Causal Transformerのような既存のモデルから切り離し、我々のアプローチは長期的な予測にRNNを使うことの有効性を強調します。
提案手法は, 合成データと実世界のデータの両方を用いて, 最先端の対物推定結果を実現する。
論文 参考訳(メタデータ) (2024-06-01T19:07:25Z) - PREM: A Simple Yet Effective Approach for Node-Level Graph Anomaly
Detection [65.24854366973794]
ノードレベルのグラフ異常検出(GAD)は、医学、ソーシャルネットワーク、eコマースなどの分野におけるグラフ構造化データから異常ノードを特定する上で重要な役割を果たす。
本稿では,GADの効率を向上させるために,PREM (preprocessing and Matching) という簡単な手法を提案する。
我々のアプローチは、強力な異常検出機能を維持しながら、GADを合理化し、時間とメモリ消費を削減します。
論文 参考訳(メタデータ) (2023-10-18T02:59:57Z) - Time Associated Meta Learning for Clinical Prediction [78.99422473394029]
本稿では,時間関連メタラーニング(TAML)手法を提案する。
タスク分割後のスパーシリティ問題に対処するため、TAMLは時間情報共有戦略を採用し、正のサンプル数を増やす。
複数の臨床データセットに対するTAMLの有効性を示す。
論文 参考訳(メタデータ) (2023-03-05T03:54:54Z) - Robust Fitted-Q-Evaluation and Iteration under Sequentially Exogenous Unobserved Confounders [9.401989343015364]
連続的に外生的でない共同設立者が存在する場合、ロバストな政策評価と政策最適化について検討する。
本研究は,敗血症治療のシミュレーションと実世界の縦断医療データの両方において,複雑性境界,洞察,有効性を示す。
論文 参考訳(メタデータ) (2023-02-01T18:40:53Z) - On the Practicality of Deterministic Epistemic Uncertainty [106.06571981780591]
決定論的不確実性法(DUM)は,分布外データの検出において高い性能を達成する。
DUMが十分に校正されており、現実のアプリケーションにシームレスにスケールできるかどうかは不明だ。
論文 参考訳(メタデータ) (2021-07-01T17:59:07Z) - Clinical Risk Prediction with Temporal Probabilistic Asymmetric
Multi-Task Learning [80.66108902283388]
マルチタスク学習手法は、臨床リスク予測などの安全クリティカルな応用に注意を払って使用すべきである。
既存の非対称なマルチタスク学習手法は、低損失のタスクから高損失のタスクへの知識伝達を行うことにより、この負の伝達問題に対処する。
特徴レベルの不確実性に基づいて,特定のタスク/タイムステップから関連する不確実なタスクへの知識伝達を行う,新しい時間的非対称型マルチタスク学習モデルを提案する。
論文 参考訳(メタデータ) (2020-06-23T06:01:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。