論文の概要: Tokenization Tradeoffs in Structured EHR Foundation Models
- arxiv url: http://arxiv.org/abs/2603.15644v1
- Date: Tue, 03 Mar 2026 22:48:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:42.335464
- Title: Tokenization Tradeoffs in Structured EHR Foundation Models
- Title(参考訳): 構造化EHRファンデーションモデルにおけるトークン化トレードオフ
- Authors: Lin Lawrence Guo, Santiago Eduardo Arciniegas, Joseph Jihyung Lee, Adam Paul Yan, George Tomlinson, Jason Fries, Lillian Sung,
- Abstract要約: トークン化は、どの情報が保存され、どれだけ効率的にエンコードされ、どの関係が事前に計算されなければならないかを決定する。
ここでは、事象エンコーディング、時間エンコーディング、ワークフローアノテーションに沿ったトークン化の異なる要因設計の下で、小児のERHデータにトランスフォーマーを事前学習した。
共同イベントエンコーディングと位置時間エンコーディングは、それぞれ39.5%と9.6%の事前訓練浮動小数点演算を減らした。
- 参考スコア(独自算出の注目度): 0.23453441553817042
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Foundation models for structured electronic health records (EHRs) are pretrained on longitudinal sequences of timestamped clinical events to learn adaptable patient representations. Tokenization -- how these timelines are converted into discrete model inputs -- determines what information is preserved, how efficiently it is encoded, and which relationships must be learned versus precomputed. Yet the impact of tokenization design choices on downstream performance and computational efficiency remains largely unexplored. Here, we pretrained a transformer on pediatric EHR data under a factorial design, varying tokenization along event encoding, time encoding, and workflow annotation. We evaluated area-under-the-receiver-operating-characteristic curve across 74 clinical prediction tasks. Joint event encoding and positional time encoding outperformed their alternatives (73/74 and 71/74 tasks) while requiring 39.5% and 9.6% fewer pretraining floating-point operations, respectively. Targeted ablations traced the joint encoding advantage to local binding efficiency, that is, code-attribute pairs are combined into single tokens, rather than split across tokens that the model must learn to associate during pretraining. External evaluation on an adult intensive care unit cohort demonstrated that this advantage generalizes despite substantial vocabulary mismatch, while temporal and workflow effects remain institution-specific. These results establish tokenization as a tractable lever for improving both the performance and efficiency of EHR foundation models.
- Abstract(参考訳): 構造化された電子健康記録(EHR)の基礎モデルは、適応可能な患者表現を学習するために、タイムスタンプ付き臨床イベントの時系列に基づいて事前訓練される。
トークン化 -- これらのタイムラインを個別のモデル入力に変換する方法 -- は、どの情報が保存され、どれだけ効率的にエンコードされ、どの関係が事前に計算されるかを決定する。
しかし、トークン化設計の選択が下流の性能と計算効率に与える影響は、まだ明らかにされていない。
ここでは、事象エンコーディング、時間エンコーディング、ワークフローアノテーションに沿ったトークン化の異なる要因設計の下で、小児のERHデータにトランスフォーマーを事前学習した。
臨床予知作業74項目を対象に, エリア・アンダー・ザ・レシーバー・オペレーティング・キャラクタリスティック・カーブの評価を行った。
共同イベントエンコーディングと位置時間エンコーディングは、それぞれ39.5%と9.6%の事前訓練浮動小数点演算を減らし、その代替案(73/74タスクと71/74タスク)を上回った。
つまり、コード-属性のペアは、事前訓練中にモデルが関連付けを学ばなければならないトークンを分割するのではなく、単一のトークンにまとめられる。
成人集中治療室コホートにおける外的評価は, 時間的・ワークフロー的効果は制度的特有でありながら, かなりの語彙ミスマッチにもかかわらず, この利点が一般化することを示した。
これらの結果から, EHRファンデーションモデルの性能と効率を両立させるため, トラクタブルレバーとしてのトークン化が確立された。
関連論文リスト
- Self-Supervised Learning via Flow-Guided Neural Operator on Time-Series Data [57.85958428020496]
Flow-Guided Neural Operator (FGNO)は、演算子学習とフローマッチングを組み合わせた新しいフレームワークである。
FGNOは、短時間フーリエ変換を用いて関数空間のマッピングを学習し、異なる時間分解能を統一する。
推論中にノイズのある入力を使用する以前の生成SSL法とは異なり、ノイズのある表現を学習しながら、クリーンな入力を用いて表現抽出を行う。
論文 参考訳(メタデータ) (2026-02-12T18:54:57Z) - Accelerate Speculative Decoding with Sparse Computation in Verification [49.74839681322316]
投機的復号化は、複数のドラフトトークンを並列に検証することにより、自動回帰言語モデル推論を加速する。
既存のスペーシフィケーション方式は主にトークン・バイ・トーケンの自己回帰復号化のために設計されている。
そこで本研究では,注目度,FFN,MoEを両立させるスパース検証フレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-26T07:53:41Z) - Rethinking Tokenization for Clinical Time Series: When Less is More [0.20388938295521575]
本稿では,臨床時系列モデリングにおけるトークン化アプローチの体系的評価について述べる。
評価された下流タスクに対して,明示的な時間エンコーディングは統計的に一貫した利点を与えないことを示す。
価値の特徴はタスク依存の重要さを示し、死亡予測に影響を与えるが、可読性には影響しない。
論文 参考訳(メタデータ) (2025-12-04T19:39:10Z) - PULSE-ICU: A Pretrained Unified Long-Sequence Encoder for Multi-task Prediction in Intensive Care Units [0.3277163122167433]
大規模EHRシーケンスからイベントレベルICU表現を学習する自己教師型基礎モデルであるPULSE-ICUを提案する。
統合埋め込みモジュールはイベントアイデンティティ、連続値、ユニット、時間属性をエンコードし、ロングフォーマーベースのエンコーダは長い軌道の効率的なモデリングを可能にする。
論文 参考訳(メタデータ) (2025-11-27T08:10:52Z) - Bridging Electronic Health Records and Clinical Texts: Contrastive Learning for Enhanced Clinical Tasks [0.0]
本稿では,構造化EHRデータの潜在表現を非構造化放電要約ノートと整合させるフレームワークを提案する。
ペアのEHRとテキストの埋め込みをまとめて、障害のないものを分解する。
その結果,臨床ノートからEHRベースのパイプラインにドメイン知識を統合する効果が示された。
論文 参考訳(メタデータ) (2025-05-23T09:04:49Z) - CAAT-EHR: Cross-Attentional Autoregressive Transformer for Multimodal Electronic Health Record Embeddings [0.0]
本稿では,タスク非依存の縦埋め込みを生のEHRデータから生成する新しいアーキテクチャであるCAAT-EHRを紹介する。
自己回帰デコーダは、事前訓練中に将来の時刻データを予測してエンコーダを補完し、その結果の埋め込みが時間的整合性と整合性を維持する。
論文 参考訳(メタデータ) (2025-01-31T05:00:02Z) - Toward Understanding BERT-Like Pre-Training for DNA Foundation Models [78.48760388079523]
既存のDNA配列の事前訓練方法は、NLPからのBERT事前訓練の直接的な採用に依存している。
マスク境界を連続的に拡張することにより,BERTライクな事前学習作業の難易度を徐々に向上させるRandomMaskという新しい手法を提案する。
RandomMaskは、マシューのエピジェネティック・マーク・予測の相関係数の68.16%を突破し、ベースラインの19.85%を突破した。
論文 参考訳(メタデータ) (2023-10-11T16:40:57Z) - UNETR++: Delving into Efficient and Accurate 3D Medical Image Segmentation [93.88170217725805]
本稿では,高画質なセグメンテーションマスクと,パラメータ,計算コスト,推論速度の両面での効率性を提供するUNETR++という3次元医用画像セグメンテーション手法を提案する。
我々の設計の核となるのは、空間的およびチャネル的な識別的特徴を効率的に学習する、新しい効率的な対注意ブロック(EPA)の導入である。
Synapse, BTCV, ACDC, BRaTs, Decathlon-Lungの5つのベンチマークで評価した結果, 効率と精度の両面で, コントリビューションの有効性が示された。
論文 参考訳(メタデータ) (2022-12-08T18:59:57Z) - On the Transferability of Pre-trained Language Models: A Study from
Artificial Datasets [74.11825654535895]
大規模未ラベルテキストデータ上での事前学習言語モデル(LM)により、ダウンストリームのパフォーマンスが極めて容易になる。
我々は,事前学習データに含まれる特定の特徴について,セマンティクス以外では,下流タスクのスクラッチからトレーニングしたデータよりも,事前学習したLMを優れているか検討した。
論文 参考訳(メタデータ) (2021-09-08T10:39:57Z) - Evaluating Prediction-Time Batch Normalization for Robustness under
Covariate Shift [81.74795324629712]
我々は予測時間バッチ正規化と呼び、共変量シフト時のモデル精度とキャリブレーションを大幅に改善する。
予測時間バッチ正規化は、既存の最先端アプローチに相補的な利点をもたらし、ロバスト性を向上させることを示します。
この手法は、事前トレーニングと併用して使用すると、さまざまな結果が得られるが、より自然なタイプのデータセットシフトでは、パフォーマンスが良くないようだ。
論文 参考訳(メタデータ) (2020-06-19T05:08:43Z) - Longitudinal Variational Autoencoder [1.4680035572775534]
不足値を含む高次元データを解析するための一般的なアプローチは、変分オートエンコーダ(VAE)を用いた低次元表現を学習することである。
標準的なVAEは、学習した表現はi.d.であり、データサンプル間の相関を捉えることができないと仮定する。
本稿では,多出力加法的ガウス過程(GP)を用いて,構造化された低次元表現を学習するVAEの能力を拡張した縦型VAE(L-VAE)を提案する。
我々の手法は時間変化の共有効果とランダム効果の両方に同時に対応でき、構造化された低次元表現を生成する。
論文 参考訳(メタデータ) (2020-06-17T10:30:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。