論文の概要: Multi-lingual Multi-institutional Electronic Health Record based Predictive Model
- arxiv url: http://arxiv.org/abs/2604.00027v1
- Date: Wed, 11 Mar 2026 07:21:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 02:36:13.205212
- Title: Multi-lingual Multi-institutional Electronic Health Record based Predictive Model
- Title(参考訳): 多言語多施設電子健康記録に基づく予測モデル
- Authors: Kyunghoon Hur, Heeyoung Kwak, Jinsu Jang, Nakhwan Kim, Edward Choi,
- Abstract要約: そこで本研究では,言語的アライメントを持つテキストベースのフレームワークが,数ショットの微調整による伝達学習を効果的に行うことを示す。
これは多言語多国籍ITU EHRデータセットを1つの予測モデルに集約する最初の研究である。
- 参考スコア(独自算出の注目度): 13.930489950153657
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale EHR prediction across institutions is hindered by substantial heterogeneity in schemas and code systems. Although Common Data Models (CDMs) can standardize records for multi-institutional learning, the manual harmonization and vocabulary mapping are costly and difficult to scale. Text-based harmonization provides an alternative by converting raw EHR into a unified textual form, enabling pooled learning without explicit standardization. However, applying this paradigm to multi-national datasets introduces an additional layer of heterogeneity, which is "language" that must be addressed for truly scalable EHRs learning. In this work, we investigate multilingual multi-institutional learning for EHR prediction, aiming to enable pooled training across multinational ICU datasets without manual standardization. We compare two practical strategies for handling language barriers: (i) directly modeling multilingual records with multilingual encoders, and (ii) translating non-English records into English via LLM-based word-level translation. Across seven public ICU datasets, ten clinical tasks with multiple prediction windows, translation-based lingual alignment yields more reliable cross-dataset performance than multilingual encoders. The multi-institutional learning model consistently outperforms strong baselines that require manual feature selection and harmonization, and also surpasses single-dataset training. We further demonstrate that text-based framework with lingual alignment effectively performs transfer learning via few-shot fine-tuning, with additional gains. To our knowledge, this is the first study to aggregate multilingual multinational ICU EHR datasets into one predictive model, providing a scalable path toward language-agnostic clinical prediction and future global multi-institutional EHR research.
- Abstract(参考訳): 機関間での大規模なEHR予測は、スキーマやコードシステムにおけるかなりの不均一性によって妨げられている。
共通データモデル(CDM)は多制度学習のためのレコードを標準化することができるが、手動の調和と語彙マッピングは費用がかかり、スケールが難しい。
テキストベースの調和は、生のEHRを統一されたテキスト形式に変換することで、明示的な標準化なしにプール学習を可能にする代替手段を提供する。
しかし、このパラダイムを多国籍データセットに適用すると、真にスケーラブルなEHR学習に対処しなければならない"言語"である異質性の付加層が導入される。
本研究では,多言語多言語多言語学習によるEHR予測について検討し,手動の標準化なしに多国間ICUデータセット間のプールトレーニングを実現することを目的とした。
言語障壁を扱うための2つの実践的戦略を比較します。
(i)多言語エンコーダで直接多言語レコードをモデル化し、
(II)LLMに基づく単語レベルの翻訳を通して、非英語レコードを英語に翻訳すること。
7つのパブリックICUデータセット、複数の予測ウィンドウを持つ10の臨床タスク、翻訳ベースの言語アライメントにより、多言語エンコーダよりも信頼性の高いクロスデータセットのパフォーマンスが得られる。
多施設学習モデルは、手動による特徴選択と調和を必要とする強力なベースラインを一貫して上回り、シングルデータセットのトレーニングを超越している。
さらに,言語的アライメントを持つテキストベースのフレームワークが,数ショットの微調整による伝達学習を効果的に行うことを実証した。
我々の知る限り、多言語多言語ICU EHRデータセットを1つの予測モデルに集約する最初の研究であり、言語に依存しない臨床予測へのスケーラブルな経路と将来のグローバル多言語EHR研究を提供する。
関連論文リスト
- What Language is This? Ask Your Tokenizer [32.28976119949841]
言語識別(LID)は多くの多言語自然言語処理パイプラインの重要なコンポーネントである。
我々は,UnigramLMトークン化アルゴリズムに基づくシンプルで効率的なLID手法UniLIDを紹介する。
我々の定式化は、データと計算効率が良く、既存のモデルを再訓練することなく、新しい言語の漸進的な追加をサポートしています。
論文 参考訳(メタデータ) (2026-02-19T18:58:39Z) - Judging Quality Across Languages: A Multilingual Approach to Pretraining Data Filtering with Language Models [52.22235443948351]
大規模言語モデル(LLM)を効果的に事前学習するためには,高品質な多言語学習データが不可欠である
本稿では,多言語多言語データを大規模に効率的にキュレートする体系的アプローチであるJQLを紹介する。
JQLは、LLMのアノテーション機能を、事前トレーニングされた多言語埋め込みに基づいて軽量アノテータに蒸留する。
論文 参考訳(メタデータ) (2025-05-28T11:06:54Z) - Enhancing Multilingual Language Models for Code-Switched Input Data [0.0]
本研究では,コード切替データセット上でのマルチ言語BERT(mBERT)の事前学習により,重要なNLPタスクにおけるモデルの性能が向上するかどうかを検討する。
本研究では,Spanglish ツイートのデータセットを用いて事前学習を行い,ベースラインモデルに対する事前学習モデルの評価を行う。
以上の結果から,事前学習したmBERTモデルは,与えられたタスクのベースラインモデルよりも優れ,また,音声タグ付けの分野でも有意な改善が見られた。
論文 参考訳(メタデータ) (2025-03-11T02:49:41Z) - P-MMEval: A Parallel Multilingual Multitask Benchmark for Consistent Evaluation of LLMs [84.24644520272835]
本稿では,P-MMEvalを提案する。P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P -M
P-MMEvalは、さまざまなデータセットにわたって一貫した言語カバレッジを提供し、並列サンプルを提供する。
我々は、モデルとタスク間の性能を比較するために、代表的多言語モデル系列に関する広範な実験を行う。
論文 参考訳(メタデータ) (2024-11-14T01:29:36Z) - Zero-shot Cross-lingual Transfer Learning with Multiple Source and Target Languages for Information Extraction: Language Selection and Adversarial Training [38.19963761398705]
本稿では,近年のIEコーパスにおける多言語多言語変換可能性(多言語間移動学習)に関する詳細な解析を行う。
まず、単一言語のパフォーマンスと幅広い言語に基づく距離の相関について検討する。
次に,複数の言語が学習・評価プロセスに関与している,より一般的なゼロショット多言語転送設定について検討する。
論文 参考訳(メタデータ) (2024-11-13T17:13:25Z) - Modeling Sequential Sentence Relation to Improve Cross-lingual Dense Retrieval [80.43859162884353]
マスク付き文モデル(MSM)と呼ばれる多言語多言語言語モデルを提案する。
MSMは、文表現を生成する文エンコーダと、文書から文ベクトルのシーケンスに適用される文書エンコーダとから構成される。
モデルをトレーニングするために,サンプル負の階層的コントラスト損失によって文ベクトルをマスクし,予測するマスク付き文予測タスクを提案する。
論文 参考訳(メタデータ) (2023-02-03T09:54:27Z) - On Cross-Lingual Retrieval with Multilingual Text Encoders [51.60862829942932]
言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性について検討する。
教師なしのアドホック文と文書レベルのCLIR実験でそれらの性能をベンチマークする。
我々は、ゼロショット言語とドメイン転送CLIR実験のシリーズにおける英語関連データに基づいて、教師付き方式で微調整された多言語エンコーダの評価を行った。
論文 参考訳(メタデータ) (2021-12-21T08:10:27Z) - Improving Low-resource Reading Comprehension via Cross-lingual
Transposition Rethinking [0.9236074230806579]
Extractive Reading (ERC)は、大規模で高品質なERCトレーニングデータの提供によって、大幅に進歩した。
このような急速な進歩と広範囲の応用にもかかわらず、英語のような高リソース言語以外の言語のデータセットは依然として不足している。
多言語環境において,既存の高品質抽出読解データセットをモデル化し,XLTT(Cross-Lingual Transposition ReThinking)モデルを提案する。
論文 参考訳(メタデータ) (2021-07-11T09:35:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。