論文の概要: Labrador: Exploring the Limits of Masked Language Modeling for Laboratory Data
- arxiv url: http://arxiv.org/abs/2312.11502v2
- Date: Wed, 04 Dec 2024 23:09:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-06 14:38:43.813792
- Title: Labrador: Exploring the Limits of Masked Language Modeling for Laboratory Data
- Title(参考訳): Labrador: 実験データのためのマスク言語モデリングの限界を探る
- Authors: David R. Bellamy, Bhawesh Kumar, Cindy Wang, Andrew Beam,
- Abstract要約: ラブラドールとBERTは電子健康記録から1億の実験結果のコーパスで事前訓練された。
どちらのモデルも事前学習タスクの熟達を示すが、下流の教師付きタスクではXGBoostを一貫して上回らない。
我々のアブレーション研究は、転送学習がBERTに対して限られた有効性を示し、ラブラドールで限界的な成功を達成していることを示している。
- 参考スコア(独自算出の注目度): 2.8498944632323755
- License:
- Abstract: In this work we introduce Labrador, a pre-trained Transformer model for laboratory data. Labrador and BERT were pre-trained on a corpus of 100 million lab test results from electronic health records (EHRs) and evaluated on various downstream outcome prediction tasks. Both models demonstrate mastery of the pre-training task but neither consistently outperform XGBoost on downstream supervised tasks. Our ablation studies reveal that transfer learning shows limited effectiveness for BERT and achieves marginal success with Labrador. We explore the reasons for the failure of transfer learning and suggest that the data generating process underlying each patient cannot be characterized sufficiently using labs alone, among other factors. We encourage future work to focus on joint modeling of multiple EHR data categories and to include tree-based baselines in their evaluations.
- Abstract(参考訳): 本稿では,実験データを対象とした事前学習型トランスフォーマーモデルであるRaradorを紹介する。
ラブラドールとBERTは、電子健康記録(EHR)から1億の検査結果のコーパスで事前訓練され、様々な下流結果予測タスクで評価された。
どちらのモデルも事前学習タスクの熟達を示すが、下流の教師付きタスクではXGBoostを一貫して上回らない。
我々のアブレーション研究は、転送学習がBERTに対して限られた有効性を示し、ラブラドールで限界的な成功を達成していることを示している。
転帰学習の失敗の原因を考察し,各患者に根底にあるデータ生成プロセスは,実験室のみでは十分な特徴付けができないことを示唆する。
我々は、今後、複数のEHRデータカテゴリの共同モデリングに焦点をあて、その評価にツリーベースのベースラインを含めることを推奨する。
関連論文リスト
- Probing Language Models for Pre-training Data Detection [11.37731401086372]
本稿では,モデルの内部アクティベーションを調べることで,事前学習データ検出のための探索手法を提案する。
我々の手法はシンプルで効果的であり、より信頼性の高い事前学習データ検出につながる。
論文 参考訳(メタデータ) (2024-06-03T13:58:04Z) - What Makes CLIP More Robust to Long-Tailed Pre-Training Data? A Controlled Study for Transferable Insights [67.72413262980272]
大規模なデータ不均衡は、Webスケールの視覚言語データセットの間に自然に存在する。
事前学習したCLIPは、教師付き学習と比較してデータ不均衡に顕著な堅牢性を示す。
CLIPの堅牢性と差別性は、より記述的な言語監督、より大きなデータスケール、より広いオープンワールドの概念によって改善される。
論文 参考訳(メタデータ) (2024-05-31T17:57:24Z) - Automatic Identification of Stone-Handling Behaviour in Japanese
Macaques Using LabGym Artificial Intelligence [0.0]
倫理学者は、ビデオデータを用いた行動分析の時間集約的なプロセスの合理化のために、イノベーションの可能性を探っている。
これらの制限に対処するため、私たちは最先端ツールであるLabGymの能力を活用するために設計された包括的なプロトコルを確立しました。
本研究の目的は, 霊長類の行動分析におけるLabGymの適性を評価することであり, ニホンザルに焦点をあてることであった。
本研究は,日本産マカクの石の扱いを高精度に検出するモデルの開発に成功した。
論文 参考訳(メタデータ) (2023-09-28T09:26:39Z) - B-Learner: Quasi-Oracle Bounds on Heterogeneous Causal Effects Under
Hidden Confounding [51.74479522965712]
本稿では,B-Learnerと呼ばれるメタラーナーを提案する。
我々は、その推定が有効で、鋭く、効率的であることを証明し、既存の方法よりも一般的な条件下で構成推定器に対して準オーラル特性を持つことを示した。
論文 参考訳(メタデータ) (2023-04-20T18:07:19Z) - Self-supervised learning-based general laboratory progress pretrained
model for cardiovascular event detection [15.892535809911644]
本研究は,一般実験室進歩(GLP)モデルを事前訓練するために,自己教師付き学習(SSL)を用いた。
GLP処理後、この分類は顕著な向上を示し、平均精度は0.63から0.90まで上昇した。
論文 参考訳(メタデータ) (2023-03-13T10:30:02Z) - On the Transferability of Pre-trained Language Models: A Study from
Artificial Datasets [74.11825654535895]
大規模未ラベルテキストデータ上での事前学習言語モデル(LM)により、ダウンストリームのパフォーマンスが極めて容易になる。
我々は,事前学習データに含まれる特定の特徴について,セマンティクス以外では,下流タスクのスクラッチからトレーニングしたデータよりも,事前学習したLMを優れているか検討した。
論文 参考訳(メタデータ) (2021-09-08T10:39:57Z) - Pre-training transformer-based framework on large-scale pediatric claims
data for downstream population-specific tasks [3.1580072841682734]
本研究は、小児科のクレームデータセット全体をトレーニングする一般的な事前学習モデルであるClaim Pre-Training(Claim-PT)フレームワークを提案する。
効果的な知識伝達はタスク対応微調整段階を通じて完了する。
我々は100万人以上の患者記録を持つ実世界のクレームデータセットの実験を行った。
論文 参考訳(メタデータ) (2021-06-24T15:25:41Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z) - An empirical study of domain-agnostic semi-supervised learning via
energy-based models: joint-training and pre-training [16.14838937433809]
ジェネレーティブSSL法は、ジョイントトレーニングまたはプレトレーニングによる生成モデルに基づく教師なし学習を含む。
共同トレーニングは、観測とラベルの合同分布を推定する一方で、事前トレーニングは観測のみに対して行われる。
共同訓練型ESMは、前訓練型ESMよりもほぼ一貫した性能を示した。
論文 参考訳(メタデータ) (2020-10-25T13:35:23Z) - Ensemble Transfer Learning for the Prediction of Anti-Cancer Drug
Response [49.86828302591469]
本稿では,抗がん剤感受性の予測にトランスファーラーニングを適用した。
我々は、ソースデータセット上で予測モデルをトレーニングし、ターゲットデータセット上でそれを洗練する古典的な転送学習フレームワークを適用した。
アンサンブル転送学習パイプラインは、LightGBMと異なるアーキテクチャを持つ2つのディープニューラルネットワーク(DNN)モデルを使用して実装されている。
論文 参考訳(メタデータ) (2020-05-13T20:29:48Z) - Fine-Tuning Pretrained Language Models: Weight Initializations, Data
Orders, and Early Stopping [62.78338049381917]
教師付き下流タスクのための微調整済み文脈単語埋め込みモデルは、自然言語処理において一般的なものとなっている。
GLUEベンチマークから得られた4つのデータセットを実験し、無作為な種だけを変えながら、それぞれに数百回微調整されたBERTを実験した。
これまでに報告した結果と比較すると,性能が大幅に向上し,微調整試行回数の関数としてベストファウンドモデルの性能がどう変化するかが定量化される。
論文 参考訳(メタデータ) (2020-02-15T02:40:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。