論文の概要: MediTab: Scaling Medical Tabular Data Predictors via Data Consolidation,
Enrichment, and Refinement
- arxiv url: http://arxiv.org/abs/2305.12081v2
- Date: Thu, 5 Oct 2023 05:40:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-06 22:33:34.921074
- Title: MediTab: Scaling Medical Tabular Data Predictors via Data Consolidation,
Enrichment, and Refinement
- Title(参考訳): MediTab: データ統合、強化、リファインメントによる医療用タブラルデータ予測器のスケーリング
- Authors: Zifeng Wang and Chufan Gao and Cao Xiao and Jimeng Sun
- Abstract要約: 患者の健康リスク予測などの医療応用において,タブラルデータ予測が採用されている。
以前の予測子は、しばしば、一般化に苦労する手動でキュレートされた小さなデータセットで訓練される。
本稿では,医療用表型データ予測器(MediTab)を様々な特徴を持つ様々な入力に拡張することを提案する。
- 参考スコア(独自算出の注目度): 48.82424690739853
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tabular data prediction has been employed in medical applications such as
patient health risk prediction. However, existing methods usually revolve
around the algorithm design while overlooking the significance of data
engineering. Medical tabular datasets frequently exhibit significant
heterogeneity across different sources, with limited sample sizes per source.
As such, previous predictors are often trained on manually curated small
datasets that struggle to generalize across different tabular datasets during
inference. This paper proposes to scale medical tabular data predictors
(MediTab) to various tabular inputs with varying features. The method uses a
data engine that leverages large language models (LLMs) to consolidate tabular
samples to overcome the barrier across tables with distinct schema. It also
aligns out-domain data with the target task using a "learn, annotate, and
refinement" pipeline. The expanded training data then enables the pre-trained
MediTab to infer for arbitrary tabular input in the domain without fine-tuning,
resulting in significant improvements over supervised baselines: it reaches an
average ranking of 1.57 and 1.00 on 7 patient outcome prediction datasets and 3
trial outcome prediction datasets, respectively. In addition, MediTab exhibits
impressive zero-shot performances: it outperforms supervised XGBoost models by
8.9% and 17.2% on average in two prediction tasks, respectively. The code is
available at https://github.com/RyanWangZf/MediTab.
- Abstract(参考訳): 表データ予測は、患者の健康リスク予測のような医療応用に用いられてきた。
しかし、既存の手法は通常、データ工学の意義を軽視しながらアルゴリズム設計を中心に展開する。
医用表状データセットは、異なるソース間で大きな異質性を示し、ソースごとにサンプルサイズが制限されている。
このように、従来の予測子は、推論中にさまざまな表のデータセットを一般化するのに苦労する、手動でキュレートされた小さなデータセットでトレーニングされることが多い。
本稿では,医療用表データ予測器(medical tabular data predictor,meditab)を様々な特徴の表データ入力に拡張する。
この方法は、大きな言語モデル(LLM)を活用して表のサンプルを統合し、異なるスキーマでテーブル間の障壁を克服するデータエンジンを使用する。
また、"learn、annotate、refinement"パイプラインを使用して、ドメイン外のデータをターゲットタスクと調整する。
拡張されたトレーニングデータにより、トレーニング済みのMediTabは、微調整なしで、ドメイン内の任意の表型入力を推測することが可能となり、それぞれ7つの患者結果予測データセットの平均ランク1.57と1.00、トライアル結果予測データセット3という、教師付きベースラインよりも大幅に改善される。
教師付きXGBoostモデルでは2つの予測タスクで平均8.9%と17.2%を上回っている。
コードはhttps://github.com/RyanWangZf/MediTabで入手できる。
関連論文リスト
- Making Pre-trained Language Models Great on Tabular Prediction [50.70574370855663]
ディープニューラルネットワーク(DNN)の転送性は、画像および言語処理において著しく進歩している。
本稿では,表型データ予測のための訓練済みLMであるTP-BERTaを提案する。
新たな相対等級トークン化では、スカラー数値の特徴値を細分化した高次元トークンに変換し、特徴値と対応する特徴名を統合する。
論文 参考訳(メタデータ) (2024-03-04T08:38:56Z) - Training-Free Generalization on Heterogeneous Tabular Data via
Meta-Representation [67.30538142519067]
メタ表現(TabPTM)を用いたタブラルデータ事前学習を提案する。
深層ニューラルネットワークは、これらのメタ表現とデータセット固有の分類信頼度を関連付けるように訓練される。
実験により、TabPTMは、数ショットのシナリオであっても、新しいデータセットで有望なパフォーマンスを達成することを確認した。
論文 参考訳(メタデータ) (2023-10-31T18:03:54Z) - Generative Table Pre-training Empowers Models for Tabular Prediction [71.76829961276032]
本稿では,テーブル事前学習を利用した最初の試みであるTapTapを提案する。
TapTapは、プライバシ保護、リソースの低さ、価値計算の欠如、不均衡な分類など、さまざまなアプリケーションをサポートするための高品質な合成テーブルを生成することができる。
LightGBM、Multilayer Perceptron (MLP)、Transformerなどのバックボーンモデルと簡単に組み合わせることができる。
論文 参考訳(メタデータ) (2023-05-16T06:37:38Z) - P-Transformer: A Prompt-based Multimodal Transformer Architecture For
Medical Tabular Data [2.6487114372147182]
本稿では,P-Transformerを提案する。
このフレームワークは、構造化データと非構造化データの両方から、多彩なモダリティを調和した言語意味空間に効率的にエンコードする。
P-Transformerは、RMSE/MAEで10.9%/11.0%、RMSE/MAEで0.5%/2.2%、BACC/AUROCで1.6%/0.8%、予測可能性でSOTA(State-of-the-art)ベースラインと比較して改善した。
論文 参考訳(メタデータ) (2023-03-30T14:25:44Z) - TabRet: Pre-training Transformer-based Tabular Models for Unseen Columns [12.139158398361866]
TabRetは、事前トレーニングで見えない列を含む下流タスクで動作するように設計されている。
実験では、TabRetを多数の公衆衛生調査で事前訓練し、医療における分類タスクを微調整した。
さらに,プレトレーニング中のカラムの再起動およびランダムシャッフル増大が,性能向上に寄与することを示した。
論文 参考訳(メタデータ) (2023-03-28T06:03:41Z) - Learning Enhanced Representations for Tabular Data via Neighborhood
Propagation [24.485479610138498]
データインスタンスのクロスローパターンとクロスカラムパターンをモデル化するハイパーグラフを構築した。
次に、ターゲットデータインスタンス表現を強化するためにメッセージの伝搬を行います。
2つの重要なデータ予測タスクの実験は、提案したPETモデルの優越性を検証する。
論文 参考訳(メタデータ) (2022-06-14T04:24:52Z) - Unsupervised Pre-Training on Patient Population Graphs for Patient-Level
Predictions [48.02011627390706]
プレトレーニングは、コンピュータビジョン(CV)、自然言語処理(NLP)、医療画像など、機械学習のさまざまな分野で成功している。
本稿では,患者結果の予測のために,教師なし事前学習を異種マルチモーダルEHRデータに適用する。
提案手法は,人口レベルでのデータモデリングに有効であることがわかった。
論文 参考訳(メタデータ) (2022-03-23T17:59:45Z) - Imputation-Free Learning from Incomplete Observations [73.15386629370111]
本稿では,不備な値を含む入力からの推論をインプットなしでトレーニングするIGSGD法の重要性について紹介する。
バックプロパゲーションによるモデルのトレーニングに使用する勾配の調整には強化学習(RL)を用いる。
我々の計算自由予測は、最先端の計算手法を用いて従来の2段階の計算自由予測よりも優れている。
論文 参考訳(メタデータ) (2021-07-05T12:44:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。