論文の概要: A Medical Data-Effective Learning Benchmark for Highly Efficient Pre-training of Foundation Models
- arxiv url: http://arxiv.org/abs/2401.17542v3
- Date: Fri, 16 Aug 2024 12:46:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-19 20:45:34.217044
- Title: A Medical Data-Effective Learning Benchmark for Highly Efficient Pre-training of Foundation Models
- Title(参考訳): 基礎モデルの高精度事前学習のための医療データ効果学習ベンチマーク
- Authors: Wenxuan Yang, Weimin Tan, Yuqi Sun, Bo Yan,
- Abstract要約: 大規模なデータセットで事前訓練されたファンデーションモデルは、前例のない一般化性を達成した。
本稿では,基礎モデルの事前学習において,最も影響の大きい方法でデータを活用することを目的とした,データ効率のよい学習手法を提案する。
- 参考スコア(独自算出の注目度): 14.688139107248235
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Foundation models, pre-trained on massive datasets, have achieved unprecedented generalizability. However, is it truly necessary to involve such vast amounts of data in pre-training, consuming extensive computational resources? This paper introduces data-effective learning, aiming to use data in the most impactful way to pre-train foundation models. This involves strategies that focus on data quality rather than quantity, ensuring the data used for training has high informational value. Data-effective learning plays a profound role in accelerating foundation model training, reducing computational costs, and saving data storage, which is very important as the volume of medical data in recent years has grown beyond many people's expectations. However, due to the lack of standards and comprehensive benchmarks, research on medical data-effective learning is poorly studied. To address this gap, our paper introduces a comprehensive benchmark specifically for evaluating data-effective learning in the medical field. This benchmark includes a dataset with millions of data samples from 31 medical centers (DataDEL), a baseline method for comparison (MedDEL), and a new evaluation metric (NormDEL) to objectively measure data-effective learning performance. Our extensive experimental results show the baseline MedDEL can achieve performance comparable to the original large dataset with only 5% of the data. Establishing such an open data-effective learning benchmark is crucial for the medical foundation model research community because it facilitates efficient data use, promotes collaborative breakthroughs, and fosters the development of cost-effective, scalable, and impactful healthcare solutions.
- Abstract(参考訳): 大規模なデータセットで事前訓練されたファンデーションモデルは、前例のない一般化性を達成した。
しかし、そのような膨大なデータを事前学習し、膨大な計算資源を消費することは本当に必要か?
本稿では,基礎モデルの事前学習において,最も影響の大きい方法でデータを活用することを目的とした,データ効率のよい学習手法を提案する。
これには量ではなくデータ品質に重点を置く戦略が含まれており、トレーニングに使用するデータに高い情報的価値が保証される。
データ有効学習は基礎モデルトレーニングの加速、計算コストの削減、データストレージの保存において重要な役割を担っている。
しかし、基準や総合的なベンチマークが欠如しているため、医学データ有効学習の研究は不十分である。
このギャップに対処するため,医療分野でのデータ有効学習を評価するための総合的なベンチマークを提案する。
このベンチマークには、31の医療センター(DataDEL)からの数百万のデータサンプル、比較のためのベースライン手法(MedDEL)、データ有効学習性能を客観的に測定する新たな評価指標(NormDEL)を含む。
我々の大規模な実験結果から、MedDELのベースラインは、データの5%しか持たないオリジナルの大規模データセットに匹敵する性能を達成できることが示された。
このようなオープンなデータ効率の学習ベンチマークを確立することは、医療ファンデーションモデル研究コミュニティにとって不可欠である。
関連論文リスト
- The State of Data Curation at NeurIPS: An Assessment of Dataset Development Practices in the Datasets and Benchmarks Track [1.5993707490601146]
この研究は、データキュレーションのレンズを通してNeurIPSにおけるデータセット開発プラクティスの分析を提供する。
本稿では,ルーブリックとツールキットからなるデータセットドキュメンテーションの評価フレームワークを提案する。
結果は、環境のフットプリント、倫理的考慮、データ管理に関するドキュメントの必要性がさらに高まっていることを示している。
論文 参考訳(メタデータ) (2024-10-29T19:07:50Z) - A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。
データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。
より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:00:58Z) - An Efficient Contrastive Unimodal Pretraining Method for EHR Time Series Data [35.943089444017666]
本稿では,長期臨床経過データに適した比較事前学習法を提案する。
本モデルでは, 臨床医が患者の症状についてより深い知見を得られるように, 欠損測定をインプットする能力を示す。
論文 参考訳(メタデータ) (2024-10-11T19:05:25Z) - Data Proportion Detection for Optimized Data Management for Large Language Models [32.62631669919273]
我々は,事前学習データの割合の自動推定を可能にする新しいトピック,textitdata proportion Detectionを導入する。
データ比例検出のための厳密な理論的証明、実用的なアルゴリズム、予備実験結果を提供する。
論文 参考訳(メタデータ) (2024-09-26T04:30:32Z) - Controllable Synthetic Clinical Note Generation with Privacy Guarantees [7.1366477372157995]
本稿では、PHI(Personal Health Information)を含む「クローン」データセットに対する新しい手法を提案する。
我々のアプローチは、クローン化されたデータセットが患者のプライバシを損なうことなく、元のデータの本質的な特性と有用性を保っていることを保証します。
クローン化されたデータセットでトレーニングされた機械学習モデルの性能を評価するために,ユーティリティテストを実施している。
論文 参考訳(メタデータ) (2024-09-12T07:38:34Z) - Data Shapley in One Training Run [88.59484417202454]
Data Shapleyは、機械学習コンテキストにおけるデータのコントリビューションに寄与するための、原則化されたフレームワークを提供する。
既存のアプローチでは、計算集約的な異なるデータサブセット上の再学習モデルが必要である。
本稿では、対象とするデータモデルに対するスケーラブルなデータ属性を提供することにより、これらの制限に対処するIn-Run Data Shapleyを紹介する。
論文 参考訳(メタデータ) (2024-06-16T17:09:24Z) - Textual Data Augmentation for Patient Outcomes Prediction [67.72545656557858]
本稿では,患者の電子カルテに人工的な臨床ノートを作成するための新しいデータ拡張手法を提案する。
生成言語モデルGPT-2を微調整し、ラベル付きテキストを元のトレーニングデータで合成する。
今回,最も多い患者,すなわち30日間の寛解率について検討した。
論文 参考訳(メタデータ) (2022-11-13T01:07:23Z) - Efficient Medical Image Assessment via Self-supervised Learning [27.969767956918503]
高性能なディープラーニング手法は通常、大きな注釈付きトレーニングデータセットに依存する。
本稿では,未ラベルの医用画像データの品質をランク付けするための,新規で効率的なデータアセスメント戦略を提案する。
SSL埋め込み空間の理論的な意味から,我々はMasked Autoencoderを用いて特徴抽出を行う。
論文 参考訳(メタデータ) (2022-09-28T21:39:00Z) - Improved Fine-tuning by Leveraging Pre-training Data: Theory and
Practice [52.11183787786718]
対象データに事前学習されたモデルを微調整することは、多くのディープラーニングアプリケーションで広く利用されている。
近年の研究では、スクラッチからのトレーニングが、この事前トレーニング戦略に比較して、最終的なパフォーマンスを示すことが実証されている。
本稿では,対象タスクの一般化を改善するために,事前学習データからサブセットを選択する新しい選択戦略を提案する。
論文 参考訳(メタデータ) (2021-11-24T06:18:32Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z) - DeGAN : Data-Enriching GAN for Retrieving Representative Samples from a
Trained Classifier [58.979104709647295]
我々は、トレーニングされたネットワークの将来の学習タスクのために、利用可能なデータの豊富さと関連するデータの欠如の間のギャップを埋める。
利用可能なデータは、元のトレーニングデータセットまたは関連するドメインデータセットの不均衡なサブセットである可能性があるため、代表サンプルを検索するために使用します。
関連ドメインからのデータを活用して最先端のパフォーマンスを実現することを実証する。
論文 参考訳(メタデータ) (2019-12-27T02:05:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。