論文の概要: A Self-Supervised Paradigm for Data-Efficient Medical Foundation Model Pre-training: V-information Optimization Framework
- arxiv url: http://arxiv.org/abs/2408.07107v4
- Date: Sun, 06 Apr 2025 02:50:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 14:05:56.380496
- Title: A Self-Supervised Paradigm for Data-Efficient Medical Foundation Model Pre-training: V-information Optimization Framework
- Title(参考訳): データ効率の良い医療ファウンデーションモデル事前トレーニングのための自己改善パラダイム:V情報最適化フレームワーク
- Authors: Wenxuan Yang, Hanyu Zhang, Weimin Tan, Yuqi Sun, Bo Yan,
- Abstract要約: 大規模データセット上での自己教師付き事前トレーニング医療基盤モデルは、例外的なパフォーマンスを示す。
近年の研究では、データ効率のよい学習手法を導入して、この共通パラダイムに挑戦している。
本稿では, 基本モデルの自己教師型事前学習にV情報を導入し, サンプル選択の理論的基礎を提供する。
- 参考スコア(独自算出の注目度): 15.413974936297082
- License:
- Abstract: Self-supervised pre-training medical foundation models on large-scale datasets demonstrate exceptional performance. Recent research challenges this common paradigm by introducing data-effective learning approaches, demonstrating that merely increasing pre-training data volume does not necessarily improve model performance. However, current methods still have unclear standards and the underlying theoretical foundation remains unknown. In this paper, as the first attempt to address this limitation, we introduce V-information into self-supervised pre-training of foundation models to provide a theoretical foundation for sample selection. Our derivation confirms that by optimizing V-information, sample selection can be framed as an optimization problem where choosing diverse and challenging samples enhances model performance even under limited training data. Under this guidance, we develop an optimized data-effective learning method (OptiDEL) to optimize V-information in real-world medical domains by generating more diverse and harder samples. We compare the OptiDEL method with state-of-the-art approaches finding that OptiDEL consistently outperforms existing approaches across eight different datasets, with foundation models trained on only 5% of the pre-training data achieving up to 6.2% higher mIoU than those trained on the full dataset. Remarkably, OptiDEL demonstrates an average improvement of 4.7% mIoU over competing methods while using 20x less training data.
- Abstract(参考訳): 大規模データセット上での自己教師付き事前トレーニング医療基盤モデルは、例外的なパフォーマンスを示す。
最近の研究は、データ効率のよい学習手法を導入することでこの共通パラダイムに挑戦し、単に事前学習データ量を増やすだけでは必ずしもモデルの性能が向上しないことを示した。
しかし、現在の方法にはまだ明確な基準が残っており、基礎となる理論基盤はいまだに不明である。
本稿では, この制限に対処する最初の試みとして, 基本モデルの自己教師付き事前学習にV情報を導入し, サンプル選択の理論的基礎を提供する。
我々の導出は、V情報の最適化により、サンプル選択が、限られたトレーニングデータの下でも、多様で挑戦的なサンプルを選択することで、モデル性能を向上させる最適化問題としてフレーム化可能であることを確認している。
本研究では,より多様で複雑なサンプルを生成することにより,現実の医療領域におけるV情報の最適化を行うための最適化されたデータ効率学習法(OptiDEL)を開発した。
我々は、OptiDEL法と最先端のアプローチを比較し、OptiDELは8つの異なるデータセットで既存のアプローチを一貫して上回り、トレーニング前のデータの5%しかトレーニングされていない基礎モデルは、完全なデータセットでトレーニングされたものよりも最大6.2%高いmIoUを達成する。
注目すべきは、OptiDELは、20倍少ないトレーニングデータを使用しながら、競合する手法よりも平均4.7% mIoUの改善を示すことである。
関連論文リスト
- Optimize Cardinality Estimation Model Pretraining by Simplifying the Training Datasets [0.0]
既存の事前学習データセットのごく一部に縮小された簡易なトレーニングデータセットを導入する。
この単純化されたデータセットに基づく事前訓練された濃度推定器は、ゼロショット設定で既存のモデルに匹敵する性能を達成できることを示す十分な実験結果が得られた。
論文 参考訳(メタデータ) (2025-02-20T08:06:16Z) - Optimizing LLMs with Direct Preferences: A Data Efficiency Perspective [4.548047308860141]
本研究では,異なる種類の嗜好データがモデル性能に与える影響について検討する。
収集に費用がかかる大量の好みデータへの依存を減らすことを目的としている。
論文 参考訳(メタデータ) (2024-10-22T00:11:41Z) - A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。
データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。
より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:00:58Z) - Rejection Sampling IMLE: Designing Priors for Better Few-Shot Image
Synthesis [7.234618871984921]
新たな研究分野は、限られたトレーニングデータで深層生成モデルを学ぶことを目的としている。
トレーニングに使用する事前分布を変更する新しいアプローチであるRS-IMLEを提案する。
これにより、既存のGANやIMLEベースの手法に比べて画質が大幅に向上する。
論文 参考訳(メタデータ) (2024-09-26T00:19:42Z) - Data Shapley in One Training Run [88.59484417202454]
Data Shapleyは、機械学習コンテキストにおけるデータのコントリビューションに寄与するための、原則化されたフレームワークを提供する。
既存のアプローチでは、計算集約的な異なるデータサブセット上の再学習モデルが必要である。
本稿では、対象とするデータモデルに対するスケーラブルなデータ属性を提供することにより、これらの制限に対処するIn-Run Data Shapleyを紹介する。
論文 参考訳(メタデータ) (2024-06-16T17:09:24Z) - Rethinking Overlooked Aspects in Vision-Language Models [32.525916879333145]
近年の視覚言語モデル(LVLM)の進歩は顕著である。
最近の研究は、モデルの性能を向上させるために、事前学習と指導のチューニングデータの導入に重点を置いている。
本稿では,事前学習におけるデータ効率の非無視的な側面と,トレーニングデータセットの選択過程について述べる。
論文 参考訳(メタデータ) (2024-05-20T07:53:41Z) - How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。
Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。
何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文 参考訳(メタデータ) (2024-02-15T02:27:57Z) - Towards Accelerated Model Training via Bayesian Data Selection [45.62338106716745]
本稿では,モデルの一般化損失に対するデータの影響を調べることによって,より合理的なデータ選択原理を提案する。
近年の研究では、モデルの一般化損失に対するデータの影響を調べることによって、より合理的なデータ選択の原則が提案されている。
この研究は、軽量ベイズ処理を活用し、大規模な事前訓練モデル上に構築された既製のゼロショット予測器を組み込むことにより、これらの問題を解決する。
論文 参考訳(メタデータ) (2023-08-21T07:58:15Z) - Universal Domain Adaptation from Foundation Models: A Baseline Study [58.51162198585434]
基礎モデルを用いた最先端UniDA手法の実証的研究を行った。
CLIPモデルからターゲット知識を抽出するためのパラメータフリーな手法であるtextitCLIP 蒸留を導入する。
単純な手法ではあるが、ほとんどのベンチマークタスクでは従来の手法よりも優れている。
論文 参考訳(メタデータ) (2023-05-18T16:28:29Z) - Self-Distillation for Further Pre-training of Transformers [83.84227016847096]
我々は、さらなる事前学習段階の正則化として自己蒸留を提案する。
画像およびテキスト分類タスクのための様々なベンチマークデータセットにおける自己蒸留の有効性を実証的に検証する。
論文 参考訳(メタデータ) (2022-09-30T02:25:12Z) - Improved Fine-tuning by Leveraging Pre-training Data: Theory and
Practice [52.11183787786718]
対象データに事前学習されたモデルを微調整することは、多くのディープラーニングアプリケーションで広く利用されている。
近年の研究では、スクラッチからのトレーニングが、この事前トレーニング戦略に比較して、最終的なパフォーマンスを示すことが実証されている。
本稿では,対象タスクの一般化を改善するために,事前学習データからサブセットを選択する新しい選択戦略を提案する。
論文 参考訳(メタデータ) (2021-11-24T06:18:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。