論文の概要: Embracing Massive Medical Data
- arxiv url: http://arxiv.org/abs/2407.04687v1
- Date: Fri, 5 Jul 2024 17:50:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-08 12:31:56.265293
- Title: Embracing Massive Medical Data
- Title(参考訳): 大量医療データの導入
- Authors: Yu-Cheng Chou, Zongwei Zhou, Alan Yuille,
- Abstract要約: 大規模医療データからAIを訓練するオンライン学習手法を提案する。
提案手法は,データの特異性と予測の不確実性に基づいて,現在のAIモデルの最も重要なサンプルを同定する。
一般的なトレーニングパラダイムと比較して,本手法は連続的なデータストリームのトレーニングを可能にすることにより,データ効率を向上させるだけでなく,破滅的な忘れを緩和する。
- 参考スコア(独自算出の注目度): 8.458637345001758
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As massive medical data become available with an increasing number of scans, expanding classes, and varying sources, prevalent training paradigms -- where AI is trained with multiple passes over fixed, finite datasets -- face significant challenges. First, training AI all at once on such massive data is impractical as new scans/sources/classes continuously arrive. Second, training AI continuously on new scans/sources/classes can lead to catastrophic forgetting, where AI forgets old data as it learns new data, and vice versa. To address these two challenges, we propose an online learning method that enables training AI from massive medical data. Instead of repeatedly training AI on randomly selected data samples, our method identifies the most significant samples for the current AI model based on their data uniqueness and prediction uncertainty, then trains the AI on these selective data samples. Compared with prevalent training paradigms, our method not only improves data efficiency by enabling training on continual data streams, but also mitigates catastrophic forgetting by selectively training AI on significant data samples that might otherwise be forgotten, outperforming by 15% in Dice score for multi-organ and tumor segmentation. The code is available at https://github.com/MrGiovanni/OnlineLearning
- Abstract(参考訳): 大量の医療データがスキャンやクラスの拡大、さまざまなソースで利用可能になるにつれ、AIが固定された有限データセットを越えて複数のパスでトレーニングされる一般的なトレーニングパラダイムは、重大な課題に直面している。
まず、このような膨大なデータでAIを一度に訓練することは、新しいスキャン/ソース/クラスが継続的に到着するので、現実的ではありません。
第二に、AIを新しいスキャン/ソース/クラスで継続的に訓練することは、破滅的な忘れを招きかねない。
これら2つの課題に対処するために,大規模な医療データからAIをトレーニングするオンライン学習手法を提案する。
ランダムに選択されたデータサンプルに対してAIを繰り返し訓練する代わりに、我々の方法は、そのデータユニークさと予測の不確実性に基づいて、現在のAIモデルの最も重要なサンプルを特定し、これらの選択されたデータサンプルに対してAIを訓練する。
一般的なトレーニングパラダイムと比較して,本手法は連続的なデータストリームのトレーニングを可能にすることで,データ効率を向上させるだけでなく,忘れられる可能性のある重要なデータサンプルに対してAIを選択的にトレーニングすることで,破滅的な忘れを軽減し,多臓器・腫瘍セグメンテーションにおけるDiceスコアの15%を上回った。
コードはhttps://github.com/MrGiovanni/OnlineLearningで公開されている。
関連論文リスト
- Leveraging Skills from Unlabeled Prior Data for Efficient Online Exploration [54.8229698058649]
本研究では,未ラベルの事前軌跡データを用いて効率的な探索戦略を学習する方法について検討する。
我々の手法 SUPE (Skills from Unlabeled Prior Data for Exploration) は、これらのアイデアの慎重な組み合わせがそれらの利点を兼ね備えていることを示す。
実験により,SUPEが従来の戦略を確実に上回り,長い水平・スパース・リワードタスクの一組の解決に成功したことを実証的に示す。
論文 参考訳(メタデータ) (2024-10-23T17:58:45Z) - Efficient Online Data Mixing For Language Model Pre-Training [101.45242332613944]
既存のデータ選択方法は、遅くて計算コストのかかるプロセスに悩まされる。
一方、データミキシングは、データポイントをまとめることで、データ選択の複雑さを低減する。
我々は,データ選択とデータ混合の両要素を組み合わせたオンラインデータ混合(ODM)の効率的なアルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-12-05T00:42:35Z) - CovarNav: Machine Unlearning via Model Inversion and Covariance
Navigation [11.222501077070765]
機械学習は、訓練されたモデルに対する特定のトレーニングデータポイントの影響を選択的に除去する重要なテクニックとして登場した。
我々は,このことを忘れないように,CovarNavという3段階のプロセスを導入する。
CIFAR-10とVggface2データセット上でCovarNavを厳格に評価する。
論文 参考訳(メタデータ) (2023-11-21T21:19:59Z) - Efficient Grammatical Error Correction Via Multi-Task Training and
Optimized Training Schedule [55.08778142798106]
原文と修正文のアライメントを利用する補助タスクを提案する。
我々は,各タスクをシーケンス・ツー・シーケンス問題として定式化し,マルチタスク・トレーニングを行う。
トレーニングに使用されるデータセットの順序や、データセット内の個々のインスタンスでさえ、最終的なパフォーマンスに重要な影響を与える可能性があることが分かりました。
論文 参考訳(メタデータ) (2023-11-20T14:50:12Z) - Contrastive Deep Encoding Enables Uncertainty-aware
Machine-learning-assisted Histopathology [6.548275341067594]
テラバイトのトレーニングデータを意識的に深層ネットワークにプリトレーニングして情報表現を符号化することができる。
提案手法は,ランダムに選択されたアノテーションが1~10%しかないパッチレベルの分類において,最先端のSOTA(State-of-the-art)に到達可能であることを示す。
論文 参考訳(メタデータ) (2023-09-13T17:37:19Z) - D4: Improving LLM Pretraining via Document De-Duplication and
Diversification [38.84592304799403]
事前訓練されたモデル埋め込みによる慎重なデータ選択は、トレーニングをスピードアップできることを示す。
また、データ繰り返しがベースライントレーニングよりインテリジェントに優れていることも示しています。
論文 参考訳(メタデータ) (2023-08-23T17:58:14Z) - Application of Federated Learning in Building a Robust COVID-19 Chest
X-ray Classification Model [0.0]
フェデレートラーニング(FL)は、すべてのデータを中央サーバに移動させることなく、AIモデルの一般化を支援する。
我々は、新型コロナウイルスの有無を予測するバイナリ分類問題を解決するために、ディープラーニングモデルを訓練した。
論文 参考訳(メタデータ) (2022-04-22T05:21:50Z) - When Accuracy Meets Privacy: Two-Stage Federated Transfer Learning
Framework in Classification of Medical Images on Limited Data: A COVID-19
Case Study [77.34726150561087]
新型コロナウイルスのパンデミックが急速に広がり、世界の医療資源が不足している。
CNNは医療画像の解析に広く利用され、検証されている。
論文 参考訳(メタデータ) (2022-03-24T02:09:41Z) - Practical Challenges in Differentially-Private Federated Survival
Analysis of Medical Data [57.19441629270029]
本稿では,ニューラルネットワークの本質的特性を活用し,生存分析モデルの訓練過程を関連づける。
小さな医療データセットと少数のデータセンターの現実的な設定では、このノイズはモデルを収束させるのが難しくなります。
DPFed-post は,私的フェデレート学習方式に後処理の段階を追加する。
論文 参考訳(メタデータ) (2022-02-08T10:03:24Z) - Human-Expert-Level Brain Tumor Detection Using Deep Learning with Data
Distillation and Augmentation [6.78974856327994]
深層学習の医学的診断への応用は、しばしば2つの問題によって妨げられる。
第一に、診断対象の患者数によって制限されるため、トレーニングデータの量が少ない場合がある。
第2に、トレーニングデータは様々な種類のノイズによって破損する可能性がある。
論文 参考訳(メタデータ) (2020-06-17T15:52:28Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。