論文の概要: Training a high-performance retinal foundation model with half-the-data and 400 times less compute
- arxiv url: http://arxiv.org/abs/2405.00117v1
- Date: Tue, 30 Apr 2024 18:08:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-02 17:26:02.475761
- Title: Training a high-performance retinal foundation model with half-the-data and 400 times less compute
- Title(参考訳): 半データと400倍の計算量を持つ高性能網膜基礎モデルの訓練
- Authors: Justin Engelmann, Miguel O. Bernabeu,
- Abstract要約: ムーアフィールドズアイ病院(MEH)の研究者たちは、網膜イメージングの基礎モデルであるRETFound-MEHを提案した。
近年,データ効率のよいDERETFoundが提案されている。
本稿では,75,000枚しか公開されていない画像と400倍の計算量でトレーニングされた網膜基盤モデルであるRETFound-Greenのトレーニングに使用する,新しいToken Restructionの目標を提案する。
- 参考スコア(独自算出の注目度): 1.6574413179773761
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Artificial Intelligence holds tremendous potential in medicine, but is traditionally limited by the lack of massive datasets to train models on. Foundation models, pre-trained models that can be adapted to downstream tasks with small datasets, could alleviate this problem. Researchers at Moorfields Eye Hospital (MEH) proposed RETFound-MEH, a foundation model for retinal imaging that was trained on 900,000 images, including private hospital data. Recently, data-efficient DERETFound was proposed that provides comparable performance while being trained on only 150,000 images that are all publicly available. However, both these models required very substantial resources to train initially and are resource-intensive in downstream use. We propose a novel Token Reconstruction objective that we use to train RETFound-Green, a retinal foundation model trained using only 75,000 publicly available images and 400 times less compute. We estimate the cost of training RETFound-MEH and DERETFound at $10,000 and $14,000, respectively, while RETFound-Green could be trained for less than $100, with equally reduced environmental impact. RETFound-Green is also far more efficient in downstream use: it can be downloaded 14 times faster, computes vector embeddings 2.7 times faster which then require 2.6 times less storage space. Despite this, RETFound-Green does not perform systematically worse. In fact, it performs best on 14 tasks, compared to six for DERETFound and two for RETFound-MEH. Our results suggest that RETFound-Green is a very efficient, high-performance retinal foundation model. We anticipate that our Token Reconstruction objective could be scaled up for even higher performance and be applied to other domains beyond retinal imaging.
- Abstract(参考訳): 人工知能は医学において大きな可能性を秘めているが、従来は、モデルを訓練する大量のデータセットが不足していたため限られていた。
ファンデーションモデルは、小さなデータセットで下流タスクに適応できる事前訓練されたモデルであり、この問題を軽減する可能性がある。
ムーアフィールドズアイ病院(MEH)の研究者たちは、網膜イメージングの基礎モデルであるRETFound-MEHを提案した。
近年,データ効率のよいDERETFoundが提案されている。
しかし、これら2つのモデルは、当初トレーニングするために非常に重要なリソースを必要とし、下流での使用にリソースが集中していた。
本稿では,75,000枚しか公開されていない画像と400倍の計算量でトレーニングされた網膜基盤モデルであるRETFound-Greenのトレーニングに使用する,新しいToken Restructionの目標を提案する。
我々は,RETFound-MEHとDERETFoundをそれぞれ1万ドル,DERETFoundを1万4000ドルで,RETFound-Greenは100ドル未満で,環境への影響も等しく低減した。
ダウンロード速度は14倍、ベクトル埋め込みは2.7倍、ストレージ容量は2.6倍である。
それにもかかわらず、RETFound-Greenは体系的に悪いパフォーマンスをしない。
実際、DERETFoundでは6つ、RETFound-MEHでは2つと、14のタスクで最高に機能する。
以上の結果から,RETFound-Greenは非常に効率的で高性能な網膜基盤モデルであることが示唆された。
われわれは、Token Restructionの目的を、さらに高いパフォーマンスのためにスケールアップし、網膜画像以外の他の領域にも適用できることを期待している。
関連論文リスト
- Accessing Vision Foundation Models at ImageNet-level Costs [51.521125501182816]
Proteusは、驚くべき能力でImageNetレベルのコストでトレーニングされている。
Proteus-L/14は、OracleのメソッドであるDINOv2-L/14のパフォーマンスを15ベンチマークで比較する。
論文 参考訳(メタデータ) (2024-07-15T00:13:53Z) - Less Could Be Better: Parameter-efficient Fine-tuning Advances Medical
Vision Foundation Models [71.18275399694689]
医療視基盤モデルにおけるPEFTの有効性はまだ不明である。
NIH ChestX-ray14のラベル付きデータを用いたAUROCスコアの80.6%など,さまざまなデータ効率の学習タスクに対して,新たな最先端技術を構築した。
本研究は, PEFTを用いた医用画像の伝達学習において, コミュニティの注目を集めることが期待できる。
論文 参考訳(メタデータ) (2024-01-22T18:59:07Z) - BK-SDM: A Lightweight, Fast, and Cheap Version of Stable Diffusion [3.1092085121563526]
安定拡散モデル(SDM)を用いたテキスト・ツー・イメージ(T2I)生成は高い計算要求を伴う。
近年の研究では、サンプリングのステップを減らし、元のアーキテクチャを維持しながらネットワーク量子化を適用している。
低コスト汎用T2Iにおけるブロックプレーニングと特徴蒸留の驚くべき可能性を明らかにする。
論文 参考訳(メタデータ) (2023-05-25T07:28:28Z) - Pre-train and Search: Efficient Embedding Table Sharding with
Pre-trained Neural Cost Models [56.65200574282804]
効率的なシャーディングのための「事前訓練・探索」パラダイムを提案する。
NeuroShardは、さまざまなシャーディングシナリオをカバーするために、拡張テーブル上のニューラルコストモデルをトレーニングする。
NeuroShardは、ベンチマークシャーディングデータセットの最先端を著しく、一貫して上回る。
論文 参考訳(メタデータ) (2023-05-03T02:52:03Z) - Neurogenesis Dynamics-inspired Spiking Neural Network Training
Acceleration [25.37391055865312]
スパイキングニューラルネットワーク(SNN)は、極めてエネルギー効率のよいマシンインテリジェンスを提供する能力に対して、大きな注目を集めている。
ニューロジェネレーション・ダイナミクスにインスパイアされたスパイキングニューラルネットワークトレーニング・アクセラレーション・フレームワークであるNDSNNを提案する。
我々のフレームワークは計算効率が高く、モデルの忠実さを犠牲にすることなく、スクラッチから動的間隔でモデルを訓練する。
論文 参考訳(メタデータ) (2023-04-24T15:54:22Z) - InternImage: Exploring Large-Scale Vision Foundation Models with
Deformable Convolutions [95.94629864981091]
この研究は、パラメータの増加やViTsのようなトレーニングデータから得られるインターンイメージと呼ばれる、CNNベースの新しい大規模ファンデーションモデルを提案する。
提案されたInternImageは、従来のCNNの厳格な帰納バイアスを低減し、ViTのような大規模データから、より強く堅牢なパターンを学習できるようにする。
論文 参考訳(メタデータ) (2022-11-10T18:59:04Z) - Learning from few examples: Classifying sex from retinal images via deep
learning [3.9146761527401424]
基礎画像から患者の性別を分類するために,小データセット上でのDLの性能について紹介する。
約2500基の画像を用いて開発した本モデルでは,最大0.72点のAUCスコアが得られた。
これは、データセットサイズが1000倍近く減少しているにもかかわらず、わずか25%のパフォーマンス低下に相当する。
論文 参考訳(メタデータ) (2022-07-20T02:47:29Z) - Ultra-Data-Efficient GAN Training: Drawing A Lottery Ticket First, Then
Training It Toughly [114.81028176850404]
限られたデータでGAN(generative adversarial network)を訓練すると、一般的に性能が低下し、モデルが崩壊する。
データハングリーGANトレーニングを2つのシーケンシャルサブプロブレムに分解する。
このような協調フレームワークにより、より低い複雑さとよりデータ効率のよいサブ問題に集中することができます。
論文 参考訳(メタデータ) (2021-02-28T05:20:29Z) - AttentiveNAS: Improving Neural Architecture Search via Attentive
Sampling [39.58754758581108]
2段階のニューラルネットワーク探索(NAS)は、顕著な精度と効率を達成する。
2段階のNASは、トレーニング中に探索空間からのサンプリングを必要とし、最終的な探索モデルの精度に直接影響を及ぼす。
本稿では,より優れたパレートを実現するため,サンプリング戦略の改善に焦点を当てたAttentiveNASを提案する。
発見されたモデルファミリであるAttentiveNASは、ImageNet上で77.3%から80.7%の精度でトップ1の精度を実現し、BigNASやOne-for-Allネットワークを含むSOTAモデルより優れています。
論文 参考訳(メタデータ) (2020-11-18T00:15:23Z) - Winning Lottery Tickets in Deep Generative Models [64.79920299421255]
本稿では,GANやVAEなどの深層生成モデルにおいて,入賞チケットの存在を示す。
また、異なる生成モデル間での当選チケットの転送可能性を示す。
論文 参考訳(メタデータ) (2020-10-05T21:45:39Z) - Towards Crowdsourced Training of Large Neural Networks using
Decentralized Mixture-of-Experts [10.051309746913512]
Learning@homeは、大量の未接続の参加者を扱うように設計された、新しいニューラルネットワークトレーニングパラダイムである。
我々は,このパラダイムの性能,信頼性,アーキテクチャ上の制約を分析し,既存の分散トレーニング手法と比較する。
論文 参考訳(メタデータ) (2020-02-10T18:39:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。