Fugu-MT 論文翻訳(概要): Training a high-performance retinal foundation model with half-the-data and 400 times less compute

論文の概要: Training a high-performance retinal foundation model with half-the-data and 400 times less compute

arxiv url: http://arxiv.org/abs/2405.00117v1
Date: Tue, 30 Apr 2024 18:08:08 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-02 17:26:02.475761
Title: Training a high-performance retinal foundation model with half-the-data and 400 times less compute
Title（参考訳）: 半データと400倍の計算量を持つ高性能網膜基礎モデルの訓練
Authors: Justin Engelmann, Miguel O. Bernabeu,
Abstract要約: ムーアフィールドズアイ病院(MEH)の研究者たちは、網膜イメージングの基礎モデルであるRETFound-MEHを提案した。近年,データ効率のよいDERETFoundが提案されている。本稿では,75,000枚しか公開されていない画像と400倍の計算量でトレーニングされた網膜基盤モデルであるRETFound-Greenのトレーニングに使用する,新しいToken Restructionの目標を提案する。
参考スコア（独自算出の注目度）: 1.6574413179773761
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Artificial Intelligence holds tremendous potential in medicine, but is traditionally limited by the lack of massive datasets to train models on. Foundation models, pre-trained models that can be adapted to downstream tasks with small datasets, could alleviate this problem. Researchers at Moorfields Eye Hospital (MEH) proposed RETFound-MEH, a foundation model for retinal imaging that was trained on 900,000 images, including private hospital data. Recently, data-efficient DERETFound was proposed that provides comparable performance while being trained on only 150,000 images that are all publicly available. However, both these models required very substantial resources to train initially and are resource-intensive in downstream use. We propose a novel Token Reconstruction objective that we use to train RETFound-Green, a retinal foundation model trained using only 75,000 publicly available images and 400 times less compute. We estimate the cost of training RETFound-MEH and DERETFound at $10,000 and $14,000, respectively, while RETFound-Green could be trained for less than $100, with equally reduced environmental impact. RETFound-Green is also far more efficient in downstream use: it can be downloaded 14 times faster, computes vector embeddings 2.7 times faster which then require 2.6 times less storage space. Despite this, RETFound-Green does not perform systematically worse. In fact, it performs best on 14 tasks, compared to six for DERETFound and two for RETFound-MEH. Our results suggest that RETFound-Green is a very efficient, high-performance retinal foundation model. We anticipate that our Token Reconstruction objective could be scaled up for even higher performance and be applied to other domains beyond retinal imaging.
Abstract（参考訳）: 人工知能は医学において大きな可能性を秘めているが、従来は、モデルを訓練する大量のデータセットが不足していたため限られていた。ファンデーションモデルは、小さなデータセットで下流タスクに適応できる事前訓練されたモデルであり、この問題を軽減する可能性がある。ムーアフィールドズアイ病院(MEH)の研究者たちは、網膜イメージングの基礎モデルであるRETFound-MEHを提案した。近年,データ効率のよいDERETFoundが提案されている。しかし、これら2つのモデルは、当初トレーニングするために非常に重要なリソースを必要とし、下流での使用にリソースが集中していた。本稿では,75,000枚しか公開されていない画像と400倍の計算量でトレーニングされた網膜基盤モデルであるRETFound-Greenのトレーニングに使用する,新しいToken Restructionの目標を提案する。我々は,RETFound-MEHとDERETFoundをそれぞれ1万ドル,DERETFoundを1万4000ドルで,RETFound-Greenは100ドル未満で,環境への影響も等しく低減した。ダウンロード速度は14倍、ベクトル埋め込みは2.7倍、ストレージ容量は2.6倍である。それにもかかわらず、RETFound-Greenは体系的に悪いパフォーマンスをしない。実際、DERETFoundでは6つ、RETFound-MEHでは2つと、14のタスクで最高に機能する。以上の結果から,RETFound-Greenは非常に効率的で高性能な網膜基盤モデルであることが示唆された。われわれは、Token Restructionの目的を、さらに高いパフォーマンスのためにスケールアップし、網膜画像以外の他の領域にも適用できることを期待している。

関連論文リスト

Accessing Vision Foundation Models at ImageNet-level Costs [51.521125501182816]
Proteusは、驚くべき能力でImageNetレベルのコストでトレーニングされている。 Proteus-L/14は、OracleのメソッドであるDINOv2-L/14のパフォーマンスを15ベンチマークで比較する。
論文参考訳（メタデータ） (2024-07-15T00:13:53Z)
ECoDepth: Effective Conditioning of Diffusion Models for Monocular Depth Estimation [5.179738379203527]
パララックスの手がかりがない場合、学習に基づく単一画像深度推定モデルは、画像のシェーディングと文脈的手がかりに大きく依存する。このようなモデルを、キャプチャが難しい大規模で多様なデータセットでトレーニングする必要がある。 CLIPのようなトレーニング済みの基礎モデルからの埋め込みを使用することで、いくつかのアプリケーションにおけるゼロショット転送が改善される。
論文参考訳（メタデータ） (2024-03-27T17:53:30Z)
Less Could Be Better: Parameter-efficient Fine-tuning Advances Medical Vision Foundation Models [71.18275399694689]
医療視基盤モデルにおけるPEFTの有効性はまだ不明である。 NIH ChestX-ray14のラベル付きデータを用いたAUROCスコアの80.6%など,さまざまなデータ効率の学習タスクに対して,新たな最先端技術を構築した。本研究は, PEFTを用いた医用画像の伝達学習において, コミュニティの注目を集めることが期待できる。
論文参考訳（メタデータ） (2024-01-22T18:59:07Z)
BK-SDM: A Lightweight, Fast, and Cheap Version of Stable Diffusion [3.1092085121563526]
安定拡散モデル(SDM)を用いたテキスト・ツー・イメージ(T2I)生成は高い計算要求を伴う。近年の研究では、サンプリングのステップを減らし、元のアーキテクチャを維持しながらネットワーク量子化を適用している。低コスト汎用T2Iにおけるブロックプレーニングと特徴蒸留の驚くべき可能性を明らかにする。
論文参考訳（メタデータ） (2023-05-25T07:28:28Z)
Pre-train and Search: Efficient Embedding Table Sharding with Pre-trained Neural Cost Models [56.65200574282804]
効率的なシャーディングのための「事前訓練・探索」パラダイムを提案する。 NeuroShardは、さまざまなシャーディングシナリオをカバーするために、拡張テーブル上のニューラルコストモデルをトレーニングする。 NeuroShardは、ベンチマークシャーディングデータセットの最先端を著しく、一貫して上回る。
論文参考訳（メタデータ） (2023-05-03T02:52:03Z)
Neurogenesis Dynamics-inspired Spiking Neural Network Training Acceleration [25.37391055865312]
スパイキングニューラルネットワーク(SNN)は、極めてエネルギー効率のよいマシンインテリジェンスを提供する能力に対して、大きな注目を集めている。ニューロジェネレーション・ダイナミクスにインスパイアされたスパイキングニューラルネットワークトレーニング・アクセラレーション・フレームワークであるNDSNNを提案する。我々のフレームワークは計算効率が高く、モデルの忠実さを犠牲にすることなく、スクラッチから動的間隔でモデルを訓練する。
論文参考訳（メタデータ） (2023-04-24T15:54:22Z)
InternImage: Exploring Large-Scale Vision Foundation Models with Deformable Convolutions [95.94629864981091]
この研究は、パラメータの増加やViTsのようなトレーニングデータから得られるインターンイメージと呼ばれる、CNNベースの新しい大規模ファンデーションモデルを提案する。提案されたInternImageは、従来のCNNの厳格な帰納バイアスを低減し、ViTのような大規模データから、より強く堅牢なパターンを学習できるようにする。
論文参考訳（メタデータ） (2022-11-10T18:59:04Z)
Generative Transfer Learning: Covid-19 Classification with a few Chest X-ray Images [0.0]
深層学習モデルは解釈を迅速化し、人間の専門家の仕事を軽減することができる。 Deep Transfer Learningは、パブリックドメインで事前訓練されたモデルを使用することで、この問題に対処する。本稿では,既存の大規模事前学習モデルと同様に,単一の概念に基づいて事前学習した簡易な生成源モデルを提案する。
論文参考訳（メタデータ） (2022-08-10T12:37:52Z)
Learning from few examples: Classifying sex from retinal images via deep learning [3.9146761527401424]
基礎画像から患者の性別を分類するために,小データセット上でのDLの性能について紹介する。約2500基の画像を用いて開発した本モデルでは,最大0.72点のAUCスコアが得られた。これは、データセットサイズが1000倍近く減少しているにもかかわらず、わずか25%のパフォーマンス低下に相当する。
論文参考訳（メタデータ） (2022-07-20T02:47:29Z)
BossNAS: Exploring Hybrid CNN-transformers with Block-wisely Self-supervised Neural Architecture Search [100.28980854978768]
BossNAS(Block-wisely Self-supervised Neural Architecture Search)の紹介探索空間をブロックに分類し、アンサンブルブートストラッピングと呼ばれる新しい自己教師型トレーニングスキームを用いて各ブロックを個別に訓練する。また,検索可能なダウンサンプリング位置を持つファブリック型cnnトランスフォーマ検索空間であるhytra search spaceを提案する。
論文参考訳（メタデータ） (2021-03-23T10:05:58Z)
Ultra-Data-Efficient GAN Training: Drawing A Lottery Ticket First, Then Training It Toughly [114.81028176850404]
限られたデータでGAN(generative adversarial network)を訓練すると、一般的に性能が低下し、モデルが崩壊する。データハングリーGANトレーニングを2つのシーケンシャルサブプロブレムに分解する。このような協調フレームワークにより、より低い複雑さとよりデータ効率のよいサブ問題に集中することができます。
論文参考訳（メタデータ） (2021-02-28T05:20:29Z)
Towards Crowdsourced Training of Large Neural Networks using Decentralized Mixture-of-Experts [10.051309746913512]
Learning@homeは、大量の未接続の参加者を扱うように設計された、新しいニューラルネットワークトレーニングパラダイムである。我々は,このパラダイムの性能,信頼性,アーキテクチャ上の制約を分析し,既存の分散トレーニング手法と比較する。
論文参考訳（メタデータ） (2020-02-10T18:39:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。