論文の概要: MedVAE: Efficient Automated Interpretation of Medical Images with Large-Scale Generalizable Autoencoders
- arxiv url: http://arxiv.org/abs/2502.14753v1
- Date: Thu, 20 Feb 2025 17:24:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-21 14:28:42.190697
- Title: MedVAE: Efficient Automated Interpretation of Medical Images with Large-Scale Generalizable Autoencoders
- Title(参考訳): MedVAE:大規模汎用オートエンコーダを用いた医用画像の効率的な自動解釈
- Authors: Maya Varma, Ashwin Kumar, Rogier van der Sluijs, Sophie Ostmeier, Louis Blankemeier, Pierre Chambon, Christian Bluethgen, Jip Prince, Curtis Langlotz, Akshay Chaudhari,
- Abstract要約: MedVAEは6つの大規模2Dおよび3Dオートエンコーダのファミリーで、医療画像の符号化を小型の潜伏表現として行うことができる。
MedVAE オートエンコーダを 1,052,730 個の医用画像を用いた新しい2段階トレーニング手法を用いて訓練する。
- 参考スコア(独自算出の注目度): 4.509302286673322
- License:
- Abstract: Medical images are acquired at high resolutions with large fields of view in order to capture fine-grained features necessary for clinical decision-making. Consequently, training deep learning models on medical images can incur large computational costs. In this work, we address the challenge of downsizing medical images in order to improve downstream computational efficiency while preserving clinically-relevant features. We introduce MedVAE, a family of six large-scale 2D and 3D autoencoders capable of encoding medical images as downsized latent representations and decoding latent representations back to high-resolution images. We train MedVAE autoencoders using a novel two-stage training approach with 1,052,730 medical images. Across diverse tasks obtained from 20 medical image datasets, we demonstrate that (1) utilizing MedVAE latent representations in place of high-resolution images when training downstream models can lead to efficiency benefits (up to 70x improvement in throughput) while simultaneously preserving clinically-relevant features and (2) MedVAE can decode latent representations back to high-resolution images with high fidelity. Our work demonstrates that large-scale, generalizable autoencoders can help address critical efficiency challenges in the medical domain. Our code is available at https://github.com/StanfordMIMI/MedVAE.
- Abstract(参考訳): 医用画像は, 臨床診断に必要な微細な特徴を捉えるために, 広い視野で高解像度で取得される。
これにより、医用画像の深層学習モデルを訓練することで、膨大な計算コストを発生させることができる。
本研究は,臨床関連特徴を保存しつつ,下流の計算効率を向上させるために,医用画像の縮小を課題とするものである。
MedVAEは6つの大規模2Dおよび3Dオートエンコーダのファミリーで、医療画像を小型の潜伏表現として符号化し、潜伏表現を高解像度の画像に復号することができる。
MedVAE オートエンコーダを 1,052,730 個の医用画像を用いた新しい2段階トレーニング手法を用いて訓練する。
20の医用画像データセットから得られた多種多様なタスクに対して,(1)下流モデルのトレーニングにおいて,高解像度画像の代わりにMedVAEの潜在表現を利用することで,同時に臨床的に関連性のある特徴を保存し,(2)高解像度画像を高解像度画像に復号することが可能であることを実証した。
我々の研究は、大規模で一般化可能なオートエンコーダが、医療領域における重要な効率上の課題に対処するのに役立つことを実証している。
私たちのコードはhttps://github.com/StanfordMIMI/MedVAE.comで利用可能です。
関連論文リスト
- LoGra-Med: Long Context Multi-Graph Alignment for Medical Vision-Language Model [55.80651780294357]
最新の医療用マルチモーダル大規模言語モデル(med-MLLM)は、事前訓練において命令追従データを活用する。
LoGra-Medは新しいマルチグラフアライメントアルゴリズムで、画像のモダリティ、会話ベースの記述、拡張キャプション間でのトリプルト相関を強制する。
以上の結果から,LoGra-Medは医療用VQAの600K画像テキスト対に対してLAVA-Medと一致し,その10%でトレーニングした場合に有意に優れていた。
論文 参考訳(メタデータ) (2024-10-03T15:52:03Z) - UIT-DarkCow team at ImageCLEFmedical Caption 2024: Diagnostic Captioning for Radiology Images Efficiency with Transformer Models [0.0]
本研究は, 診断キャプション(診断キャプション)と呼ばれる放射線画像からの自動テキスト生成の開発に焦点をあてる。
目的は、報告の質と効率を高めるツールを提供することであり、臨床実習とディープラーニング研究の両方に大きな影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2024-05-27T09:46:09Z) - End-to-end autoencoding architecture for the simultaneous generation of
medical images and corresponding segmentation masks [3.1133049660590615]
ハミルトン変分オートエンコーダ(HVAE)に基づくエンドツーエンドアーキテクチャを提案する。
従来の変分オートエンコーダ(VAE)と比較して後部分布近似が向上する。
本手法は, 生成的逆境条件より優れ, 画像品質の向上を示す。
論文 参考訳(メタデータ) (2023-11-17T11:56:53Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - Customizing General-Purpose Foundation Models for Medical Report
Generation [64.31265734687182]
ラベル付き医用画像-レポートペアの不足は、ディープニューラルネットワークや大規模ニューラルネットワークの開発において大きな課題となっている。
本稿では,コンピュータビジョンと自然言語処理の基盤モデル (FM) として,市販の汎用大規模事前学習モデルのカスタマイズを提案する。
論文 参考訳(メタデータ) (2023-06-09T03:02:36Z) - Medical visual question answering using joint self-supervised learning [8.817054025763325]
エンコーダは、自己アテンション機構で画像-テキスト二重モードに埋め込まれる。
デコーダはエンコーダの上部に接続され、小型の医療用VQAデータセットを使用して微調整される。
論文 参考訳(メタデータ) (2023-02-25T12:12:22Z) - MedSegDiff-V2: Diffusion based Medical Image Segmentation with
Transformer [53.575573940055335]
我々は、MedSegDiff-V2と呼ばれるトランスフォーマーベースの拡散フレームワークを提案する。
画像の異なる20種類の画像分割作業において,その有効性を検証する。
論文 参考訳(メタデータ) (2023-01-19T03:42:36Z) - Attentive Symmetric Autoencoder for Brain MRI Segmentation [56.02577247523737]
視覚変換器(ViT)をベースとした3次元脳MRIセグメンテーションタスクのための新しいアテンテーティブシンメトリオートエンコーダを提案する。
事前学習の段階では、提案するオートエンコーダがより注意を払って、勾配測定値に従って情報パッチを再構築する。
実験の結果,提案手法は最先端の自己教師付き学習法や医用画像分割モデルよりも優れていた。
論文 参考訳(メタデータ) (2022-09-19T09:43:19Z) - Masked Autoencoders Are Scalable Vision Learners [60.97703494764904]
Masked Autoencoders (MAE) は、コンピュータビジョンのためのスケーラブルな自己教師型学習システムである。
我々は入力画像のランダムなパッチを隠蔽し、欠落したピクセルを再構成する。
これら2つの設計を結合することで,大規模モデルを効率的かつ効率的にトレーニングすることが可能になります。
論文 参考訳(メタデータ) (2021-11-11T18:46:40Z) - MMBERT: Multimodal BERT Pretraining for Improved Medical VQA [23.78515287446131]
NLP,ビジョン,言語タスクのためのトランスフォーマースタイルアーキテクチャの自己教師型事前学習に着想を得たソリューションを提案する。
Masked Language Modeling を用いて、よりリッチな医療画像とテキスト意味表現を学習する手法です。
このソリューションは、放射線画像用の2つのVQAデータセットで最新のパフォーマンスを実現します。
論文 参考訳(メタデータ) (2021-04-03T13:01:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。