Fugu-MT 論文翻訳(概要): MedVAE: Efficient Automated Interpretation of Medical Images with Large-Scale Generalizable Autoencoders

論文の概要: MedVAE: Efficient Automated Interpretation of Medical Images with Large-Scale Generalizable Autoencoders

arxiv url: http://arxiv.org/abs/2502.14753v1
Date: Thu, 20 Feb 2025 17:24:06 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-21 22:18:11.770754
Title: MedVAE: Efficient Automated Interpretation of Medical Images with Large-Scale Generalizable Autoencoders
Title（参考訳）: MedVAE:大規模汎用オートエンコーダを用いた医用画像の効率的な自動解釈
Authors: Maya Varma, Ashwin Kumar, Rogier van der Sluijs, Sophie Ostmeier, Louis Blankemeier, Pierre Chambon, Christian Bluethgen, Jip Prince, Curtis Langlotz, Akshay Chaudhari,
Abstract要約: MedVAEは6つの大規模2Dおよび3Dオートエンコーダのファミリーで、医療画像の符号化を小型の潜伏表現として行うことができる。 MedVAE オートエンコーダを 1,052,730 個の医用画像を用いた新しい2段階トレーニング手法を用いて訓練する。
参考スコア（独自算出の注目度）: 4.509302286673322
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Medical images are acquired at high resolutions with large fields of view in order to capture fine-grained features necessary for clinical decision-making. Consequently, training deep learning models on medical images can incur large computational costs. In this work, we address the challenge of downsizing medical images in order to improve downstream computational efficiency while preserving clinically-relevant features. We introduce MedVAE, a family of six large-scale 2D and 3D autoencoders capable of encoding medical images as downsized latent representations and decoding latent representations back to high-resolution images. We train MedVAE autoencoders using a novel two-stage training approach with 1,052,730 medical images. Across diverse tasks obtained from 20 medical image datasets, we demonstrate that (1) utilizing MedVAE latent representations in place of high-resolution images when training downstream models can lead to efficiency benefits (up to 70x improvement in throughput) while simultaneously preserving clinically-relevant features and (2) MedVAE can decode latent representations back to high-resolution images with high fidelity. Our work demonstrates that large-scale, generalizable autoencoders can help address critical efficiency challenges in the medical domain. Our code is available at https://github.com/StanfordMIMI/MedVAE.
Abstract（参考訳）: 医用画像は, 臨床診断に必要な微細な特徴を捉えるために, 広い視野で高解像度で取得される。これにより、医用画像の深層学習モデルを訓練することで、膨大な計算コストを発生させることができる。本研究は,臨床関連特徴を保存しつつ,下流の計算効率を向上させるために,医用画像の縮小を課題とするものである。 MedVAEは6つの大規模2Dおよび3Dオートエンコーダのファミリーで、医療画像を小型の潜伏表現として符号化し、潜伏表現を高解像度の画像に復号することができる。 MedVAE オートエンコーダを 1,052,730 個の医用画像を用いた新しい2段階トレーニング手法を用いて訓練する。 20の医用画像データセットから得られた多種多様なタスクに対して,(1)下流モデルのトレーニングにおいて,高解像度画像の代わりにMedVAEの潜在表現を利用することで,同時に臨床的に関連性のある特徴を保存し,(2)高解像度画像を高解像度画像に復号することが可能であることを実証した。我々の研究は、大規模で一般化可能なオートエンコーダが、医療領域における重要な効率上の課題に対処するのに役立つことを実証している。私たちのコードはhttps://github.com/StanfordMIMI/MedVAE.comで利用可能です。

関連論文リスト

MedFormer: Hierarchical Medical Vision Transformer with Content-Aware Dual Sparse Selection Attention [1.474723404975345]
MedFormerは、2つの重要なアイデアを持つ効率的な医療ビジョントランスフォーマーである。まず、様々な医用画像認識タスクのための多用途バックボーンとしてピラミッドスケーリング構造を用いる。第2に、コンテンツ認識による計算効率の向上を目的とした、新しいDual Sparse Selection Attention (DSSA)を導入する。
論文参考訳（メタデータ） (2025-07-03T09:51:45Z)
MedITok: A Unified Tokenizer for Medical Image Synthesis and Interpretation [23.783507307500116]
医用画像に適した最初の統一トークン化ツールであるMedITokについて紹介する。低レベルの構造の詳細と、統合潜在空間内の高レベルの臨床的意味をエンコードする。 9つの画像モダリティと4つの異なるタスクにわたる30以上のデータセットで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-05-25T16:39:35Z)
OmniV-Med: Scaling Medical Vision-Language Model for Universal Visual Understanding [35.35197484810533]
我々はマルチモーダル医療理解のための統合フレームワークであるOmniV-Medを紹介する。我々は,多解像度2D/3D画像と映像を統一アーキテクチャで処理する回転位置適応エンコーダを考案した。本稿では,ボリュームデータと医用ビデオの空間的冗長性を生かした,医療対応型トークンプルーニング機構を提案する。
論文参考訳（メタデータ） (2025-04-20T17:53:56Z)
MedIL: Implicit Latent Spaces for Generating Heterogeneous Medical Images at Arbitrary Resolutions [2.2427832125073732]
MedILは、異質なサイズと解像度で医療画像をエンコードするために開発された、一級のオートエンコーダである。我々は,MedILが大規模マルチサイト・マルチレゾリューションデータセットに対して臨床的に関連性のある特徴をいかに圧縮し,保存するかを示す。
論文参考訳（メタデータ） (2025-04-12T19:52:56Z)
HRMedSeg: Unlocking High-resolution Medical Image segmentation via Memory-efficient Attention Modeling [12.401801435516626]
HRMedSegと呼ばれる高解像度医用画像分割のためのメモリ効率フレームワークを提案する。具体的には,画像エンコーダとして軽視変換器(LGViT)を考案し,線形複雑度で長距離依存をモデル化する。そこで我々は,高分解能セグメンテーションマスクを生成するための効率的なクロスマルチスケールデコーダ (ECM-Decoder) を設計する。特にHRMedSegは、微調整中にバッチ毎にわずか0.59GBのGPUメモリしか使用せず、トレーニングコストの低さを示している。
論文参考訳（メタデータ） (2025-04-08T16:48:57Z)
Hi-End-MAE: Hierarchical encoder-driven masked autoencoders are stronger vision learners for medical image segmentation [21.183229457060634]
10KCTの大規模データセットでHi-End-MAEを事前訓練し、7つの公開医用画像セグメンテーションベンチマークでその性能を評価する。 Hi-End-MAEは、様々な下流タスクにまたがる優れた伝達学習能力を実現し、医用画像の応用におけるViTの可能性を明らかにする。
論文参考訳（メタデータ） (2025-02-12T12:14:02Z)
Efficient MedSAMs: Segment Anything in Medical Images on Laptop [69.28565867103542]
我々は,迅速な医用画像のセグメンテーションに特化した初の国際コンペを組織した。トップチームは軽量なセグメンテーション基盤モデルを開発し、効率的な推論パイプラインを実装した。最高のパフォーマンスのアルゴリズムは、臨床導入を促進するために、ユーザフレンドリーなインターフェースを備えたオープンソースソフトウェアに組み込まれている。
論文参考訳（メタデータ） (2024-12-20T17:33:35Z)
MedMamba: Vision Mamba for Medical Image Classification [0.0]
視覚変換器(ViT)と畳み込みニューラルネットワーク(CNN)は医療画像分類タスクで広く研究され、広く利用されている。近年の研究では、マンバで表される状態空間モデル(SSM)が、長距離依存を効果的にモデル化できることが示されている。我々は、医用画像の一般的な分類のための最初のビジョンマンバであるメドマンバを提案する。
論文参考訳（メタデータ） (2024-03-06T16:49:33Z)
Building Universal Foundation Models for Medical Image Analysis with Spatially Adaptive Networks [5.661631789478932]
医用画像解析のための普遍的基礎モデルを提案する。 55の公開医用画像データセット上のマスク画像モデリング(MIM)を用いて、空間適応型視覚トークンーザ(SPAD-VT)と空間適応型視覚変換器(SPAD-ViT)を事前訓練する。下流の医用画像分類とセグメンテーションタスクの実験結果から,本モデルの性能とラベルの効率が向上したことを示す。
論文参考訳（メタデータ） (2023-12-12T08:33:45Z)
End-to-end autoencoding architecture for the simultaneous generation of medical images and corresponding segmentation masks [3.1133049660590615]
ハミルトン変分オートエンコーダ(HVAE)に基づくエンドツーエンドアーキテクチャを提案する。従来の変分オートエンコーダ(VAE)と比較して後部分布近似が向上する。本手法は, 生成的逆境条件より優れ, 画像品質の向上を示す。
論文参考訳（メタデータ） (2023-11-17T11:56:53Z)
LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。 55の公開データセットから約13万の医療画像を収集しました。 LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文参考訳（メタデータ） (2023-06-20T22:21:34Z)
Customizing General-Purpose Foundation Models for Medical Report Generation [64.31265734687182]
ラベル付き医用画像-レポートペアの不足は、ディープニューラルネットワークや大規模ニューラルネットワークの開発において大きな課題となっている。本稿では,コンピュータビジョンと自然言語処理の基盤モデル (FM) として,市販の汎用大規模事前学習モデルのカスタマイズを提案する。
論文参考訳（メタデータ） (2023-06-09T03:02:36Z)
Medical visual question answering using joint self-supervised learning [8.817054025763325]
エンコーダは、自己アテンション機構で画像-テキスト二重モードに埋め込まれる。デコーダはエンコーダの上部に接続され、小型の医療用VQAデータセットを使用して微調整される。
論文参考訳（メタデータ） (2023-02-25T12:12:22Z)
MedSegDiff-V2: Diffusion based Medical Image Segmentation with Transformer [53.575573940055335]
我々は、MedSegDiff-V2と呼ばれるトランスフォーマーベースの拡散フレームワークを提案する。画像の異なる20種類の画像分割作業において,その有効性を検証する。
論文参考訳（メタデータ） (2023-01-19T03:42:36Z)
Attentive Symmetric Autoencoder for Brain MRI Segmentation [56.02577247523737]
視覚変換器(ViT)をベースとした3次元脳MRIセグメンテーションタスクのための新しいアテンテーティブシンメトリオートエンコーダを提案する。事前学習の段階では、提案するオートエンコーダがより注意を払って、勾配測定値に従って情報パッチを再構築する。実験の結果,提案手法は最先端の自己教師付き学習法や医用画像分割モデルよりも優れていた。
論文参考訳（メタデータ） (2022-09-19T09:43:19Z)
Masked Autoencoders Are Scalable Vision Learners [60.97703494764904]
Masked Autoencoders (MAE) は、コンピュータビジョンのためのスケーラブルな自己教師型学習システムである。我々は入力画像のランダムなパッチを隠蔽し、欠落したピクセルを再構成する。これら2つの設計を結合することで,大規模モデルを効率的かつ効率的にトレーニングすることが可能になります。
論文参考訳（メタデータ） (2021-11-11T18:46:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。