Fugu-MT 論文翻訳(概要): VISION-MAE: A Foundation Model for Medical Image Segmentation and Classification

論文の概要: VISION-MAE: A Foundation Model for Medical Image Segmentation and Classification

arxiv url: http://arxiv.org/abs/2402.01034v1
Date: Thu, 1 Feb 2024 21:45:12 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-05 17:42:31.050765
Title: VISION-MAE: A Foundation Model for Medical Image Segmentation and Classification
Title（参考訳）: VISION-MAE : 医用画像のセグメンテーションと分類の基礎モデル
Authors: Zelong Liu, Andrew Tieu, Nikhil Patel, Alexander Zhou, George Soultanidis, Zahi A. Fayad, Timothy Deyer, Xueyan Mei
Abstract要約: 医用画像に特化して設計された新しい基礎モデルVISION-MAEを提案する。 VISION-MAEは、様々なモダリティから250万枚の未ラベル画像のデータセットでトレーニングされている。その後、明示的なラベルを使って分類とセグメンテーションのタスクに適応する。
参考スコア（独自算出の注目度）: 36.8105960525233
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Artificial Intelligence (AI) has the potential to revolutionize diagnosis and segmentation in medical imaging. However, development and clinical implementation face multiple challenges including limited data availability, lack of generalizability, and the necessity to incorporate multi-modal data effectively. A foundation model, which is a large-scale pre-trained AI model, offers a versatile base that can be adapted to a variety of specific tasks and contexts. Here, we present a novel foundation model, VISION-MAE, specifically designed for medical imaging. Specifically, VISION-MAE is trained on a dataset of 2.5 million unlabeled images from various modalities (CT, MR, PET, X-rays, and ultrasound), using self-supervised learning techniques. It is then adapted to classification and segmentation tasks using explicit labels. VISION-MAE has high label efficiency, outperforming several benchmark models in both in-domain and out-of-domain applications, and achieves high performance even with reduced availability of labeled data. This model represents a significant advancement in medical imaging AI, offering a generalizable and robust solution for improving segmentation and classification tasks while reducing the data annotation workload.
Abstract（参考訳）: 人工知能(AI)は、医療画像の診断とセグメンテーションに革命をもたらす可能性がある。しかしながら、開発と臨床実装は、データ可用性の制限、汎用性の欠如、マルチモーダルデータを効果的に組み込む必要性など、複数の課題に直面している。大規模な事前学習されたaiモデルである基盤モデルは、さまざまな特定のタスクやコンテキストに適応可能な汎用的なベースを提供する。本稿では,医用画像に特化して設計された新しい基礎モデルVISION-MAEを提案する。具体的には、自己教師型学習技術を用いて、CT、MR、PET、X線、超音波といった様々なモダリティから2.5万枚の未ラベル画像のデータセットをトレーニングする。その後、明示的なラベルを使って分類とセグメンテーションタスクに適応する。 VISION-MAEはラベルの効率が高く、ドメイン内およびドメイン外のアプリケーションでいくつかのベンチマークモデルより優れており、ラベル付きデータの可用性が低い場合でも高いパフォーマンスを実現している。このモデルは、医療画像aiの大きな進歩を表しており、データアノテーションのワークロードを削減しつつ、セグメンテーションと分類タスクを改善するための汎用的でロバストなソリューションを提供する。

関連論文リスト

Task-Specific Knowledge Distillation from the Vision Foundation Model for Enhanced Medical Image Segmentation [13.018234326432964]
医用画像セグメンテーションのための新規で汎用的なタスク固有知識蒸留フレームワークを提案する。提案手法は,目標セグメンテーションタスクのVFMを微調整し,より小さなモデルに知識を蒸留する前にタスク固有の特徴を抽出する。 5つの医用画像データセットに対する実験結果から,本手法はタスク非依存の知識蒸留より一貫して優れていることが示された。
論文参考訳（メタデータ） (2025-03-10T06:39:53Z)
MCP-MedSAM: A Powerful Lightweight Medical Segment Anything Model Trained with a Single GPU in Just One Day [0.6827423171182151]
医用画像のセグメンテーションは、解剖学的構造や病変の特定に焦点をあてて、医療画像を意味のある領域に分割する。 Anything Model(SAM)は、様々なタスクのパフォーマンスを改善するために、医学領域に適応するよう研究者に促している。 MCP-MedSAMは、40GBのメモリを持つ単一のA100 GPU上で1日以内にトレーニングできるように設計された、強力で軽量な医療SAMモデルである。
論文参考訳（メタデータ） (2024-12-08T10:50:59Z)
MRGen: Segmentation Data Engine for Underrepresented MRI Modalities [59.61465292965639]
稀ながら臨床的に重要な画像モダリティのための医用画像分割モデルの訓練は、注釈付きデータの不足により困難である。本稿では,データ合成における生成モデルの利用について検討する。本稿では,テキストプロンプトとセグメンテーションマスクを条件とした医用画像合成のためのデータエンジンMRGenを提案する。
論文参考訳（メタデータ） (2024-12-04T16:34:22Z)
LoGra-Med: Long Context Multi-Graph Alignment for Medical Vision-Language Model [55.80651780294357]
最新の医療用マルチモーダル大規模言語モデル(med-MLLM)は、事前訓練において命令追従データを活用する。 LoGra-Medは新しいマルチグラフアライメントアルゴリズムで、画像のモダリティ、会話ベースの記述、拡張キャプション間でのトリプルト相関を強制する。以上の結果から,LoGra-Medは医療用VQAの600K画像テキスト対に対してLAVA-Medと一致し,その10%でトレーニングした場合に有意に優れていた。
論文参考訳（メタデータ） (2024-10-03T15:52:03Z)
PMT: Progressive Mean Teacher via Exploring Temporal Consistency for Semi-Supervised Medical Image Segmentation [51.509573838103854]
医用画像セグメンテーションのための半教師付き学習フレームワークであるプログレッシブ平均教師(PMT)を提案する。我々のPMTは、トレーニングプロセスにおいて、堅牢で多様な特徴を学習することで、高忠実な擬似ラベルを生成する。 CT と MRI の異なる2つのデータセットに対する実験結果から,本手法が最先端の医用画像分割法より優れていることが示された。
論文参考訳（メタデータ） (2024-09-08T15:02:25Z)
Coupling AI and Citizen Science in Creation of Enhanced Training Dataset for Medical Image Segmentation [3.7274206780843477]
我々は、AIとクラウドソーシングを組み合わせた堅牢で汎用的なフレームワークを導入し、医療画像データセットの品質と量を改善する。当社のアプローチでは,多様なクラウドアノテータのグループによる医療画像のラベル付けを効率的に行うことができる,ユーザフレンドリーなオンラインプラットフォームを活用している。我々は、生成AIモデルであるpix2pixGANを使用して、リアルな形態的特徴をキャプチャする合成画像を用いてトレーニングデータセットを拡張する。
論文参考訳（メタデータ） (2024-09-04T21:22:54Z)
MOSMOS: Multi-organ segmentation facilitated by medical report supervision [10.396987980136602]
マルチオーガンスーパービジョン(MOS)のための新しい事前学習・微調整フレームワークを提案する。具体的には、まず、トレーニング前の段階で、医用画像とレポートのペアを合わせるために、グローバルコントラスト学習を導入する。さらに,画像画素と臓器タグ間の意味的対応を暗黙的に学習するために,マルチラベル認識を活用する。
論文参考訳（メタデータ） (2024-09-04T03:46:17Z)
Benchmarking Embedding Aggregation Methods in Computational Pathology: A Clinical Data Perspective [32.93871326428446]
人工知能(AI)の最近の進歩は、医療画像と計算病理に革命をもたらしている。デジタル全スライド画像(WSI)の解析における一定の課題は、何万ものタイルレベルの画像埋め込みをスライドレベルの表現に集約する問題である。本研究は,9つの臨床的課題を対象とした10種類のスライドレベルのアグリゲーション手法のベンチマーク分析を行った。
論文参考訳（メタデータ） (2024-07-10T17:00:57Z)
Discriminative Hamiltonian Variational Autoencoder for Accurate Tumor Segmentation in Data-Scarce Regimes [2.8498944632323755]
医用画像分割のためのエンドツーエンドハイブリッドアーキテクチャを提案する。ハミルトン変分オートエンコーダ(HVAE)と識別正則化を用いて生成画像の品質を向上する。我々のアーキテクチャはスライス・バイ・スライス・ベースで3Dボリュームを分割し、リッチな拡張データセットをカプセル化する。
論文参考訳（メタデータ） (2024-06-17T15:42:08Z)
Adapting Visual-Language Models for Generalizable Anomaly Detection in Medical Images [68.42215385041114]
本稿では,CLIPモデルを用いた医用異常検出のための軽量な多レベル適応と比較フレームワークを提案する。提案手法では,複数の残像アダプタを事前学習した視覚エンコーダに統合し,視覚的特徴の段階的向上を実現する。医学的異常検出ベンチマーク実験により,本手法が現在の最先端モデルを大幅に上回っていることが示された。
論文参考訳（メタデータ） (2024-03-19T09:28:19Z)
Towards a clinically accessible radiology foundation model: open-access and lightweight, with automated evaluation [113.5002649181103]
オープンソースの小型マルチモーダルモデル(SMM)を訓練し、放射線学における未測定臨床ニーズに対する能力ギャップを埋める。トレーニングのために,697万以上の画像テキストペアからなる大規模なデータセットを組み立てる。評価のために,GPT-4に基づく実測値CheXpromptを提案する。 LlaVA-Radの推論は高速で、単一のV100 GPU上でプライベート設定で実行できる。
論文参考訳（メタデータ） (2024-03-12T18:12:02Z)
Self-Prompting Large Vision Models for Few-Shot Medical Image Segmentation [14.135249795318591]
本稿では,医療ビジョン応用における自己プロンプトの新たな視点を提案する。我々は、Segment Anything Modelの埋め込み空間を利用して、単純だが効果的な線形ピクセルワイド分類器を通して自身を誘導する。複数のデータセットで競合する結果を得る。
論文参考訳（メタデータ） (2023-08-15T08:20:07Z)
LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。 55の公開データセットから約13万の医療画像を収集しました。 LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文参考訳（メタデータ） (2023-06-20T22:21:34Z)
Learnable Weight Initialization for Volumetric Medical Image Segmentation [66.3030435676252]
本稿では,学習可能な重みに基づくハイブリッド医療画像セグメンテーション手法を提案する。我々のアプローチはどんなハイブリッドモデルにも簡単に統合でき、外部のトレーニングデータを必要としない。多臓器・肺がんセグメンテーションタスクの実験は、我々のアプローチの有効性を実証している。
論文参考訳（メタデータ） (2023-06-15T17:55:05Z)
Domain Generalization for Mammographic Image Analysis with Contrastive Learning [62.25104935889111]
効果的なディープラーニングモデルのトレーニングには、さまざまなスタイルと品質を備えた大規模なデータが必要である。より優れたスタイルの一般化能力を備えた深層学習モデルを実現するために,新しいコントラスト学習法が開発された。提案手法は,様々なベンダスタイルドメインのマンモグラムや,いくつかのパブリックデータセットを用いて,広範囲かつ厳密に評価されている。
論文参考訳（メタデータ） (2023-04-20T11:40:21Z)
Vision-Language Modelling For Radiological Imaging and Reports In The Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文参考訳（メタデータ） (2023-03-30T18:20:00Z)
Analysing the effectiveness of a generative model for semi-supervised medical image segmentation [23.898954721893855]
自動セグメンテーションにおける最先端技術は、U-Netのような差別モデルを用いて、教師付き学習のままである。半教師付き学習(SSL)は、より堅牢で信頼性の高いモデルを得るために、重複のないデータの豊富さを活用する。セマンティックGANのような深層生成モデルは、医療画像分割問題に取り組むための真に実行可能な代替手段である。
論文参考訳（メタデータ） (2022-11-03T15:19:59Z)
Uncertainty-aware multi-view co-training for semi-supervised medical image segmentation and domain adaptation [35.33425093398756]
ラベルのないデータは、注釈付きデータよりもはるかに簡単に取得できる。医用画像セグメンテーションのための不確実性を考慮したマルチビュー協調トレーニングを提案する。我々のフレームワークは、ラベルのないデータを効率的に活用してパフォーマンスを向上させることができる。
論文参考訳（メタデータ） (2020-06-28T22:04:54Z)
Self-Training with Improved Regularization for Sample-Efficient Chest X-Ray Classification [80.00316465793702]
挑戦的なシナリオで堅牢なモデリングを可能にするディープラーニングフレームワークを提案する。その結果,85%のラベル付きデータを用いて,大規模データ設定で学習した分類器の性能に適合する予測モデルを構築することができた。
論文参考訳（メタデータ） (2020-05-03T02:36:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。