論文の概要: Medical Vision Generalist: Unifying Medical Imaging Tasks in Context
- arxiv url: http://arxiv.org/abs/2406.05565v1
- Date: Sat, 8 Jun 2024 20:07:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-11 19:06:24.410489
- Title: Medical Vision Generalist: Unifying Medical Imaging Tasks in Context
- Title(参考訳): 医療ビジョンジェネラリスト:医療画像タスクのコンテキスト統合
- Authors: Sucheng Ren, Xiaoke Huang, Xianhang Li, Junfei Xiao, Jieru Mei, Zeyu Wang, Alan Yuille, Yuyin Zhou,
- Abstract要約: 本研究は,様々な医用画像タスクを処理可能な基礎モデルとして,MVG(Messical Vision Generalist)を提案する。
MVGは、入力と出力の処理をイメージとして標準化する、コンテキスト内生成戦略を採用している。
我々の結果はMVGの優れた性能を一貫して確立し、PainterやLVMといった既存のビジョンジェネラリストよりも優れています。
- 参考スコア(独自算出の注目度): 30.300087629262666
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study presents Medical Vision Generalist (MVG), the first foundation model capable of handling various medical imaging tasks -- such as cross-modal synthesis, image segmentation, denoising, and inpainting -- within a unified image-to-image generation framework. Specifically, MVG employs an in-context generation strategy that standardizes the handling of inputs and outputs as images. By treating these tasks as an image generation process conditioned on prompt image-label pairs and input images, this approach enables a flexible unification of various tasks, even those spanning different modalities and datasets. To capitalize on both local and global context, we design a hybrid method combining masked image modeling with autoregressive training for conditional image generation. This hybrid approach yields the most robust performance across all involved medical imaging tasks. To rigorously evaluate MVG's capabilities, we curated the first comprehensive generalist medical vision benchmark, comprising 13 datasets and spanning four imaging modalities (CT, MRI, X-ray, and micro-ultrasound). Our results consistently establish MVG's superior performance, outperforming existing vision generalists, such as Painter and LVM. Furthermore, MVG exhibits strong scalability, with its performance demonstrably improving when trained on a more diverse set of tasks, and can be effectively adapted to unseen datasets with only minimal task-specific samples. The code is available at \url{https://github.com/OliverRensu/MVG}.
- Abstract(参考訳): 本研究は, 医用ビジョンジェネラリスト(MVG)について, クロスモーダル合成, イメージセグメンテーション, デノナイジング, インパインティングなどの様々な医療画像タスクを, 統合画像・画像生成フレームワークで処理できる最初の基礎モデルを提案する。
具体的には、MVGは入力と出力の処理を画像として標準化するコンテキスト内生成戦略を採用している。
これらのタスクを、画像ラベルペアと入力イメージに条件付けされた画像生成プロセスとして扱うことにより、様々なタスク、例えば異なるモダリティやデータセットにまたがるタスクの柔軟な統一を可能にする。
局所的・大域的両方の状況に乗じて、マスク付き画像モデリングと自己回帰学習を組み合わせた条件付き画像生成のハイブリッド手法を設計する。
このハイブリッドアプローチは、すべての医療画像タスクにおいて、最も堅牢なパフォーマンスをもたらす。
MVGの能力を厳格に評価するために,13のデータセットと4つの画像モダリティ(CT,MRI,X線,マイクロ超音波)を網羅した,最初の総合的総合的医療ビジョンベンチマークをキュレートした。
我々の結果はMVGの優れた性能を一貫して確立し、PainterやLVMといった既存のビジョンジェネラリストよりも優れています。
さらに、MVGは強力なスケーラビリティを示し、より多様なタスクセットでトレーニングされた場合、パフォーマンスは明らかに改善され、最小限のタスク固有のサンプルだけで、目に見えないデータセットに効果的に適応できる。
コードは \url{https://github.com/OliverRensu/MVG} で公開されている。
関連論文リスト
- Generative Medical Segmentation [5.4613210257624605]
生成医療 (Generative Medical, GMS) は、生成モデルを利用して画像セグメンテーションを行う新しいアプローチである。
GMSは、画像とそれに対応する接地真実マスクの潜在表現を抽出するために、頑健な事前訓練された視覚基盤モデルを採用している。
GMSの設計により、モデルのトレーニング可能なパラメータが少なくなり、オーバーフィットのリスクが軽減され、その能力が向上する。
論文 参考訳(メタデータ) (2024-03-27T02:16:04Z) - VISION-MAE: A Foundation Model for Medical Image Segmentation and
Classification [36.8105960525233]
医用画像に特化して設計された新しい基礎モデルVISION-MAEを提案する。
VISION-MAEは、様々なモダリティから250万枚の未ラベル画像のデータセットでトレーニングされている。
その後、明示的なラベルを使って分類とセグメンテーションのタスクに適応する。
論文 参考訳(メタデータ) (2024-02-01T21:45:12Z) - Gene-induced Multimodal Pre-training for Image-omic Classification [20.465959546613554]
本稿では、ゲノム情報と全スライド画像(WSI)を併用した遺伝子誘導型マルチモーダル事前学習フレームワークを提案する。
TCGAデータセットによる実験結果から,ネットワークアーキテクチャと事前学習フレームワークの優位性が示され,画像-オミクス分類の精度は99.47%に達した。
論文 参考訳(メタデータ) (2023-09-06T04:30:15Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - Customizing General-Purpose Foundation Models for Medical Report
Generation [64.31265734687182]
ラベル付き医用画像-レポートペアの不足は、ディープニューラルネットワークや大規模ニューラルネットワークの開発において大きな課題となっている。
本稿では,コンピュータビジョンと自然言語処理の基盤モデル (FM) として,市販の汎用大規模事前学習モデルのカスタマイズを提案する。
論文 参考訳(メタデータ) (2023-06-09T03:02:36Z) - Training Like a Medical Resident: Context-Prior Learning Toward Universal Medical Image Segmentation [38.61227663176952]
医用画像理解基盤モデルの構築を目的としたパラダイムであるユニバーサル・メディカルイメージ・セグメンテーションへのシフトを提案する。
医用画像セグメンテーションにおけるデータの異質性やアノテーションの違いに対処する新しい文脈優先学習手法であるHermesを開発した。
論文 参考訳(メタデータ) (2023-06-04T17:39:08Z) - Multi-task Paired Masking with Alignment Modeling for Medical
Vision-Language Pre-training [55.56609500764344]
本稿では,マルチタスク・ペアド・マスキング・アライメント(MPMA)に基づく統合フレームワークを提案する。
また, メモリ拡張クロスモーダルフュージョン (MA-CMF) モジュールを導入し, 視覚情報を完全統合し, レポート再構築を支援する。
論文 参考訳(メタデータ) (2023-05-13T13:53:48Z) - AMIGO: Sparse Multi-Modal Graph Transformer with Shared-Context
Processing for Representation Learning of Giga-pixel Images [53.29794593104923]
本稿では,スライド病理像全体に対する共有コンテキスト処理の新たな概念を提案する。
AMIGOは、組織内のセルラーグラフを使用して、患者に単一の表現を提供する。
我々のモデルは、データの20%以下で同じ性能を達成できる程度に、欠落した情報に対して強い堅牢性を示す。
論文 参考訳(メタデータ) (2023-03-01T23:37:45Z) - MedSegDiff-V2: Diffusion based Medical Image Segmentation with
Transformer [53.575573940055335]
我々は、MedSegDiff-V2と呼ばれるトランスフォーマーベースの拡散フレームワークを提案する。
画像の異なる20種類の画像分割作業において,その有効性を検証する。
論文 参考訳(メタデータ) (2023-01-19T03:42:36Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z) - Multi-modal Understanding and Generation for Medical Images and Text via
Vision-Language Pre-Training [5.119201893752376]
本稿では,トランスフォーマーアーキテクチャと新しいマルチモーダルアテンションマスキング手法を組み合わせた医療ビジョン言語学習システム(MedViLL)を提案する。
我々は,タスク固有のアーキテクチャを含む様々なベースラインに対して,MedViLLのより優れたダウンストリームタスク性能を実証的に示す。
論文 参考訳(メタデータ) (2021-05-24T15:14:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。