論文の概要: Generalist Models in Medical Image Segmentation: A Survey and Performance Comparison with Task-Specific Approaches
- arxiv url: http://arxiv.org/abs/2506.10825v1
- Date: Thu, 12 Jun 2025 15:44:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.82045
- Title: Generalist Models in Medical Image Segmentation: A Survey and Performance Comparison with Task-Specific Approaches
- Title(参考訳): 医用画像セグメンテーションにおけるジェネリストモデル : タスク特異的アプローチによる調査と性能比較
- Authors: Andrea Moglia, Matteo Leccardi, Matteo Cavicchioli, Alice Maccarini, Marco Marcon, Luca Mainardi, Pietro Cerveri,
- Abstract要約: 医用画像セグメンテーションのためのジェネリストモデルについて、包括的で詳細な調査を行っている。
最近のSAM 2.0では、ゼロショット、少数ショット、微調整、アダプタの観点でSAMの異なる定義について分類する。
我々は、規制フレームワーク、プライバシーおよびセキュリティ法、予算、信頼できる人工知能(AI)への準拠の観点から、課題に取り組む必要性を強調している。
- 参考スコア(独自算出の注目度): 1.2366904002994854
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Following the successful paradigm shift of large language models, leveraging pre-training on a massive corpus of data and fine-tuning on different downstream tasks, generalist models have made their foray into computer vision. The introduction of Segment Anything Model (SAM) set a milestone on segmentation of natural images, inspiring the design of a multitude of architectures for medical image segmentation. In this survey we offer a comprehensive and in-depth investigation on generalist models for medical image segmentation. We start with an introduction on the fundamentals concepts underpinning their development. Then, we provide a taxonomy on the different declinations of SAM in terms of zero-shot, few-shot, fine-tuning, adapters, on the recent SAM 2, on other innovative models trained on images alone, and others trained on both text and images. We thoroughly analyze their performances at the level of both primary research and best-in-literature, followed by a rigorous comparison with the state-of-the-art task-specific models. We emphasize the need to address challenges in terms of compliance with regulatory frameworks, privacy and security laws, budget, and trustworthy artificial intelligence (AI). Finally, we share our perspective on future directions concerning synthetic data, early fusion, lessons learnt from generalist models in natural language processing, agentic AI and physical AI, and clinical translation.
- Abstract(参考訳): 大規模言語モデルのパラダイムシフトの成功、大量のデータコーパスの事前学習、さまざまな下流タスクの微調整などに続いて、ジェネラリストモデルはコンピュータビジョンに進出した。
Segment Anything Model (SAM) の導入は、自然画像のセグメンテーションにマイルストーンを設定し、医療画像セグメンテーションのための多数のアーキテクチャの設計を刺激した。
本調査では,医用画像セグメンテーションのためのジェネリストモデルについて,包括的かつ詳細な調査を行う。
まずは、その開発を支える基本概念を紹介します。
そして、最近のSAM 2において、ゼロショット、少数ショット、微調整、アダプタという観点からSAMの異なる定義に関する分類を、画像だけで訓練された他の革新的なモデルや、テキストと画像の両方で訓練された他のモデルに対して提供する。
基礎研究と文学の両面での成果を網羅的に分析し、続いて最先端のタスク特化モデルと厳密な比較を行った。
我々は、規制フレームワーク、プライバシーおよびセキュリティ法、予算、信頼できる人工知能(AI)へのコンプライアンスの観点から、課題に取り組む必要性を強調します。
最後に, 合成データ, 早期融合, 自然言語処理, エージェントAI, 物理AIの一般モデルから学んだ教訓, 臨床翻訳に関する今後の方向性について述べる。
関連論文リスト
- Vision Generalist Model: A Survey [87.49797517847132]
本稿では、ビジョンジェネラリストモデルの概要を概観し、その分野におけるその特性と能力について考察する。
関連ドメインへの簡単な探索を行い、相互接続と潜在的なシナジーに光を当てます。
論文 参考訳(メタデータ) (2025-06-11T17:23:41Z) - One Model to Rule them All: Towards Universal Segmentation for Medical Images with Text Prompts [62.55349777609194]
6502個の解剖学的用語を含む,ヒト解剖学上の最初のマルチモーダル知識ツリーを構築した。
トレーニングのために、最大かつ最も包括的なセグメンテーションデータセットを構築します。
論文 参考訳(メタデータ) (2023-12-28T18:16:00Z) - Foundational Models Defining a New Era in Vision: A Survey and Outlook [151.49434496615427]
視覚シーンの構成的性質を観察し、推論する視覚システムは、我々の世界を理解するのに不可欠である。
モデルは、このようなモダリティと大規模なトレーニングデータとのギャップを埋めることを学び、コンテキスト推論、一般化、テスト時の迅速な機能を容易にした。
このようなモデルの出力は、例えば、バウンディングボックスを設けて特定のオブジェクトをセグメント化したり、画像や映像シーンについて質問したり、言語命令でロボットの動作を操作することで対話的な対話を行うなど、リトレーニングすることなく、人為的なプロンプトによって変更することができる。
論文 参考訳(メタデータ) (2023-07-25T17:59:18Z) - Empirical Analysis of a Segmentation Foundation Model in Prostate
Imaging [9.99042549094606]
医療画像セグメンテーションのための基盤モデルUniverSegについて考察する。
本研究では,前立腺画像の文脈における経験的評価研究を行い,従来のタスク固有セグメンテーションモデルの訓練手法と比較する。
論文 参考訳(メタデータ) (2023-07-06T20:00:52Z) - Artificial General Intelligence for Medical Imaging Analysis [92.3940918983821]
大規模人工知能(AGI)モデルは、様々な汎用ドメインタスクにおいて前例のない成功を収めた。
これらのモデルは、医学分野固有の複雑さとユニークな特徴から生じる顕著な課題に直面している。
このレビューは、医療画像、医療などにおけるAGIの将来的な意味についての洞察を提供することを目的としている。
論文 参考訳(メタデータ) (2023-06-08T18:04:13Z) - Towards Segment Anything Model (SAM) for Medical Image Segmentation: A
Survey [8.76496233192512]
本稿では,セグメンテーションモデルの成功を医療画像のセグメンテーションタスクに拡張する取り組みについて論じる。
医用画像解析の基礎モデルを開発するために、将来の研究を導くために多くの洞察が導かれる。
論文 参考訳(メタデータ) (2023-05-05T16:48:45Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。