Fugu-MT 論文翻訳(概要): Generalist Models in Medical Image Segmentation: A Survey and Performance Comparison with Task-Specific Approaches

論文の概要: Generalist Models in Medical Image Segmentation: A Survey and Performance Comparison with Task-Specific Approaches

arxiv url: http://arxiv.org/abs/2506.10825v1
Date: Thu, 12 Jun 2025 15:44:49 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-13 15:37:22.82045
Title: Generalist Models in Medical Image Segmentation: A Survey and Performance Comparison with Task-Specific Approaches
Title（参考訳）: 医用画像セグメンテーションにおけるジェネリストモデル : タスク特異的アプローチによる調査と性能比較
Authors: Andrea Moglia, Matteo Leccardi, Matteo Cavicchioli, Alice Maccarini, Marco Marcon, Luca Mainardi, Pietro Cerveri,
Abstract要約: 医用画像セグメンテーションのためのジェネリストモデルについて、包括的で詳細な調査を行っている。最近のSAM 2.0では、ゼロショット、少数ショット、微調整、アダプタの観点でSAMの異なる定義について分類する。我々は、規制フレームワーク、プライバシーおよびセキュリティ法、予算、信頼できる人工知能(AI)への準拠の観点から、課題に取り組む必要性を強調している。
参考スコア（独自算出の注目度）: 1.2366904002994854
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Following the successful paradigm shift of large language models, leveraging pre-training on a massive corpus of data and fine-tuning on different downstream tasks, generalist models have made their foray into computer vision. The introduction of Segment Anything Model (SAM) set a milestone on segmentation of natural images, inspiring the design of a multitude of architectures for medical image segmentation. In this survey we offer a comprehensive and in-depth investigation on generalist models for medical image segmentation. We start with an introduction on the fundamentals concepts underpinning their development. Then, we provide a taxonomy on the different declinations of SAM in terms of zero-shot, few-shot, fine-tuning, adapters, on the recent SAM 2, on other innovative models trained on images alone, and others trained on both text and images. We thoroughly analyze their performances at the level of both primary research and best-in-literature, followed by a rigorous comparison with the state-of-the-art task-specific models. We emphasize the need to address challenges in terms of compliance with regulatory frameworks, privacy and security laws, budget, and trustworthy artificial intelligence (AI). Finally, we share our perspective on future directions concerning synthetic data, early fusion, lessons learnt from generalist models in natural language processing, agentic AI and physical AI, and clinical translation.
Abstract（参考訳）: 大規模言語モデルのパラダイムシフトの成功、大量のデータコーパスの事前学習、さまざまな下流タスクの微調整などに続いて、ジェネラリストモデルはコンピュータビジョンに進出した。 Segment Anything Model (SAM) の導入は、自然画像のセグメンテーションにマイルストーンを設定し、医療画像セグメンテーションのための多数のアーキテクチャの設計を刺激した。本調査では,医用画像セグメンテーションのためのジェネリストモデルについて,包括的かつ詳細な調査を行う。まずは、その開発を支える基本概念を紹介します。そして、最近のSAM 2において、ゼロショット、少数ショット、微調整、アダプタという観点からSAMの異なる定義に関する分類を、画像だけで訓練された他の革新的なモデルや、テキストと画像の両方で訓練された他のモデルに対して提供する。基礎研究と文学の両面での成果を網羅的に分析し、続いて最先端のタスク特化モデルと厳密な比較を行った。我々は、規制フレームワーク、プライバシーおよびセキュリティ法、予算、信頼できる人工知能(AI)へのコンプライアンスの観点から、課題に取り組む必要性を強調します。最後に, 合成データ, 早期融合, 自然言語処理, エージェントAI, 物理AIの一般モデルから学んだ教訓, 臨床翻訳に関する今後の方向性について述べる。

関連論文リスト

Vision Generalist Model: A Survey [87.49797517847132]
本稿では、ビジョンジェネラリストモデルの概要を概観し、その分野におけるその特性と能力について考察する。関連ドメインへの簡単な探索を行い、相互接続と潜在的なシナジーに光を当てます。
論文参考訳（メタデータ） (2025-06-11T17:23:41Z)
How to build the best medical image segmentation algorithm using foundation models: a comprehensive empirical study with Segment Anything Model [12.051904886550956]
この研究は、様々なバックボーンアーキテクチャ、モデルコンポーネント、および18の組み合わせにわたる微調整アルゴリズムによる既存の微調整戦略をまとめたものである。一般的な放射線学のモダリティを網羅した17のデータセットで評価した。コードとMRI特有の微調整ウェイトをリリースし、元のSAMよりも一貫して優れた性能を得た。
論文参考訳（メタデータ） (2024-04-15T17:31:32Z)
One Model to Rule them All: Towards Universal Segmentation for Medical Images with Text Prompts [62.55349777609194]
6502個の解剖学的用語を含む,ヒト解剖学上の最初のマルチモーダル知識ツリーを構築した。トレーニングのために、最大かつ最も包括的なセグメンテーションデータセットを構築します。
論文参考訳（メタデータ） (2023-12-28T18:16:00Z)
Foundational Models in Medical Imaging: A Comprehensive Survey and Future Vision [6.2847894163744105]
ファンデーションモデルは、広範囲の下流タスクに適応した大規模で事前訓練されたディープラーニングモデルである。これらのモデルは、コンテキスト推論、一般化、テスト時の迅速な機能を促進する。コンピュータビジョンの進歩に乗じて、医療画像はこれらのモデルへの関心も高まっている。
論文参考訳（メタデータ） (2023-10-28T12:08:12Z)
Foundational Models Defining a New Era in Vision: A Survey and Outlook [151.49434496615427]
視覚シーンの構成的性質を観察し、推論する視覚システムは、我々の世界を理解するのに不可欠である。モデルは、このようなモダリティと大規模なトレーニングデータとのギャップを埋めることを学び、コンテキスト推論、一般化、テスト時の迅速な機能を容易にした。このようなモデルの出力は、例えば、バウンディングボックスを設けて特定のオブジェクトをセグメント化したり、画像や映像シーンについて質問したり、言語命令でロボットの動作を操作することで対話的な対話を行うなど、リトレーニングすることなく、人為的なプロンプトによって変更することができる。
論文参考訳（メタデータ） (2023-07-25T17:59:18Z)
Empirical Analysis of a Segmentation Foundation Model in Prostate Imaging [9.99042549094606]
医療画像セグメンテーションのための基盤モデルUniverSegについて考察する。本研究では,前立腺画像の文脈における経験的評価研究を行い,従来のタスク固有セグメンテーションモデルの訓練手法と比較する。
論文参考訳（メタデータ） (2023-07-06T20:00:52Z)
Artificial General Intelligence for Medical Imaging Analysis [92.3940918983821]
大規模人工知能(AGI)モデルは、様々な汎用ドメインタスクにおいて前例のない成功を収めた。これらのモデルは、医学分野固有の複雑さとユニークな特徴から生じる顕著な課題に直面している。このレビューは、医療画像、医療などにおけるAGIの将来的な意味についての洞察を提供することを目的としている。
論文参考訳（メタデータ） (2023-06-08T18:04:13Z)
UniDiff: Advancing Vision-Language Models with Generative and Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。 UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文参考訳（メタデータ） (2023-06-01T15:39:38Z)
A Comprehensive Survey on Segment Anything Model for Vision and Beyond [7.920790211915402]
幅広いデータに基づいて訓練された基礎モデルと呼ばれる、一般的なモデルのクラスを設計することは緊急である。最近提案されたセグメンテーションモデル(SAM)は、セグメンテーションの境界を破る大きな進歩を遂げた。本稿では,SAMを含む基礎モデルの背景と用語,およびSAMと同種の最先端手法について紹介する。
論文参考訳（メタデータ） (2023-05-14T16:23:22Z)
Towards Segment Anything Model (SAM) for Medical Image Segmentation: A Survey [8.76496233192512]
本稿では,セグメンテーションモデルの成功を医療画像のセグメンテーションタスクに拡張する取り組みについて論じる。医用画像解析の基礎モデルを開発するために、将来の研究を導くために多くの洞察が導かれる。
論文参考訳（メタデータ） (2023-05-05T16:48:45Z)
Learning to Exploit Temporal Structure for Biomedical Vision-Language Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文参考訳（メタデータ） (2023-01-11T16:35:33Z)
Improving Generation and Evaluation of Visual Stories via Semantic Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文参考訳（メタデータ） (2021-05-20T20:42:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。