論文の概要: Image Segmentation in Foundation Model Era: A Survey
- arxiv url: http://arxiv.org/abs/2408.12957v2
- Date: Tue, 29 Oct 2024 04:05:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-08 05:26:28.541681
- Title: Image Segmentation in Foundation Model Era: A Survey
- Title(参考訳): 基礎モデル時代のイメージセグメンテーション:サーベイ
- Authors: Tianfei Zhou, Fei Zhang, Boyu Chang, Wenguan Wang, Ye Yuan, Ender Konukoglu, Daniel Cremers,
- Abstract要約: イメージセグメンテーションにおける現在の研究は、これらの進歩に関連する特徴、課題、解決策の詳細な分析を欠いている。
本調査は、FM駆動画像セグメンテーションを中心とした最先端の研究を徹底的にレビューすることで、このギャップを埋めようとしている。
現在の研究成果の広さを包括する,300以上のセグメンテーションアプローチの概要を概観する。
- 参考スコア(独自算出の注目度): 99.19456390358211
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image segmentation is a long-standing challenge in computer vision, studied continuously over several decades, as evidenced by seminal algorithms such as N-Cut, FCN, and MaskFormer. With the advent of foundation models (FMs), contemporary segmentation methodologies have embarked on a new epoch by either adapting FMs (e.g., CLIP, Stable Diffusion, DINO) for image segmentation or developing dedicated segmentation foundation models (e.g., SAM). These approaches not only deliver superior segmentation performance, but also herald newfound segmentation capabilities previously unseen in deep learning context. However, current research in image segmentation lacks a detailed analysis of distinct characteristics, challenges, and solutions associated with these advancements. This survey seeks to fill this gap by providing a thorough review of cutting-edge research centered around FM-driven image segmentation. We investigate two basic lines of research -- generic image segmentation (i.e., semantic segmentation, instance segmentation, panoptic segmentation), and promptable image segmentation (i.e., interactive segmentation, referring segmentation, few-shot segmentation) -- by delineating their respective task settings, background concepts, and key challenges. Furthermore, we provide insights into the emergence of segmentation knowledge from FMs like CLIP, Stable Diffusion, and DINO. An exhaustive overview of over 300 segmentation approaches is provided to encapsulate the breadth of current research efforts. Subsequently, we engage in a discussion of open issues and potential avenues for future research. We envisage that this fresh, comprehensive, and systematic survey catalyzes the evolution of advanced image segmentation systems.
- Abstract(参考訳): イメージセグメンテーション(英: Image segmentation)は、コンピュータビジョンにおける長年にわたる課題であり、N-Cut、FCN、MaskFormerといったアルゴリズムが数十年にわたって研究してきた。
ファンデーションモデル(FM)の出現に伴い、現代セグメンテーション手法は、画像セグメンテーションにFM(例えば、CLIP、安定拡散、DINO)を適応するか、または専用のセグメンテーション基盤モデル(例えば、SAM)を開発することによって、新しいエポックに突入した。
これらのアプローチは、優れたセグメンテーション性能を提供するだけでなく、これまでディープラーニング環境では見られなかった新しいセグメンテーション機能も提供する。
しかし、イメージセグメンテーションにおける現在の研究は、これらの進歩に関連する特徴、課題、解決策の詳細な分析を欠いている。
本調査は、FM駆動画像セグメンテーションを中心とした最先端の研究を徹底的にレビューすることで、このギャップを埋めようとしている。
汎用画像セグメンテーション(セグメンテーション、インスタンスセグメンテーション、パン光学セグメンテーション)と、プロンプト可能な画像セグメンテーション(インタラクティブセグメンテーション、参照セグメンテーション、少数ショットセグメンテーション)の2つの基本的な研究行について、それぞれのタスク設定、背景概念、重要な課題について考察する。
さらに,CLIP,Stable Diffusion,DINOといったFMからのセグメンテーション知識の出現に関する洞察を提供する。
現在の研究成果の広さを包括する,300以上のセグメンテーションアプローチの概要を概観する。
その後、今後の研究に向けて、オープンな課題と潜在的な道のりについて議論する。
我々は,この新鮮で包括的で体系的な調査が,高度な画像分割システムの進化を触媒すると考えている。
関連論文リスト
- USE: Universal Segment Embeddings for Open-Vocabulary Image Segmentation [33.11010205890195]
オープン語彙のイメージセグメンテーションにおける大きな課題は、これらのセグメンテーションをテキスト定義カテゴリに正確に分類することにある。
この課題に対処するために、Universal Segment Embedding(USE)フレームワークを紹介します。
本フレームワークは,1)大量のセグメントテキストペアを様々な粒度で効率的にキュレートするように設計されたデータパイプライン,2)テキスト定義のカテゴリに精度の高いセグメント分類を可能にする普遍的なセグメント埋め込みモデルからなる。
論文 参考訳(メタデータ) (2024-06-07T21:41:18Z) - Semi-Supervised Semantic Segmentation Based on Pseudo-Labels: A Survey [49.47197748663787]
本総説は, 半教師付きセマンティックセグメンテーション分野における擬似ラベル手法に関する最新の研究成果について, 包括的かつ組織的に概観することを目的としている。
さらに,医用およびリモートセンシング画像のセグメンテーションにおける擬似ラベル技術の適用について検討する。
論文 参考訳(メタデータ) (2024-03-04T10:18:38Z) - Weakly-Supervised Semantic Segmentation with Image-Level Labels: from
Traditional Models to Foundation Models [33.690846523358836]
弱教師付きセマンティックセマンティックセグメンテーション(WSSS)はピクセルレベルのラベルを避ける効果的なソリューションである。
私たちは、WSSSの最も難しい形態であるイメージレベルのラベルによるWSSSに焦点を当てています。
本稿では,WSSS の文脈において,Segment Anything Model (SAM) などの視覚基盤モデルの適用性について検討する。
論文 参考訳(メタデータ) (2023-10-19T07:16:54Z) - SamDSK: Combining Segment Anything Model with Domain-Specific Knowledge
for Semi-Supervised Learning in Medical Image Segmentation [27.044797468878837]
Segment Anything Model (SAM)は、自然画像に広範囲のオブジェクトを分割する機能を示す。
本稿では、SAMとドメイン固有の知識を組み合わせて、ラベルなし画像の信頼性の高い利用法を提案する。
本研究は,医用画像セグメンテーションのための半教師あり学習の新たな方向性を創出する。
論文 参考訳(メタデータ) (2023-08-26T04:46:10Z) - AIMS: All-Inclusive Multi-Level Segmentation [93.5041381700744]
視覚領域を3つのレベル(パート、エンティティ、リレーション)に分割するタスクであるAll-Inclusive Multi-Level(AIMS)を提案する。
また、アノテーションの不整合とタスク相関の2つの大きな課題に対処するために、マルチデータセットのマルチタスクトレーニングを通じて統合されたAIMSモデルを構築します。
論文 参考訳(メタデータ) (2023-05-28T16:28:49Z) - Semantic Image Segmentation: Two Decades of Research [22.533249554532322]
本書はセマンティックイメージセグメンテーション(SiS)分野における20年間の研究成果をまとめたものである。
本稿では,近年のトランスフォーマーの利用動向を含む,最近のディープラーニング手法の概要を紹介する。
我々は、マルチドメイン学習、ドメイン一般化、ドメインインクリメンタル学習、テスト時間適応、ソースフリードメイン適応といった新しいトレンドを明らかにした。
論文 参考訳(メタデータ) (2023-02-13T14:11:05Z) - Open-world Semantic Segmentation via Contrasting and Clustering
Vision-Language Embedding [95.78002228538841]
本研究では,様々なオープンワールドカテゴリのセマンティックオブジェクトを高密度アノテーションを使わずにセマンティックオブジェクトのセマンティックオブジェクトのセマンティック化を学習するための,新しいオープンワールドセマンティックセマンティックセマンティックセマンティクスパイプラインを提案する。
提案手法は任意のカテゴリのオブジェクトを直接分割し、3つのベンチマークデータセット上でデータラベリングを必要とするゼロショットセグメンテーション法より優れている。
論文 参考訳(メタデータ) (2022-07-18T09:20:04Z) - A Survey on Label-efficient Deep Segmentation: Bridging the Gap between
Weak Supervision and Dense Prediction [115.9169213834476]
本稿では,ラベル効率の高いセグメンテーション手法について概説する。
まず,様々な種類の弱いラベルによって提供される監督に従って,これらの手法を整理する分類法を開発する。
次に,既存のラベル効率のセグメンテーション手法を統一的な視点から要約する。
論文 参考訳(メタデータ) (2022-07-04T06:21:01Z) - Panoptic Segmentation: A Review [2.270719568619559]
本稿では,既存の汎視的セグメンテーション手法の包括的レビューを行う。
パノプティクスのセグメンテーションは現在、ビデオ監視、群衆のカウント、自動運転、医療画像分析などの画像シーンに関する、より精巧な知識を得るために研究中である。
論文 参考訳(メタデータ) (2021-11-19T14:40:24Z) - A Few Guidelines for Incremental Few-Shot Segmentation [57.34237650765928]
事前訓練されたセグメンテーションモデルと、新しいクラスを含む画像が少ないことを前提として、我々が目指すのは、以前に見たセグメンテーション能力を維持しながら、新しいクラスをセグメンテーションすることである。
このシナリオにおけるエンド・ツー・エンドのトレーニングの主な問題はどのようなものかを示します。
一 バッチ正規化統計を、バッチ正規化で修正できる新しいクラスへ向けての漂流すること。
二 旧クラスの忘れ物 正規化戦略で解決できるもの。
論文 参考訳(メタデータ) (2020-11-30T20:45:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。