Fugu-MT 論文翻訳(概要): Image Segmentation in Foundation Model Era: A Survey

論文の概要: Image Segmentation in Foundation Model Era: A Survey

arxiv url: http://arxiv.org/abs/2408.12957v3
Date: Wed, 27 Nov 2024 09:54:05 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-01 15:52:52.68855
Title: Image Segmentation in Foundation Model Era: A Survey
Title（参考訳）: 基礎モデル時代のイメージセグメンテーション:サーベイ
Authors: Tianfei Zhou, Wang Xia, Fei Zhang, Boyu Chang, Wenguan Wang, Ye Yuan, Ender Konukoglu, Daniel Cremers,
Abstract要約: イメージセグメンテーションにおける現在の研究は、異なる特徴、課題、解決策の詳細な分析を欠いている。本調査は、FM駆動画像セグメンテーションを中心とした最先端の研究を徹底的にレビューすることで、このギャップを埋めようとしている。現在の研究成果の広さを包括する,300以上のセグメンテーションアプローチの概要を概観する。
参考スコア（独自算出の注目度）: 95.60054312319939
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Image segmentation is a long-standing challenge in computer vision, studied continuously over several decades, as evidenced by seminal algorithms such as N-Cut, FCN, and MaskFormer. With the advent of foundation models (FMs), contemporary segmentation methodologies have embarked on a new epoch by either adapting FMs (e.g., CLIP, Stable Diffusion, DINO) for image segmentation or developing dedicated segmentation foundation models (e.g., SAM). These approaches not only deliver superior segmentation performance, but also herald newfound segmentation capabilities previously unseen in deep learning context. However, current research in image segmentation lacks a detailed analysis of distinct characteristics, challenges, and solutions associated with these advancements. This survey seeks to fill this gap by providing a thorough review of cutting-edge research centered around FM-driven image segmentation. We investigate two basic lines of research -- generic image segmentation (i.e., semantic segmentation, instance segmentation, panoptic segmentation), and promptable image segmentation (i.e., interactive segmentation, referring segmentation, few-shot segmentation) -- by delineating their respective task settings, background concepts, and key challenges. Furthermore, we provide insights into the emergence of segmentation knowledge from FMs like CLIP, Stable Diffusion, and DINO. An exhaustive overview of over 300 segmentation approaches is provided to encapsulate the breadth of current research efforts. Subsequently, we engage in a discussion of open issues and potential avenues for future research. We envisage that this fresh, comprehensive, and systematic survey catalyzes the evolution of advanced image segmentation systems. A public website is created to continuously track developments in this fast advancing field: \url{https://github.com/stanley-313/ImageSegFM-Survey}.
Abstract（参考訳）: イメージセグメンテーション(英: Image segmentation)は、N-Cut、FCN、MaskFormerなどのアルゴリズムが数十年にわたって研究してきたコンピュータビジョンにおける長年にわたる課題である。ファンデーションモデル(FM)の出現に伴い、現代セグメンテーション手法は、画像セグメンテーションにFM(例えば、CLIP、安定拡散、DINO)を適応するか、または専用のセグメンテーション基盤モデル(例えば、SAM)を開発することによって、新しいエポックに突入した。これらのアプローチは、優れたセグメンテーション性能を提供するだけでなく、これまでディープラーニング環境では見られなかった新しいセグメンテーション機能も提供する。しかし、イメージセグメンテーションにおける現在の研究は、これらの進歩に関連する特徴、課題、解決策の詳細な分析を欠いている。本調査は、FM駆動画像セグメンテーションを中心とした最先端の研究を徹底的にレビューすることで、このギャップを埋めようとしている。汎用画像セグメンテーション(セグメンテーション、インスタンスセグメンテーション、パン光学セグメンテーション)と、プロンプト可能な画像セグメンテーション(インタラクティブセグメンテーション、参照セグメンテーション、少数ショットセグメンテーション)の2つの基本的な研究行について、それぞれのタスク設定、背景概念、重要な課題について考察する。さらに,CLIP,Stable Diffusion,DINOといったFMからのセグメンテーション知識の出現に関する洞察を提供する。現在の研究成果の広さを包括する,300以上のセグメンテーションアプローチの概要を概観する。その後、今後の研究に向けて、オープンな課題と潜在的な道のりについて議論する。我々は,この新鮮で包括的で体系的な調査が,高度な画像分割システムの進化を触媒すると考えている。パブリックWebサイトは、この高速進行分野における開発を継続的に追跡するために作成されている。

関連論文リスト

No time to train! Training-Free Reference-Based Instance Segmentation [15.061599989448867]
本研究は,少数の参照画像のみを備える場合のオブジェクトセグメンテーションの課題について検討する。我々の重要な洞察は、ファンデーションモデルによって学習された強力なセマンティック・プライドを活用して、参照とターゲット画像の間の対応する領域を特定することである。対応によって、下流タスクのためのインスタンスレベルのセグメンテーションマスクの自動生成が可能になり、マルチステージのトレーニング不要な方法でアイデアをインスタンス化する。
論文参考訳（メタデータ） (2025-07-03T16:59:01Z)
Think Before You Segment: High-Quality Reasoning Segmentation with GPT Chain of Thoughts [64.93416171745693]
ThinkFirstはトレーニング不要の推論セグメンテーションフレームワークである。我々のアプローチでは、GPT-4oや他の強力なMLLMが画像の詳細なチェーン記述を生成することができる。この要約された記述は、セグメンテーションプロセスを支援するために言語で指示されたセグメンテーションアシスタントに渡される。
論文参考訳（メタデータ） (2025-03-10T16:26:11Z)
One-shot In-context Part Segmentation [97.77292483684877]
パートセグメンテーションの課題に取り組むために,One-shot In-context Part (OIParts) フレームワークを提案する。私たちのフレームワークは、トレーニングのない、フレキシブルで、データ効率のよいパートセグメンテーションに対して、新しいアプローチを提供します。我々は多種多様な対象カテゴリで顕著なセグメンテーション性能を達成した。
論文参考訳（メタデータ） (2025-03-03T03:50:54Z)
USE: Universal Segment Embeddings for Open-Vocabulary Image Segmentation [33.11010205890195]
オープン語彙のイメージセグメンテーションにおける大きな課題は、これらのセグメンテーションをテキスト定義カテゴリに正確に分類することにある。この課題に対処するために、Universal Segment Embedding(USE)フレームワークを紹介します。本フレームワークは,1)大量のセグメントテキストペアを様々な粒度で効率的にキュレートするように設計されたデータパイプライン,2)テキスト定義のカテゴリに精度の高いセグメント分類を可能にする普遍的なセグメント埋め込みモデルからなる。
論文参考訳（メタデータ） (2024-06-07T21:41:18Z)
Semi-Supervised Semantic Segmentation Based on Pseudo-Labels: A Survey [49.47197748663787]
本総説は, 半教師付きセマンティックセグメンテーション分野における擬似ラベル手法に関する最新の研究成果について, 包括的かつ組織的に概観することを目的としている。さらに,医用およびリモートセンシング画像のセグメンテーションにおける擬似ラベル技術の適用について検討する。
論文参考訳（メタデータ） (2024-03-04T10:18:38Z)
Weakly-Supervised Semantic Segmentation with Image-Level Labels: from Traditional Models to Foundation Models [33.690846523358836]
弱教師付きセマンティックセマンティックセグメンテーション(WSSS)はピクセルレベルのラベルを避ける効果的なソリューションである。私たちは、WSSSの最も難しい形態であるイメージレベルのラベルによるWSSSに焦点を当てています。本稿では,WSSS の文脈において,Segment Anything Model (SAM) などの視覚基盤モデルの適用性について検討する。
論文参考訳（メタデータ） (2023-10-19T07:16:54Z)
SamDSK: Combining Segment Anything Model with Domain-Specific Knowledge for Semi-Supervised Learning in Medical Image Segmentation [27.044797468878837]
Segment Anything Model (SAM)は、自然画像に広範囲のオブジェクトを分割する機能を示す。本稿では、SAMとドメイン固有の知識を組み合わせて、ラベルなし画像の信頼性の高い利用法を提案する。本研究は,医用画像セグメンテーションのための半教師あり学習の新たな方向性を創出する。
論文参考訳（メタデータ） (2023-08-26T04:46:10Z)
AIMS: All-Inclusive Multi-Level Segmentation [93.5041381700744]
視覚領域を3つのレベル(パート、エンティティ、リレーション)に分割するタスクであるAll-Inclusive Multi-Level(AIMS)を提案する。また、アノテーションの不整合とタスク相関の2つの大きな課題に対処するために、マルチデータセットのマルチタスクトレーニングを通じて統合されたAIMSモデルを構築します。
論文参考訳（メタデータ） (2023-05-28T16:28:49Z)
Transformer-Based Visual Segmentation: A Survey [118.01564082499948]
ビジュアルセグメンテーションは、画像、ビデオフレーム、またはポイントクラウドを複数のセグメンテーションまたはグループに分割する。トランスフォーマー(Transformer)は、自然言語処理用に設計された自己アテンションに基づくニューラルネットワークの一種である。トランスフォーマーは、様々なセグメンテーションタスクに対して堅牢で統一的で、さらにシンプルなソリューションを提供する。
論文参考訳（メタデータ） (2023-04-19T17:59:02Z)
Semantic Image Segmentation: Two Decades of Research [22.533249554532322]
本書はセマンティックイメージセグメンテーション(SiS)分野における20年間の研究成果をまとめたものである。本稿では,近年のトランスフォーマーの利用動向を含む,最近のディープラーニング手法の概要を紹介する。我々は、マルチドメイン学習、ドメイン一般化、ドメインインクリメンタル学習、テスト時間適応、ソースフリードメイン適応といった新しいトレンドを明らかにした。
論文参考訳（メタデータ） (2023-02-13T14:11:05Z)
Open-world Semantic Segmentation via Contrasting and Clustering Vision-Language Embedding [95.78002228538841]
本研究では,様々なオープンワールドカテゴリのセマンティックオブジェクトを高密度アノテーションを使わずにセマンティックオブジェクトのセマンティックオブジェクトのセマンティック化を学習するための,新しいオープンワールドセマンティックセマンティックセマンティックセマンティクスパイプラインを提案する。提案手法は任意のカテゴリのオブジェクトを直接分割し、3つのベンチマークデータセット上でデータラベリングを必要とするゼロショットセグメンテーション法より優れている。
論文参考訳（メタデータ） (2022-07-18T09:20:04Z)
A Survey on Label-efficient Deep Segmentation: Bridging the Gap between Weak Supervision and Dense Prediction [115.9169213834476]
本稿では,ラベル効率の高いセグメンテーション手法について概説する。まず,様々な種類の弱いラベルによって提供される監督に従って,これらの手法を整理する分類法を開発する。次に,既存のラベル効率のセグメンテーション手法を統一的な視点から要約する。
論文参考訳（メタデータ） (2022-07-04T06:21:01Z)
Panoptic Segmentation: A Review [2.270719568619559]
本稿では,既存の汎視的セグメンテーション手法の包括的レビューを行う。パノプティクスのセグメンテーションは現在、ビデオ監視、群衆のカウント、自動運転、医療画像分析などの画像シーンに関する、より精巧な知識を得るために研究中である。
論文参考訳（メタデータ） (2021-11-19T14:40:24Z)
A Few Guidelines for Incremental Few-Shot Segmentation [57.34237650765928]
事前訓練されたセグメンテーションモデルと、新しいクラスを含む画像が少ないことを前提として、我々が目指すのは、以前に見たセグメンテーション能力を維持しながら、新しいクラスをセグメンテーションすることである。このシナリオにおけるエンド・ツー・エンドのトレーニングの主な問題はどのようなものかを示します。一バッチ正規化統計を、バッチ正規化で修正できる新しいクラスへ向けての漂流すること。二旧クラスの忘れ物正規化戦略で解決できるもの。
論文参考訳（メタデータ） (2020-11-30T20:45:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。