論文の概要: Foreground-Background Separation through Concept Distillation from
Generative Image Foundation Models
- arxiv url: http://arxiv.org/abs/2212.14306v2
- Date: Mon, 4 Sep 2023 07:44:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-07 07:06:44.475048
- Title: Foreground-Background Separation through Concept Distillation from
Generative Image Foundation Models
- Title(参考訳): 画像生成モデルからの概念蒸留による前景-背景分離
- Authors: Mischa Dombrowski, Hadrien Reynaud, Matthew Baugh and Bernhard Kainz
- Abstract要約: 本稿では, 簡単なテキスト記述から, 一般的な前景-背景セグメンテーションモデルの生成を可能にする新しい手法を提案する。
本研究では,4つの異なる物体(人間,犬,車,鳥)を分割する作業と,医療画像解析におけるユースケースシナリオについて述べる。
- 参考スコア(独自算出の注目度): 6.408114351192012
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Curating datasets for object segmentation is a difficult task. With the
advent of large-scale pre-trained generative models, conditional image
generation has been given a significant boost in result quality and ease of
use. In this paper, we present a novel method that enables the generation of
general foreground-background segmentation models from simple textual
descriptions, without requiring segmentation labels. We leverage and explore
pre-trained latent diffusion models, to automatically generate weak
segmentation masks for concepts and objects. The masks are then used to
fine-tune the diffusion model on an inpainting task, which enables fine-grained
removal of the object, while at the same time providing a synthetic foreground
and background dataset. We demonstrate that using this method beats previous
methods in both discriminative and generative performance and closes the gap
with fully supervised training while requiring no pixel-wise object labels. We
show results on the task of segmenting four different objects (humans, dogs,
cars, birds) and a use case scenario in medical image analysis. The code is
available at https://github.com/MischaD/fobadiffusion.
- Abstract(参考訳): オブジェクトセグメンテーションのためのデータセットのキュレーションは難しい作業です。
大規模事前学習型生成モデルの出現により、条件付き画像生成は結果の品質と使いやすさを著しく向上させた。
本稿では,単純なテキスト記述から,セグメンテーションラベルを必要とせずに,一般的なフォアグラウンド・バックグラウンド・セグメンテーションモデルを生成する手法を提案する。
事前学習した潜在拡散モデルを利用して、概念や対象に対する弱いセグメンテーションマスクを自動生成する。
マスクは塗布作業で拡散モデルを微調整するために使用され、それによってオブジェクトのきめ細かい除去が可能となり、同時に合成フォアグラウンドと背景データセットが提供される。
我々は,この手法が従来の手法を判別的・生成的性能の両方で破り,画素単位のオブジェクトラベルを必要とせず,完全に教師付きトレーニングでギャップを埋めることを示した。
医療画像解析において,4つの異なる対象(人間,犬,車,鳥)を分割する作業と,ユースケースのシナリオを示す。
コードはhttps://github.com/mischad/fobadiffusionで入手できる。
関連論文リスト
- DiffUHaul: A Training-Free Method for Object Dragging in Images [78.93531472479202]
DiffUHaulと呼ばれるオブジェクトドラッグタスクのためのトレーニング不要な手法を提案する。
まず、各認知段階に注意マスキングを適用して、各生成を異なるオブジェクトにまたがってよりゆがみやすくする。
初期のデノナイジングステップでは、ソース画像とターゲット画像の注意特徴を補間して、新しいレイアウトを元の外観とスムーズに融合させる。
論文 参考訳(メタデータ) (2024-06-03T17:59:53Z) - FreeSeg-Diff: Training-Free Open-Vocabulary Segmentation with Diffusion Models [56.71672127740099]
我々は,閉鎖語彙データセットのトレーニングモデルによって伝統的に解決されるイメージセグメンテーションの課題に焦点をあてる。
我々は、ゼロショットのオープン語彙セグメンテーションのために、異なる、比較的小さなオープンソース基盤モデルを活用している。
当社のアプローチ(別名FreeSeg-Diff)は、トレーニングに依存しないもので、Pascal VOCとCOCOデータセットの両方で多くのトレーニングベースのアプローチより優れています。
論文 参考訳(メタデータ) (2024-03-29T10:38:25Z) - Outline-Guided Object Inpainting with Diffusion Models [11.391452115311798]
インスタンスセグメンテーションデータセットは、正確で堅牢なコンピュータビジョンモデルのトレーニングにおいて重要な役割を果たす。
この問題は、小さなアノテーション付きインスタンスセグメンテーションデータセットから始めて、拡張して、サイズが拡大されたアノテーション付きデータセットを取得することで緩和できることを示す。
オブジェクトアウトラインの拡散を導くことで,対象クラスでマスク領域を埋めるために,拡散ベースの塗装モデルを用いて新しい画像を生成する。
論文 参考訳(メタデータ) (2024-02-26T09:21:17Z) - Dataset Diffusion: Diffusion-based Synthetic Dataset Generation for
Pixel-Level Semantic Segmentation [6.82236459614491]
テキストから画像への生成モデルであるStable Diffusionを用いて,ピクセルレベルのセマンティックセマンティックセマンティクスラベルを生成する手法を提案する。
テキストプロンプト,クロスアテンション,SDの自己アテンションを活用することで,クラスプロンプト付加,クラスプロンプト横断アテンション,自己アテンション指数の3つの新しい手法を導入する。
これらの手法により合成画像に対応するセグメンテーションマップを生成することができる。
論文 参考訳(メタデータ) (2023-09-25T17:19:26Z) - Microscopy Image Segmentation via Point and Shape Regularized Data
Synthesis [9.47802391546853]
合成学習データを用いた顕微鏡画像セグメンテーションのための統一パイプラインを構築した。
本フレームワークは,濃密なラベルを持つ高精度な顕微鏡画像で訓練されたモデルと同等の結果が得られる。
論文 参考訳(メタデータ) (2023-08-18T22:00:53Z) - DiffuMask: Synthesizing Images with Pixel-level Annotations for Semantic
Segmentation Using Diffusion Models [68.21154597227165]
本研究では,オフザシェルフ安定拡散モデルにより生成された合成画像の正確なセマンティックマスクを自動で取得できることを示す。
我々のアプローチはDiffuMaskと呼ばれ、テキストと画像間の相互注意マップの可能性を利用しています。
論文 参考訳(メタデータ) (2023-03-21T08:43:15Z) - A Generalist Framework for Panoptic Segmentation of Images and Videos [61.61453194912186]
我々は,タスクの帰納バイアスに頼ることなく,離散的なデータ生成問題としてパノプティクスセグメンテーションを定式化する。
単純な構造と一般的な損失関数を持つパノスコープマスクをモデル化するための拡散モデルを提案する。
本手法は,動画を(ストリーミング環境で)モデル化し,オブジェクトのインスタンスを自動的に追跡することを学ぶ。
論文 参考訳(メタデータ) (2022-10-12T16:18:25Z) - Discovering Object Masks with Transformers for Unsupervised Semantic
Segmentation [75.00151934315967]
MaskDistillは教師なしセマンティックセグメンテーションのための新しいフレームワークである。
我々のフレームワークは、低レベルの画像キューにラッチを付けず、オブジェクト中心のデータセットに限らない。
論文 参考訳(メタデータ) (2022-06-13T17:59:43Z) - CYBORGS: Contrastively Bootstrapping Object Representations by Grounding
in Segmentation [22.89327564484357]
本稿では,表現とセグメンテーションの協調学習を通じて,この目標を達成するフレームワークを提案する。
これら2つのコンポーネントを反復することにより、セグメンテーション情報のコントラスト更新を行い、プレトレーニングを通じてセグメンテーションを改善する。
論文 参考訳(メタデータ) (2022-03-17T14:20:05Z) - Rectifying the Shortcut Learning of Background: Shared Object
Concentration for Few-Shot Image Recognition [101.59989523028264]
Few-Shot画像分類は、大規模なデータセットから学んだ事前学習された知識を利用して、一連の下流分類タスクに取り組むことを目的としている。
本研究では,Few-Shot LearningフレームワークであるCOSOCを提案する。
論文 参考訳(メタデータ) (2021-07-16T07:46:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。