論文の概要: MosaicFusion: Diffusion Models as Data Augmenters for Large Vocabulary
Instance Segmentation
- arxiv url: http://arxiv.org/abs/2309.13042v1
- Date: Fri, 22 Sep 2023 17:59:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-25 13:31:55.356867
- Title: MosaicFusion: Diffusion Models as Data Augmenters for Large Vocabulary
Instance Segmentation
- Title(参考訳): MosaicFusion:大語彙インスタンスセグメンテーションのためのデータオーグメンタとしての拡散モデル
- Authors: Jiahao Xie, Wei Li, Xiangtai Li, Ziwei Liu, Yew Soon Ong, Chen Change
Loy
- Abstract要約: 本稿では,大語彙のインスタンスセグメンテーションのための拡散に基づくデータ拡張手法を提案する。
本手法はトレーニングフリーであり,ラベル管理に依存しない。
MosaicFusionは既存のインスタンスセグメンテーションモデルの性能を大幅に改善できることを示す。
- 参考スコア(独自算出の注目度): 110.23359628821542
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present MosaicFusion, a simple yet effective diffusion-based data
augmentation approach for large vocabulary instance segmentation. Our method is
training-free and does not rely on any label supervision. Two key designs
enable us to employ an off-the-shelf text-to-image diffusion model as a useful
dataset generator for object instances and mask annotations. First, we divide
an image canvas into several regions and perform a single round of diffusion
process to generate multiple instances simultaneously, conditioning on
different text prompts. Second, we obtain corresponding instance masks by
aggregating cross-attention maps associated with object prompts across layers
and diffusion time steps, followed by simple thresholding and edge-aware
refinement processing. Without bells and whistles, our MosaicFusion can produce
a significant amount of synthetic labeled data for both rare and novel
categories. Experimental results on the challenging LVIS long-tailed and
open-vocabulary benchmarks demonstrate that MosaicFusion can significantly
improve the performance of existing instance segmentation models, especially
for rare and novel categories. Code will be released at
https://github.com/Jiahao000/MosaicFusion.
- Abstract(参考訳): MosaicFusionは、大語彙のインスタンスセグメンテーションのための、単純で効果的な拡散に基づくデータ拡張手法である。
本手法はトレーニングフリーであり,ラベル管理に依存しない。
2つの重要な設計により、既存のテキストから画像への拡散モデルを、オブジェクトインスタンスとマスクアノテーションのための有用なデータセットジェネレータとして利用することができます。
まず、画像キャンバスを複数の領域に分割し、1ラウンドの拡散処理を行い、複数のインスタンスを同時に生成し、異なるテキストプロンプトを条件とする。
第2に,オブジェクトプロンプトと拡散時間ステップに関連付けられたクロスアテンションマップを集約し,簡単なしきい値処理とエッジ認識精錬処理によって対応するインスタンスマスクを得る。
鐘や笛がなければ、MosaicFusionは珍しいカテゴリーと新しいカテゴリの両方で大量の合成ラベル付きデータを生成できます。
LVISロングテールおよびオープンボキャブラリベンチマークの実験結果から,MosaicFusionが既存のインスタンスセグメンテーションモデル,特にレアおよび新規カテゴリの性能を大幅に向上できることが示された。
コードはhttps://github.com/jiahao000/mosaicfusionでリリースされる。
関連論文リスト
- InstanceDiffusion: Instance-level Control for Image Generation [89.31908006870422]
InstanceDiffusionは、テキストから画像への拡散モデルに正確なインスタンスレベルの制御を追加する。
そこで本研究では,テキスト・ツー・イメージ・モデルに3つの大きな変更を加えて,高精度なインスタンスレベルの制御を実現する。
論文 参考訳(メタデータ) (2024-02-05T18:49:17Z) - UniGS: Unified Representation for Image Generation and Segmentation [105.08152635402858]
カラーマップを使用してエンティティレベルのマスクを表現し、さまざまなエンティティ番号の課題に対処します。
マスク表現を支援するために、位置認識カラーパレットとプログレッシブ二分法モジュールを含む2つの新しいモジュールが提案されている。
論文 参考訳(メタデータ) (2023-12-04T15:59:27Z) - DatasetDM: Synthesizing Data with Perception Annotations Using Diffusion
Models [61.906934570771256]
多様な合成画像や知覚アノテーションを生成できる汎用データセット生成モデルを提案する。
本手法は,事前学習した拡散モデルに基づいて,テキスト誘導画像合成を知覚データ生成に拡張する。
拡散モデルのリッチ潜時コードはデコーダモジュールを用いて正確な認識アノテーションとして効果的に復号できることを示す。
論文 参考訳(メタデータ) (2023-08-11T14:38:11Z) - MaskDiff: Modeling Mask Distribution with Diffusion Probabilistic Model
for Few-Shot Instance Segmentation [31.648523213206595]
少数ショットのインスタンスセグメンテーションは、数ショットの学習パラダイムをインスタンスセグメンテーションタスクに拡張する。
従来のアプローチでは、ポイント推定と呼ばれるプロトタイプ学習を通じてその課題に対処しようと試みてきた。
本稿では,二項マスクの条件分布をモデル化したMaskDiffという新しい手法を提案する。
論文 参考訳(メタデータ) (2023-03-09T08:24:02Z) - Open-vocabulary Object Segmentation with Diffusion Models [47.36233857830832]
本研究の目的は,事前訓練されたテキスト・画像拡散モデルから,セグメント化マップの形式で視覚言語対応を抽出することである。
合成セマンティックセグメンテーションデータセットを構築するために拡張拡散モデルを採用し、そのようなデータセット上で標準セグメンテーションモデルをトレーニングすることで、ゼロショットセグメンテーション(ZS3)ベンチマーク上での競合性能を示すことを示す。
論文 参考訳(メタデータ) (2023-01-12T18:59:08Z) - Foreground-Background Separation through Concept Distillation from
Generative Image Foundation Models [6.408114351192012]
本稿では, 簡単なテキスト記述から, 一般的な前景-背景セグメンテーションモデルの生成を可能にする新しい手法を提案する。
本研究では,4つの異なる物体(人間,犬,車,鳥)を分割する作業と,医療画像解析におけるユースケースシナリオについて述べる。
論文 参考訳(メタデータ) (2022-12-29T13:51:54Z) - SODAR: Segmenting Objects by DynamicallyAggregating Neighboring Mask
Representations [90.8752454643737]
最近の最先端のワンステージインスタンスセグメンテーションモデルSOLOは、入力画像をグリッドに分割し、完全な畳み込みネットワークを備えたグリッドセルオブジェクトマスクを直接予測する。
我々は,SOLOが近傍の格子セルの物体に対して類似したマスクを生成するのを観察する。
観測されたギャップによってモチベーションを得た学習ベースのアグリゲーション手法を開発し,そのリッチな隣り合う情報を活用してSOLOを改善する。
論文 参考訳(メタデータ) (2022-02-15T13:53:03Z) - Label-Efficient Semantic Segmentation with Diffusion Models [27.01899943738203]
拡散モデルは意味的セグメンテーションの道具としても機能することを示した。
特に、いくつかの事前訓練拡散モデルに対して、逆拡散過程のマルコフステップを実行するネットワークからの中間活性化について検討する。
これらのアクティベーションは、入力画像から意味情報を効果的にキャプチャし、セグメンテーション問題に対して優れたピクセルレベルの表現であることを示す。
論文 参考訳(メタデータ) (2021-12-06T15:55:30Z) - Scaling up instance annotation via label propagation [69.8001043244044]
本稿では,オブジェクトセグメンテーションマスクを用いた大規模データセット構築のための高効率アノテーション手法を提案する。
セグメンテーションモデルによるマスク予測に階層的クラスタリングを用いることにより,これらの類似性を生かした。
総アノテーション時間はたった290時間である100万個のオブジェクトセグメンテーションマスクが得られた。
論文 参考訳(メタデータ) (2021-10-05T18:29:34Z) - CMF: Cascaded Multi-model Fusion for Referring Image Segmentation [24.942658173937563]
本稿では,自然言語表現によって記述された対象に対するセグメンテーションマスクの予測を目的とした画像セグメンテーション(RIS)の課題に対処する。
本稿では,マルチモーダル・フュージョン (CMF) モジュールを提案する。
4つのベンチマークデータセットによる実験結果から,本手法は最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2021-06-16T08:18:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。