論文の概要: MosaicFusion: Diffusion Models as Data Augmenters for Large Vocabulary
Instance Segmentation
- arxiv url: http://arxiv.org/abs/2309.13042v1
- Date: Fri, 22 Sep 2023 17:59:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-25 13:31:55.356867
- Title: MosaicFusion: Diffusion Models as Data Augmenters for Large Vocabulary
Instance Segmentation
- Title(参考訳): MosaicFusion:大語彙インスタンスセグメンテーションのためのデータオーグメンタとしての拡散モデル
- Authors: Jiahao Xie, Wei Li, Xiangtai Li, Ziwei Liu, Yew Soon Ong, Chen Change
Loy
- Abstract要約: 本稿では,大語彙のインスタンスセグメンテーションのための拡散に基づくデータ拡張手法を提案する。
本手法はトレーニングフリーであり,ラベル管理に依存しない。
MosaicFusionは既存のインスタンスセグメンテーションモデルの性能を大幅に改善できることを示す。
- 参考スコア(独自算出の注目度): 110.23359628821542
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present MosaicFusion, a simple yet effective diffusion-based data
augmentation approach for large vocabulary instance segmentation. Our method is
training-free and does not rely on any label supervision. Two key designs
enable us to employ an off-the-shelf text-to-image diffusion model as a useful
dataset generator for object instances and mask annotations. First, we divide
an image canvas into several regions and perform a single round of diffusion
process to generate multiple instances simultaneously, conditioning on
different text prompts. Second, we obtain corresponding instance masks by
aggregating cross-attention maps associated with object prompts across layers
and diffusion time steps, followed by simple thresholding and edge-aware
refinement processing. Without bells and whistles, our MosaicFusion can produce
a significant amount of synthetic labeled data for both rare and novel
categories. Experimental results on the challenging LVIS long-tailed and
open-vocabulary benchmarks demonstrate that MosaicFusion can significantly
improve the performance of existing instance segmentation models, especially
for rare and novel categories. Code will be released at
https://github.com/Jiahao000/MosaicFusion.
- Abstract(参考訳): MosaicFusionは、大語彙のインスタンスセグメンテーションのための、単純で効果的な拡散に基づくデータ拡張手法である。
本手法はトレーニングフリーであり,ラベル管理に依存しない。
2つの重要な設計により、既存のテキストから画像への拡散モデルを、オブジェクトインスタンスとマスクアノテーションのための有用なデータセットジェネレータとして利用することができます。
まず、画像キャンバスを複数の領域に分割し、1ラウンドの拡散処理を行い、複数のインスタンスを同時に生成し、異なるテキストプロンプトを条件とする。
第2に,オブジェクトプロンプトと拡散時間ステップに関連付けられたクロスアテンションマップを集約し,簡単なしきい値処理とエッジ認識精錬処理によって対応するインスタンスマスクを得る。
鐘や笛がなければ、MosaicFusionは珍しいカテゴリーと新しいカテゴリの両方で大量の合成ラベル付きデータを生成できます。
LVISロングテールおよびオープンボキャブラリベンチマークの実験結果から,MosaicFusionが既存のインスタンスセグメンテーションモデル,特にレアおよび新規カテゴリの性能を大幅に向上できることが示された。
コードはhttps://github.com/jiahao000/mosaicfusionでリリースされる。
関連論文リスト
- HiDiff: Hybrid Diffusion Framework for Medical Image Segmentation [16.906987804797975]
HiDiffは医療画像セグメンテーションのためのハイブリッド拡散フレームワークである。
既存の識別的セグメンテーションモデルと新しい生成的拡散モデルの強みを相乗化することができる。
小さなオブジェクトをセグメンテーションし、新しいデータセットに一般化する。
論文 参考訳(メタデータ) (2024-07-03T23:59:09Z) - Simple and Effective Masked Diffusion Language Models [48.68198363304619]
単純なマスク付き離散拡散は以前考えられていたよりも性能が高いことを示す。
マスク拡散モデルの性能を向上させる効果的なトレーニングレシピを適用した。
私たちの目標はシンプルなフォーム -- 古典的なマスキング言語モデリング損失の混合です。
論文 参考訳(メタデータ) (2024-06-11T17:51:40Z) - FreeSeg-Diff: Training-Free Open-Vocabulary Segmentation with Diffusion Models [56.71672127740099]
我々は,閉鎖語彙データセットのトレーニングモデルによって伝統的に解決されるイメージセグメンテーションの課題に焦点をあてる。
我々は、ゼロショットのオープン語彙セグメンテーションのために、異なる、比較的小さなオープンソース基盤モデルを活用している。
当社のアプローチ(別名FreeSeg-Diff)は、トレーニングに依存しないもので、Pascal VOCとCOCOデータセットの両方で多くのトレーニングベースのアプローチより優れています。
論文 参考訳(メタデータ) (2024-03-29T10:38:25Z) - Open-Vocabulary Attention Maps with Token Optimization for Semantic Segmentation in Diffusion Models [1.6450779686641077]
OVAM(Open-Vocabulary Attention Maps)は,テキスト・画像拡散モデルのためのトレーニング不要な手法である。
既存の安定拡散拡張の中でこれらのトークンを評価する。
論文 参考訳(メタデータ) (2024-03-21T10:56:12Z) - DatasetDM: Synthesizing Data with Perception Annotations Using Diffusion
Models [61.906934570771256]
多様な合成画像や知覚アノテーションを生成できる汎用データセット生成モデルを提案する。
本手法は,事前学習した拡散モデルに基づいて,テキスト誘導画像合成を知覚データ生成に拡張する。
拡散モデルのリッチ潜時コードはデコーダモジュールを用いて正確な認識アノテーションとして効果的に復号できることを示す。
論文 参考訳(メタデータ) (2023-08-11T14:38:11Z) - Open-vocabulary Object Segmentation with Diffusion Models [47.36233857830832]
本研究の目的は,事前訓練されたテキスト・画像拡散モデルから,セグメント化マップの形式で視覚言語対応を抽出することである。
合成セマンティックセグメンテーションデータセットを構築するために拡張拡散モデルを採用し、そのようなデータセット上で標準セグメンテーションモデルをトレーニングすることで、ゼロショットセグメンテーション(ZS3)ベンチマーク上での競合性能を示すことを示す。
論文 参考訳(メタデータ) (2023-01-12T18:59:08Z) - SODAR: Segmenting Objects by DynamicallyAggregating Neighboring Mask
Representations [90.8752454643737]
最近の最先端のワンステージインスタンスセグメンテーションモデルSOLOは、入力画像をグリッドに分割し、完全な畳み込みネットワークを備えたグリッドセルオブジェクトマスクを直接予測する。
我々は,SOLOが近傍の格子セルの物体に対して類似したマスクを生成するのを観察する。
観測されたギャップによってモチベーションを得た学習ベースのアグリゲーション手法を開発し,そのリッチな隣り合う情報を活用してSOLOを改善する。
論文 参考訳(メタデータ) (2022-02-15T13:53:03Z) - Scaling up instance annotation via label propagation [69.8001043244044]
本稿では,オブジェクトセグメンテーションマスクを用いた大規模データセット構築のための高効率アノテーション手法を提案する。
セグメンテーションモデルによるマスク予測に階層的クラスタリングを用いることにより,これらの類似性を生かした。
総アノテーション時間はたった290時間である100万個のオブジェクトセグメンテーションマスクが得られた。
論文 参考訳(メタデータ) (2021-10-05T18:29:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。