Fugu-MT 論文翻訳(概要): MosaicFusion: Diffusion Models as Data Augmenters for Large Vocabulary Instance Segmentation

論文の概要: MosaicFusion: Diffusion Models as Data Augmenters for Large Vocabulary Instance Segmentation

arxiv url: http://arxiv.org/abs/2309.13042v1
Date: Fri, 22 Sep 2023 17:59:42 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-25 13:31:55.356867
Title: MosaicFusion: Diffusion Models as Data Augmenters for Large Vocabulary Instance Segmentation
Title（参考訳）: MosaicFusion:大語彙インスタンスセグメンテーションのためのデータオーグメンタとしての拡散モデル
Authors: Jiahao Xie, Wei Li, Xiangtai Li, Ziwei Liu, Yew Soon Ong, Chen Change Loy
Abstract要約: 本稿では,大語彙のインスタンスセグメンテーションのための拡散に基づくデータ拡張手法を提案する。本手法はトレーニングフリーであり,ラベル管理に依存しない。 MosaicFusionは既存のインスタンスセグメンテーションモデルの性能を大幅に改善できることを示す。
参考スコア（独自算出の注目度）: 110.23359628821542
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present MosaicFusion, a simple yet effective diffusion-based data augmentation approach for large vocabulary instance segmentation. Our method is training-free and does not rely on any label supervision. Two key designs enable us to employ an off-the-shelf text-to-image diffusion model as a useful dataset generator for object instances and mask annotations. First, we divide an image canvas into several regions and perform a single round of diffusion process to generate multiple instances simultaneously, conditioning on different text prompts. Second, we obtain corresponding instance masks by aggregating cross-attention maps associated with object prompts across layers and diffusion time steps, followed by simple thresholding and edge-aware refinement processing. Without bells and whistles, our MosaicFusion can produce a significant amount of synthetic labeled data for both rare and novel categories. Experimental results on the challenging LVIS long-tailed and open-vocabulary benchmarks demonstrate that MosaicFusion can significantly improve the performance of existing instance segmentation models, especially for rare and novel categories. Code will be released at https://github.com/Jiahao000/MosaicFusion.
Abstract（参考訳）: MosaicFusionは、大語彙のインスタンスセグメンテーションのための、単純で効果的な拡散に基づくデータ拡張手法である。本手法はトレーニングフリーであり,ラベル管理に依存しない。 2つの重要な設計により、既存のテキストから画像への拡散モデルを、オブジェクトインスタンスとマスクアノテーションのための有用なデータセットジェネレータとして利用することができます。まず、画像キャンバスを複数の領域に分割し、1ラウンドの拡散処理を行い、複数のインスタンスを同時に生成し、異なるテキストプロンプトを条件とする。第2に,オブジェクトプロンプトと拡散時間ステップに関連付けられたクロスアテンションマップを集約し,簡単なしきい値処理とエッジ認識精錬処理によって対応するインスタンスマスクを得る。鐘や笛がなければ、MosaicFusionは珍しいカテゴリーと新しいカテゴリの両方で大量の合成ラベル付きデータを生成できます。 LVISロングテールおよびオープンボキャブラリベンチマークの実験結果から,MosaicFusionが既存のインスタンスセグメンテーションモデル,特にレアおよび新規カテゴリの性能を大幅に向上できることが示された。コードはhttps://github.com/jiahao000/mosaicfusionでリリースされる。

関連論文リスト

LlamaSeg: Image Segmentation via Autoregressive Mask Generation [46.17509085054758]
LlamaSegは視覚的自己回帰フレームワークで、自然言語による複数の画像分割タスクを統一する。マスクを「視覚的」トークンとして表現し、LLaMA方式のトランスフォーマーを用いて画像入力から直接予測することで、画像分割を視覚生成問題として再構成する。
論文参考訳（メタデータ） (2025-05-26T02:22:41Z)
DiffuMask-Editor: A Novel Paradigm of Integration Between the Segmentation Diffusion Model and Image Editing to Improve Segmentation Ability [5.767984430681467]
本稿では、アノテーション付きデータセットに対する拡散モデルと画像編集を組み合わせたDiffuMask-Editorを提案する。 Text2Imageモデルを用いて複数のオブジェクトを画像に統合することにより、より現実的なデータセットの作成を容易にする。その結果、DiffuMask-Editorによって生成された合成データにより、セグメント化法は実データよりも優れた性能が得られることが示された。
論文参考訳（メタデータ） (2024-11-04T05:39:01Z)
HiDiff: Hybrid Diffusion Framework for Medical Image Segmentation [16.906987804797975]
HiDiffは医療画像セグメンテーションのためのハイブリッド拡散フレームワークである。既存の識別的セグメンテーションモデルと新しい生成的拡散モデルの強みを相乗化することができる。小さなオブジェクトをセグメンテーションし、新しいデータセットに一般化する。
論文参考訳（メタデータ） (2024-07-03T23:59:09Z)
FreeSeg-Diff: Training-Free Open-Vocabulary Segmentation with Diffusion Models [56.71672127740099]
我々は,閉鎖語彙データセットのトレーニングモデルによって伝統的に解決されるイメージセグメンテーションの課題に焦点をあてる。我々は、ゼロショットのオープン語彙セグメンテーションのために、異なる、比較的小さなオープンソース基盤モデルを活用している。当社のアプローチ(別名FreeSeg-Diff)は、トレーニングに依存しないもので、Pascal VOCとCOCOデータセットの両方で多くのトレーニングベースのアプローチより優れています。
論文参考訳（メタデータ） (2024-03-29T10:38:25Z)
SatSynth: Augmenting Image-Mask Pairs through Diffusion Models for Aerial Semantic Segmentation [69.42764583465508]
我々は,地球観測における注釈付きデータの不足に対処するために,生成的画像拡散の可能性を探る。我々の知る限りでは、衛星セグメンテーションのための画像と対応するマスクの両方を最初に生成する。
論文参考訳（メタデータ） (2024-03-25T10:30:22Z)
Open-Vocabulary Attention Maps with Token Optimization for Semantic Segmentation in Diffusion Models [1.6450779686641077]
OVAM(Open-Vocabulary Attention Maps)は,テキスト・画像拡散モデルのためのトレーニング不要な手法である。既存の安定拡散拡張の中でこれらのトークンを評価する。
論文参考訳（メタデータ） (2024-03-21T10:56:12Z)
On the Multi-modal Vulnerability of Diffusion Models [56.08923332178462]
本稿では,MMP-Attackによる拡散モデル生成結果の操作について,特定の接尾辞を元のプロンプトに付加することで提案する。我々のゴールは、拡散モデルを誘導し、元のオブジェクトを同時に除去しながら特定のオブジェクトを生成することである。
論文参考訳（メタデータ） (2024-02-02T12:39:49Z)
DatasetDM: Synthesizing Data with Perception Annotations Using Diffusion Models [61.906934570771256]
多様な合成画像や知覚アノテーションを生成できる汎用データセット生成モデルを提案する。本手法は,事前学習した拡散モデルに基づいて,テキスト誘導画像合成を知覚データ生成に拡張する。拡散モデルのリッチ潜時コードはデコーダモジュールを用いて正確な認識アノテーションとして効果的に復号できることを示す。
論文参考訳（メタデータ） (2023-08-11T14:38:11Z)
Open-vocabulary Object Segmentation with Diffusion Models [47.36233857830832]
本研究の目的は,事前訓練されたテキスト・画像拡散モデルから,セグメント化マップの形式で視覚言語対応を抽出することである。合成セマンティックセグメンテーションデータセットを構築するために拡張拡散モデルを採用し、そのようなデータセット上で標準セグメンテーションモデルをトレーニングすることで、ゼロショットセグメンテーション(ZS3)ベンチマーク上での競合性能を示すことを示す。
論文参考訳（メタデータ） (2023-01-12T18:59:08Z)
SODAR: Segmenting Objects by DynamicallyAggregating Neighboring Mask Representations [90.8752454643737]
最近の最先端のワンステージインスタンスセグメンテーションモデルSOLOは、入力画像をグリッドに分割し、完全な畳み込みネットワークを備えたグリッドセルオブジェクトマスクを直接予測する。我々は,SOLOが近傍の格子セルの物体に対して類似したマスクを生成するのを観察する。観測されたギャップによってモチベーションを得た学習ベースのアグリゲーション手法を開発し,そのリッチな隣り合う情報を活用してSOLOを改善する。
論文参考訳（メタデータ） (2022-02-15T13:53:03Z)
Scaling up instance annotation via label propagation [69.8001043244044]
本稿では,オブジェクトセグメンテーションマスクを用いた大規模データセット構築のための高効率アノテーション手法を提案する。セグメンテーションモデルによるマスク予測に階層的クラスタリングを用いることにより,これらの類似性を生かした。総アノテーション時間はたった290時間である100万個のオブジェクトセグメンテーションマスクが得られた。
論文参考訳（メタデータ） (2021-10-05T18:29:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。