論文の概要: FreeMask: Synthetic Images with Dense Annotations Make Stronger
Segmentation Models
- arxiv url: http://arxiv.org/abs/2310.15160v1
- Date: Mon, 23 Oct 2023 17:57:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 17:54:50.510983
- Title: FreeMask: Synthetic Images with Dense Annotations Make Stronger
Segmentation Models
- Title(参考訳): FreeMask: より強力なセグメンテーションモデルを作るDenseアノテーション付き合成画像
- Authors: Lihe Yang, Xiaogang Xu, Bingyi Kang, Yinghuan Shi, Hengshuang Zhao
- Abstract要約: FreeMaskは、生成モデルからの合成画像を利用して、データ収集とアノテーション手順の負担を軽減する。
まず、現実的なデータセットによって提供されるセマンティックマスクに条件付けされた豊富な訓練画像を合成する。
本研究では,実画像との協調訓練や,実画像の事前学習による合成画像の役割について検討する。
- 参考スコア(独自算出の注目度): 62.009002395326384
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semantic segmentation has witnessed tremendous progress due to the proposal
of various advanced network architectures. However, they are extremely hungry
for delicate annotations to train, and the acquisition is laborious and
unaffordable. Therefore, we present FreeMask in this work, which resorts to
synthetic images from generative models to ease the burden of both data
collection and annotation procedures. Concretely, we first synthesize abundant
training images conditioned on the semantic masks provided by realistic
datasets. This yields extra well-aligned image-mask training pairs for semantic
segmentation models. We surprisingly observe that, solely trained with
synthetic images, we already achieve comparable performance with real ones
(e.g., 48.3 vs. 48.5 mIoU on ADE20K, and 49.3 vs. 50.5 on COCO-Stuff). Then, we
investigate the role of synthetic images by joint training with real images, or
pre-training for real images. Meantime, we design a robust filtering principle
to suppress incorrectly synthesized regions. In addition, we propose to
inequally treat different semantic masks to prioritize those harder ones and
sample more corresponding synthetic images for them. As a result, either
jointly trained or pre-trained with our filtered and re-sampled synthesized
images, segmentation models can be greatly enhanced, e.g., from 48.7 to 52.0 on
ADE20K. Code is available at https://github.com/LiheYoung/FreeMask.
- Abstract(参考訳): セマンティックセグメンテーションは、様々な高度なネットワークアーキテクチャの提案によって大きな進歩を遂げている。
しかし、彼らは繊細な注釈の訓練に非常に飢えており、買収は手間がかかり、耐え難い。
そこで本研究では,生成モデルからの合成画像を利用して,データ収集およびアノテーション処理の負担を軽減するFreeMaskを提案する。
具体的には,まず,現実のデータセットで提供される意味的マスクを条件とした豊富なトレーニング画像を合成する。
これにより、セマンティックセグメンテーションモデルのための画像マスクトレーニングペアがさらに充実する。
合成画像のみで訓練された私たちは、実画像と同等のパフォーマンスをすでに達成している(ADE20Kでは48.3対48.5 mIoU、COCO-Stuffでは49.3対50.5)。
次に,実画像との合同学習や実画像の事前学習による合成画像の役割について検討する。
時間とともに、誤った合成領域を抑えるための堅牢なフィルタリング原理を設計する。
さらに,これらの難易度を優先し,それらに対応する合成画像をサンプリングするために,異なる意味マスクを不等に扱うことを提案する。
その結果、フィルタおよび再サンプリングされた合成画像と共同でトレーニングまたは事前トレーニングを行った場合、セグメンテーションモデルはADE20K上で48.7から52.0まで大幅に拡張できることがわかった。
コードはhttps://github.com/liheyoung/freemaskで入手できる。
関連論文リスト
- Learning Vision from Models Rivals Learning Vision from Data [54.43596959598465]
合成画像と合成キャプションのみから視覚表現を学習するための新しいアプローチであるSynCLRを紹介する。
LLMを用いて画像キャプションの大規模なデータセットを合成し,既製のテキスト・ツー・イメージモデルを用いて合成キャプションに対応する複数の画像を生成する。
比較学習によって合成画像の視覚的表現学習を行い、同じ字幕を共有するイメージを正のペアとして扱う。
論文 参考訳(メタデータ) (2023-12-28T18:59:55Z) - SegGen: Supercharging Segmentation Models with Text2Mask and Mask2Img Synthesis [36.76548097887539]
SegGenは画像セグメンテーションのための高効率なトレーニングデータ生成方法である。
MaskSynはテキスト・ツー・マスク生成モデルとマスク・ツー・マスク生成モデルを用いて新しいマスク・イメージ・ペアを合成する。
ImgSynはマスク・ツー・イメージ生成モデルを用いて既存のマスクに基づいて新しい画像を合成する。
論文 参考訳(メタデータ) (2023-11-06T18:59:57Z) - Exploring Limits of Diffusion-Synthetic Training with Weakly Supervised Semantic Segmentation [16.863038973001483]
本研究は拡散合成セマンティックセマンティックセグメンテーショントレーニングの3つの手法を紹介する。
第一に、信頼性に配慮した堅牢なトレーニングは、もともと弱い教師付き学習で用いられ、合成マスクの品質が不十分なセグメンテーションに役立つ。
第2に、画像Net-1kクラスの画像にバックボーンだけでなく、全体セグメンテーションモデルの大規模事前トレーニングを行うことで、下流のセグメンテーションタスクにメリットがある。
第3に,テキストリソースの制限により,トレーニング画像のスケールアップと多様化を図るために,プロンプトテキストセットにプロンプト拡張,データ拡張を導入する。
論文 参考訳(メタデータ) (2023-09-04T05:34:19Z) - DiffuMask: Synthesizing Images with Pixel-level Annotations for Semantic
Segmentation Using Diffusion Models [68.21154597227165]
本研究では,オフザシェルフ安定拡散モデルにより生成された合成画像の正確なセマンティックマスクを自動で取得できることを示す。
我々のアプローチはDiffuMaskと呼ばれ、テキストと画像間の相互注意マップの可能性を利用しています。
論文 参考訳(メタデータ) (2023-03-21T08:43:15Z) - Mask Conditional Synthetic Satellite Imagery [10.235751992415867]
合成衛星画像データセット作成のためのマスク条件合成画像生成モデル
我々は,上流の条件付き合成画像生成装置を訓練し,その生成装置を用いてランドカバーマスクを用いた合成画像を作成することができることを示す。
実画像と合成画像の混合がデータ拡張手法として機能し、実画像のみを使用するよりも優れたモデルを生成することが判明した。
論文 参考訳(メタデータ) (2023-02-08T19:42:37Z) - One-Shot Synthesis of Images and Segmentation Masks [28.119303696418882]
画像合成とGAN(Generative Adversarial Network)とのセグメンテーションマスクの併用により,画像データをピクセル単位のアノテーションで収集する作業の削減が期待されている。
高忠実な画像マスク合成を学習するために、既存のGANアプローチは、大量の画像データを必要とする事前学習フェーズを必要とする。
我々は,1ショット方式で生成した画像に正確に整合したセグメンテーションマスクの合成を可能にするOSMISモデルを提案する。
論文 参考訳(メタデータ) (2022-09-15T18:00:55Z) - SdAE: Self-distillated Masked Autoencoder [95.3684955370897]
本稿では,自己蒸留マスク付きオートエンコーダネットワークSdAEを提案する。
300エポックの事前トレーニングで、バニラViT-BaseモデルはImageNet-1k分類において84.1%の微調整精度を達成する。
論文 参考訳(メタデータ) (2022-07-31T15:07:25Z) - TAGPerson: A Target-Aware Generation Pipeline for Person
Re-identification [65.60874203262375]
本稿では,TAGPerson と呼ばれる合成人物画像を生成する新しいターゲット・アウェア・ジェネレーション・パイプラインを提案する。
具体的には、パラメータが制御可能で、ターゲットのシーンに応じて調整できるパラメータ化レンダリング手法である。
本実験では,MSMT17の一般合成画像,すなわちランク1精度の47.5%対40.9%に対して,目標認識合成画像よりもはるかに高い性能が得られることを示した。
論文 参考訳(メタデータ) (2021-12-28T17:56:19Z) - A Shared Representation for Photorealistic Driving Simulators [83.5985178314263]
本稿では、識別器アーキテクチャを再考することにより、生成画像の品質を向上させることを提案する。
シーンセグメンテーションマップや人体ポーズといったセマンティックインプットによって画像が生成されるという問題に焦点が当てられている。
我々は,意味的セグメンテーション,コンテンツ再構成,および粗い粒度の逆解析を行うのに十分な情報をエンコードする,共有潜在表現を学習することを目指している。
論文 参考訳(メタデータ) (2021-12-09T18:59:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。