論文の概要: ScribbleGen: Generative Data Augmentation Improves Scribble-supervised Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2311.17121v2
- Date: Tue, 16 Apr 2024 22:41:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-18 19:20:39.458302
- Title: ScribbleGen: Generative Data Augmentation Improves Scribble-supervised Semantic Segmentation
- Title(参考訳): ScribbleGen: 生成データ拡張により,スクリブル管理セマンティックセマンティックセグメンテーションが改善される
- Authors: Jacob Schnell, Jieke Wang, Lu Qi, Vincent Tao Hu, Meng Tang,
- Abstract要約: 本稿では,スクリブル教師付きセマンティックセグメンテーションのための生成データ拡張手法であるScribbleGenを提案する。
セマンティックスクリブルに条件付き制御ネット拡散モデルを用いて,高品質なトレーニングデータを生成する。
我々のフレームワークは、完全に教師されたセグメンテーションを超越しても、小さなデータセットでのセグメンテーション性能を著しく改善することを示す。
- 参考スコア(独自算出の注目度): 10.225021032417589
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in generative models, such as diffusion models, have made generating high-quality synthetic images widely accessible. Prior works have shown that training on synthetic images improves many perception tasks, such as image classification, object detection, and semantic segmentation. We are the first to explore generative data augmentations for scribble-supervised semantic segmentation. We propose ScribbleGen, a generative data augmentation method that leverages a ControlNet diffusion model conditioned on semantic scribbles to produce high-quality training data. However, naive implementations of generative data augmentations may inadvertently harm the performance of the downstream segmentor rather than improve it. We leverage classifier-free diffusion guidance to enforce class consistency and introduce encode ratios to trade off data diversity for data realism. Using the guidance scale and encode ratio, we can generate a spectrum of high-quality training images. We propose multiple augmentation schemes and find that these schemes significantly impact model performance, especially in the low-data regime. Our framework further reduces the gap between the performance of scribble-supervised segmentation and that of fully-supervised segmentation. We also show that our framework significantly improves segmentation performance on small datasets, even surpassing fully-supervised segmentation. The code is available at https://github.com/mengtang-lab/scribblegen.
- Abstract(参考訳): 拡散モデルのような生成モデルの最近の進歩により、高品質な合成画像が広くアクセスできるようになった。
以前の研究では、合成画像のトレーニングは、画像分類、オブジェクト検出、セマンティックセグメンテーションなど、多くの知覚タスクを改善することが示されている。
我々は,スクリブル教師付きセマンティックセグメンテーションのための生成データ拡張を初めて検討した。
セマンティックスクリブルに条件付き制御ネット拡散モデルを利用して高品質なトレーニングデータを生成する,生成データ拡張手法であるScribbleGenを提案する。
しかし、生成データ拡張の素早い実装は、その改善よりも下流セグメンタの性能を必然的に損なう可能性がある。
分類器のない拡散誘導を利用して、クラス一貫性を強制し、エンコード比を導入し、データリアリズムのためにデータの多様性をトレードオフする。
指導尺度と符号化率を用いて、高品質なトレーニング画像のスペクトルを生成することができる。
本稿では,複数の拡張スキームを提案し,これらのスキームがモデル性能,特に低データ方式において大きな影響を及ぼすことを示した。
さらに,本フレームワークは,スクリブル教師付きセグメンテーションと完全教師付きセグメンテーションのギャップを小さくする。
また、我々のフレームワークは、完全に教師されたセグメンテーションを超越しても、小さなデータセットでのセグメンテーション性能を著しく改善することを示した。
コードはhttps://github.com/mengtang-lab/scribblegen.comで公開されている。
関連論文リスト
- SatSynth: Augmenting Image-Mask Pairs through Diffusion Models for Aerial Semantic Segmentation [69.42764583465508]
我々は,地球観測における注釈付きデータの不足に対処するために,生成的画像拡散の可能性を探る。
我々の知る限りでは、衛星セグメンテーションのための画像と対応するマスクの両方を最初に生成する。
論文 参考訳(メタデータ) (2024-03-25T10:30:22Z) - A Lightweight Clustering Framework for Unsupervised Semantic
Segmentation [28.907274978550493]
教師なしセマンティックセグメンテーションは、注釈付きデータを用いることなく、画像の各ピクセルを対応するクラスに分類することを目的としている。
教師なしセマンティックセグメンテーションのための軽量クラスタリングフレームワークを提案する。
本フレームワークは,PASCAL VOCおよびMS COCOデータセットの最先端結果を実現する。
論文 参考訳(メタデータ) (2023-11-30T15:33:42Z) - DatasetDM: Synthesizing Data with Perception Annotations Using Diffusion
Models [61.906934570771256]
多様な合成画像や知覚アノテーションを生成できる汎用データセット生成モデルを提案する。
本手法は,事前学習した拡散モデルに基づいて,テキスト誘導画像合成を知覚データ生成に拡張する。
拡散モデルのリッチ潜時コードはデコーダモジュールを用いて正確な認識アノテーションとして効果的に復号できることを示す。
論文 参考訳(メタデータ) (2023-08-11T14:38:11Z) - Graph Masked Autoencoder for Sequential Recommendation [10.319298705782058]
本稿では,自動エンコーダ付きシーケンシャルレコメンダシステム(MAERec, Graph Masked AutoEncoder-enhanced Sequence Recommender System)を提案する。
提案手法は最先端のベースラインモデルを大幅に上回り,データノイズや空間性に対するより正確な表現を学習することができる。
論文 参考訳(メタデータ) (2023-05-08T10:57:56Z) - Leaving Reality to Imagination: Robust Classification via Generated
Datasets [24.411444438920988]
近年のロバスト性に関する研究では、テストセットと同様のデータセットでトレーニングされたニューラルイメージ分類器間での顕著なパフォーマンスギャップが明らかになった。
生成したデータセットは、画像分類器の自然な堅牢性にどのように影響するのか?
生成したデータで強化された実データに基づいて訓練された画像ネット分類器は、標準トレーニングよりも精度が高く、効果的に頑健であることがわかった。
論文 参考訳(メタデータ) (2023-02-05T22:49:33Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z) - Negative Data Augmentation [127.28042046152954]
負のデータ拡張サンプルは、データ分散のサポートに関する情報を提供することを示す。
我々は、NDAを識別器の合成データの追加源として利用する新しいGAN訓練目標を提案する。
実験により,本手法で訓練したモデルでは,異常検出能力の向上とともに条件付き・条件付き画像生成の改善を実現している。
論文 参考訳(メタデータ) (2021-02-09T20:28:35Z) - Group-Wise Semantic Mining for Weakly Supervised Semantic Segmentation [49.90178055521207]
この研究は、画像レベルのアノテーションとピクセルレベルのセグメンテーションのギャップを埋めることを目標に、弱い監督されたセマンティックセグメンテーション(WSSS)に対処する。
画像群における意味的依存関係を明示的にモデル化し,より信頼性の高い擬似的基盤構造を推定する,新たなグループ学習タスクとしてWSSSを定式化する。
特に、入力画像がグラフノードとして表現されるグループ単位のセマンティックマイニングのためのグラフニューラルネットワーク(GNN)を考案する。
論文 参考訳(メタデータ) (2020-12-09T12:40:13Z) - Robust Optimization as Data Augmentation for Large-scale Graphs [117.2376815614148]
学習中に勾配に基づく逆方向摂動を伴うノード特徴を反復的に拡張するFLAG(Free Large-scale Adversarial Augmentation on Graphs)を提案する。
FLAGはグラフデータに対する汎用的なアプローチであり、ノード分類、リンク予測、グラフ分類タスクで普遍的に機能する。
論文 参考訳(メタデータ) (2020-10-19T21:51:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。