論文の概要: Semantic-Guided Generative Image Augmentation Method with Diffusion
Models for Image Classification
- arxiv url: http://arxiv.org/abs/2302.02070v2
- Date: Tue, 12 Sep 2023 13:43:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-13 17:40:25.952074
- Title: Semantic-Guided Generative Image Augmentation Method with Diffusion
Models for Image Classification
- Title(参考訳): 画像分類のための拡散モデルを用いた意味誘導生成画像拡張法
- Authors: Bohan Li, Xiao Xu, Xinghao Wang, Yutai Hou, Yunlong Feng, Feng Wang,
Xuanliang Zhang, Qingfu Zhu, Wanxiang Che
- Abstract要約: 画像分類のための拡散モデルを用いた意味誘導型生成画像拡張法であるSGIDを提案する。
具体的には、SGIDは拡散モデルを用いて、画像の多様性に優れた拡張画像を生成する。さらに、画像ラベルとキャプションを、拡張画像とオリジナル画像のセマンティック一貫性を維持するためのガイダンスとして用いている。
- 参考スコア(独自算出の注目度): 48.640470032205265
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing image augmentation methods consist of two categories:
perturbation-based methods and generative methods. Perturbation-based methods
apply pre-defined perturbations to augment an original image, but only locally
vary the image, thus lacking image diversity. In contrast, generative methods
bring more image diversity in the augmented images but may not preserve
semantic consistency, thus incorrectly changing the essential semantics of the
original image. To balance image diversity and semantic consistency in
augmented images, we propose SGID, a Semantic-guided Generative Image
augmentation method with Diffusion models for image classification.
Specifically, SGID employs diffusion models to generate augmented images with
good image diversity. More importantly, SGID takes image labels and captions as
guidance to maintain semantic consistency between the augmented and original
images. Experimental results show that SGID outperforms the best augmentation
baseline by 1.72% on ResNet-50 (from scratch), 0.33% on ViT (ImageNet-21k), and
0.14% on CLIP-ViT (LAION-2B). Moreover, SGID can be combined with other image
augmentation baselines and further improves the overall performance. We
demonstrate the semantic consistency and image diversity of SGID through
quantitative human and automated evaluations, as well as qualitative case
studies.
- Abstract(参考訳): 既存の画像拡張法は摂動法と生成法という2つのカテゴリからなる。
摂動に基づく手法は、元の画像を強調するために予め定義された摂動を適用するが、局所的にしか変化せず、画像の多様性を欠く。
対照的に、生成法は画像の多様性を高めるが、意味的一貫性を保たない可能性があるため、元の画像の本質的意味を誤って変更する。
画像の多様性とセマンティック一貫性のバランスをとるために,画像分類のための拡散モデルを用いた意味誘導生成画像拡張法であるSGIDを提案する。
具体的には、SGIDは拡散モデルを用いて、画像の多様性に優れた拡張画像を生成する。
さらに重要なことは、SGIDは画像ラベルとキャプションを、拡張画像とオリジナル画像間のセマンティック一貫性を維持するためのガイダンスとして用いている。
実験の結果、SGIDはResNet-50で1.72%、ViTで0.33%、CLIP-ViT(LAION-2B)で0.14%向上した。
さらに、SGIDを他の画像拡張ベースラインと組み合わせることで、全体的なパフォーマンスが向上する。
定量的な人・自動評価と定性ケーススタディにより,SGIDのセマンティック一貫性と画像の多様性を実証する。
関連論文リスト
- Decoupled Data Augmentation for Improving Image Classification [37.50690945158849]
Decoupled Data Augmentation (De-DA)を導入する。
生成モデルを用いて、制御条件下での実際のCDPの修正を行い、セマンティック一貫性を保つ。
また、画像のCIPをクラス間変種に置き換え、多様なCDP-CIPの組み合わせを作成します。
論文 参考訳(メタデータ) (2024-10-29T06:27:09Z) - Fusion is all you need: Face Fusion for Customized Identity-Preserving Image Synthesis [7.099258248662009]
テキスト・ツー・イメージ(T2I)モデルは人工知能の開発を著しく進歩させてきた。
しかし、既存のT2Iベースの手法は、参照画像から個人を正確に再現するのに苦労することが多い。
我々は、安定拡散から得られた事前学習されたUNetを利用して、対象の顔画像を直接生成プロセスに組み込む。
論文 参考訳(メタデータ) (2024-09-27T19:31:04Z) - DiffuseMix: Label-Preserving Data Augmentation with Diffusion Models [18.44432223381586]
近年、ディープニューラルネットワークの一般化を改善するために、画像混合に基づく拡張技術が数多く導入されている。
これらの手法では、2つ以上のランダムに選択された自然画像が混合され、拡張画像を生成する。
DiffuseMixを提案する。DiffuseMixは、拡散モデルを利用してトレーニング画像を再構成する新しいデータ拡張手法である。
論文 参考訳(メタデータ) (2024-04-05T05:31:02Z) - Enhance Image Classification via Inter-Class Image Mixup with Diffusion Model [80.61157097223058]
画像分類性能を高めるための一般的な戦略は、T2Iモデルによって生成された合成画像でトレーニングセットを増強することである。
本研究では,既存のデータ拡張技術の欠点について検討する。
Diff-Mixと呼ばれる革新的なクラス間データ拡張手法を導入する。
論文 参考訳(メタデータ) (2024-03-28T17:23:45Z) - Unlocking Pre-trained Image Backbones for Semantic Image Synthesis [29.688029979801577]
本稿では,現実的な画像を生成するセマンティック画像合成のための新しい種類のGAN識別器を提案する。
DP-SIMSをダブした本モデルでは,ADE-20K,COCO-Stuff,Cityscapesの入力ラベルマップと画像品質と一貫性の両面から,最新の結果が得られる。
論文 参考訳(メタデータ) (2023-12-20T09:39:19Z) - Exploring the Robustness of Human Parsers Towards Common Corruptions [99.89886010550836]
我々は,LIP-C,ATR-C,Pascal-Person-Part-Cという3つの汚職堅牢性ベンチマークを構築し,人間の解析モデルのリスク許容度を評価する。
データ強化戦略に触発されて、一般に破損した条件下で頑健性を高めるための新しい異種強化機構を提案する。
論文 参考訳(メタデータ) (2023-09-02T13:32:14Z) - Effective Data Augmentation With Diffusion Models [65.09758931804478]
我々は、事前訓練されたテキスト・画像拡散モデルによりパラメータ化された画像・画像変換によるデータ拡張の多様性の欠如に対処する。
本手法は,市販の拡散モデルを用いて画像のセマンティクスを編集し,いくつかのラベル付き例から新しい視覚概念に一般化する。
本手法は,実世界の雑草認識タスクと数ショット画像分類タスクにおいて評価し,テスト領域における精度の向上を観察する。
論文 参考訳(メタデータ) (2023-02-07T20:42:28Z) - Siamese Image Modeling for Self-Supervised Vision Representation
Learning [73.78790119050056]
自己教師付き学習(SSL)は、さまざまな下流視覚タスクにおいて優れたパフォーマンスを提供している。
2つのメインストリームSSLフレームワーク、すなわちインスタンス識別(ID)とマスク画像モデリング(MIM)が提案されている。
本稿では,拡張ビューの濃密な表現を予測できるSiamese Image Modeling (SIM)を提案する。
論文 参考訳(メタデータ) (2022-06-02T17:59:58Z) - DVG-Face: Dual Variational Generation for Heterogeneous Face Recognition [85.94331736287765]
我々は、HFRを二重生成問題として定式化し、新しいDual Variational Generation(DVG-Face)フレームワークを用いてそれに取り組む。
大規模可視データの豊富なアイデンティティ情報を結合分布に統合する。
同一の同一性を持つ多種多様な多種多様な画像は、ノイズから生成することができる。
論文 参考訳(メタデータ) (2020-09-20T09:48:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。