論文の概要: GenMix: Effective Data Augmentation with Generative Diffusion Model Image Editing
- arxiv url: http://arxiv.org/abs/2412.02366v2
- Date: Wed, 04 Dec 2024 16:38:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-05 11:47:05.722613
- Title: GenMix: Effective Data Augmentation with Generative Diffusion Model Image Editing
- Title(参考訳): GenMix: 生成拡散モデル画像編集による効果的なデータ拡張
- Authors: Khawar Islam, Muhammad Zaigham Zaheer, Arif Mahmood, Karthik Nandakumar, Naveed Akhtar,
- Abstract要約: 本稿では、一般化可能なプロンプト誘導型生成データ拡張手法であるGenMixを紹介する。
本手法は、画像編集を利用して、カスタム条件付きプロンプトに基づく拡張画像を生成する。
提案手法は、非現実的な画像とラベルの曖昧さを緩和し、結果のモデルの性能と対角的堅牢性を向上する。
- 参考スコア(独自算出の注目度): 37.489576508876056
- License:
- Abstract: Data augmentation is widely used to enhance generalization in visual classification tasks. However, traditional methods struggle when source and target domains differ, as in domain adaptation, due to their inability to address domain gaps. This paper introduces GenMix, a generalizable prompt-guided generative data augmentation approach that enhances both in-domain and cross-domain image classification. Our technique leverages image editing to generate augmented images based on custom conditional prompts, designed specifically for each problem type. By blending portions of the input image with its edited generative counterpart and incorporating fractal patterns, our approach mitigates unrealistic images and label ambiguity, improving the performance and adversarial robustness of the resulting models. Efficacy of our method is established with extensive experiments on eight public datasets for general and fine-grained classification, in both in-domain and cross-domain settings. Additionally, we demonstrate performance improvements for self-supervised learning, learning with data scarcity, and adversarial robustness. As compared to the existing state-of-the-art methods, our technique achieves stronger performance across the board.
- Abstract(参考訳): データ拡張は視覚分類タスクの一般化を促進するために広く利用されている。
しかし、ソースドメインとターゲットドメインが異なる場合、ドメイン間のギャップに対処できないため、従来の手法ではドメイン適応のように苦労する。
本稿では,インドメインとクロスドメインの両方のイメージ分類を強化する汎用的なプロンプト誘導型生成データ拡張手法であるGenMixを紹介する。
本手法は,各問題タイプに特化して設計された,カスタム条件付きプロンプトに基づく画像生成に画像編集を利用する。
入力画像の一部と編集された生成物とをブレンドし、フラクタルパターンを取り入れることで、非現実的な画像とラベルのあいまいさを軽減し、結果のモデルの性能と対角的堅牢性を向上させる。
本手法の有効性は,ドメイン内設定とドメイン間設定の両方において,一般および詳細な分類のための8つの公開データセットに対する広範な実験により確立されている。
さらに、自己教師付き学習、データ不足による学習、および対向的堅牢性に対する性能改善を示す。
従来の最先端手法と比較して,本手法はボード全体の性能を向上する。
関連論文リスト
- Domain Generalized Recaptured Screen Image Identification Using SWIN Transformer [1.024113475677323]
ケースケードデータ拡張とSWIN変換器領域一般化フレームワーク(DAST-DG)を提案する。
特徴生成装置は、様々な領域の正像を識別不能にするために訓練される。
このプロセスは、再適応された画像に適用され、二重対角学習セットを生成する。
論文 参考訳(メタデータ) (2024-07-24T11:22:02Z) - CycleMix: Mixing Source Domains for Domain Generalization in Style-Dependent Data [5.124256074746721]
画像分類の場合、アルゴリズムが一般化に失敗する理由の1つは、トレーニングデータに存在する急激な相関に依存することである。
これらの関連性は、目に見えないテストデータには存在せず、その効果が著しく低下する。
本研究では,この領域一般化問題を,画像スタイルに起因する特徴を無視する頑健な特徴抽出器を訓練することにより緩和する。
論文 参考訳(メタデータ) (2024-07-18T11:43:26Z) - Powerful and Flexible: Personalized Text-to-Image Generation via Reinforcement Learning [40.06403155373455]
個人化されたテキスト・画像生成のための新しい強化学習フレームワークを提案する。
提案手法は、テキストアライメントを維持しながら、視覚的忠実度に大きな差で既存の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2024-07-09T08:11:53Z) - Complex Style Image Transformations for Domain Generalization in Medical Images [6.635679521775917]
ドメインの一般化技術は、単一のデータソースから未知のドメインにアプローチすることを目的としています。
本稿では,スタイル伝達と対角訓練を利用するCompStyleという新しいフレームワークを提案する。
前立腺データに対する意味的セグメンテーションと心臓データに対する汚濁堅牢性の実験結果を提供する。
論文 参考訳(メタデータ) (2024-06-01T04:57:31Z) - Enhance Image Classification via Inter-Class Image Mixup with Diffusion Model [80.61157097223058]
画像分類性能を高めるための一般的な戦略は、T2Iモデルによって生成された合成画像でトレーニングセットを増強することである。
本研究では,既存のデータ拡張技術の欠点について検討する。
Diff-Mixと呼ばれる革新的なクラス間データ拡張手法を導入する。
論文 参考訳(メタデータ) (2024-03-28T17:23:45Z) - Fine-grained Recognition with Learnable Semantic Data Augmentation [68.48892326854494]
きめ細かい画像認識は、長年続くコンピュータビジョンの課題である。
本稿では,識別領域損失問題を軽減するため,特徴レベルのトレーニングデータを多様化することを提案する。
本手法は,いくつかの人気分類ネットワーク上での一般化性能を著しく向上させる。
論文 参考訳(メタデータ) (2023-09-01T11:15:50Z) - Consistency Regularization for Generalizable Source-free Domain
Adaptation [62.654883736925456]
ソースフリードメイン適応(source-free domain adapt, SFDA)は、ソースデータセットにアクセスすることなく、十分にトレーニングされたソースモデルを未学習のターゲットドメインに適応することを目的としている。
既存のSFDAメソッドは、ターゲットのトレーニングセット上で適用されたモデルを評価し、目に見えないが同一の分散テストセットからデータを無視する。
より一般化可能なSFDA法を開発するための整合正則化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-03T07:45:53Z) - A Novel Cross-Perturbation for Single Domain Generalization [54.612933105967606]
単一ドメインの一般化は、モデルが単一のソースドメインでトレーニングされたときに未知のドメインに一般化する能力を高めることを目的としている。
トレーニングデータの限られた多様性は、ドメイン不変の特徴の学習を妨げ、結果として一般化性能を損なう。
トレーニングデータの多様性を高めるために,CPerbを提案する。
論文 参考訳(メタデータ) (2023-08-02T03:16:12Z) - Effective Data Augmentation With Diffusion Models [65.09758931804478]
我々は、事前訓練されたテキスト・画像拡散モデルによりパラメータ化された画像・画像変換によるデータ拡張の多様性の欠如に対処する。
本手法は,市販の拡散モデルを用いて画像のセマンティクスを編集し,いくつかのラベル付き例から新しい視覚概念に一般化する。
本手法は,実世界の雑草認識タスクと数ショット画像分類タスクにおいて評価し,テスト領域における精度の向上を観察する。
論文 参考訳(メタデータ) (2023-02-07T20:42:28Z) - CrDoCo: Pixel-level Domain Transfer with Cross-Domain Consistency [119.45667331836583]
教師なしのドメイン適応アルゴリズムは、あるドメインから学んだ知識を別のドメインに転送することを目的としている。
本稿では,新しい画素単位の対向領域適応アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-01-09T19:00:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。