論文の概要: Cap2Aug: Caption guided Image to Image data Augmentation
- arxiv url: http://arxiv.org/abs/2212.05404v2
- Date: Tue, 7 Nov 2023 04:04:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-08 19:55:07.994707
- Title: Cap2Aug: Caption guided Image to Image data Augmentation
- Title(参考訳): cap2aug: 画像データ拡張のための字幕案内画像
- Authors: Aniket Roy, Anshul Shah, Ketul Shah, Anirban Roy, Rama Chellappa
- Abstract要約: Cap2Augは、画像キャプションをテキストプロンプトとして使用する画像から画像への拡散モデルに基づくデータ拡張戦略である。
限られた訓練画像からキャプションを生成し,これらのキャプションを用いて画像間安定拡散モデルを用いてトレーニング画像を編集する。
この戦略は、トレーニング画像に似た画像の拡張バージョンを生成するが、サンプル全体にわたって意味的な多様性を提供する。
- 参考スコア(独自算出の注目度): 41.53127698828463
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual recognition in a low-data regime is challenging and often prone to
overfitting. To mitigate this issue, several data augmentation strategies have
been proposed. However, standard transformations, e.g., rotation, cropping, and
flipping provide limited semantic variations. To this end, we propose Cap2Aug,
an image-to-image diffusion model-based data augmentation strategy using image
captions as text prompts. We generate captions from the limited training images
and using these captions edit the training images using an image-to-image
stable diffusion model to generate semantically meaningful augmentations. This
strategy generates augmented versions of images similar to the training images
yet provides semantic diversity across the samples. We show that the variations
within the class can be captured by the captions and then translated to
generate diverse samples using the image-to-image diffusion model guided by the
captions. However, naive learning on synthetic images is not adequate due to
the domain gap between real and synthetic images. Thus, we employ a maximum
mean discrepancy (MMD) loss to align the synthetic images to the real images
for minimizing the domain gap. We evaluate our method on few-shot and long-tail
classification tasks and obtain performance improvements over state-of-the-art,
especially in the low-data regimes.
- Abstract(参考訳): 低データ体制における視覚的認識は困難であり、過度に適合する傾向がある。
この問題を軽減するために、いくつかのデータ拡張戦略が提案されている。
しかし、回転、収穫、反転といった標準的な変換は、限定的な意味変化をもたらす。
そこで本研究では,画像キャプションをテキストプロンプトとして用いた画像から画像への拡散モデルに基づくデータ拡張戦略cap2augを提案する。
限られた訓練画像からキャプションを生成し、これらのキャプションを使用して画像間安定拡散モデルを用いてトレーニング画像を編集し、意味的に意味のある拡張を生成する。
この戦略は、トレーニング画像に似た画像の拡張バージョンを生成するが、サンプル間で意味的な多様性を提供する。
画像から画像への拡散モデルを用いて, クラス内の変動をキャプションによって捕捉し, 様々なサンプルを生成することができることを示す。
しかし,実画像と合成画像の領域差のため,合成画像でのナイーブ学習は不十分である。
そこで本研究では,合成画像と実画像との整合にmmd(maximum mean discrepancy)損失を用い,領域ギャップを最小化する。
提案手法は,特に低データ体制において,少数・長期の分類タスクにおいて評価され,最先端技術よりも性能が向上する。
関連論文リスト
- Diversified in-domain synthesis with efficient fine-tuning for few-shot
classification [64.86872227580866]
画像分類は,クラスごとのラベル付き例の小さなセットのみを用いて,画像分類器の学習を目的としている。
合成データを用いた数ショット学習における一般化問題に対処する新しいアプローチである DisEF を提案する。
提案手法を10種類のベンチマークで検証し,ベースラインを一貫して上回り,数ショット分類のための新しい最先端の手法を確立した。
論文 参考訳(メタデータ) (2023-12-05T17:18:09Z) - Improving Diffusion-based Image Translation using Asymmetric Gradient
Guidance [51.188396199083336]
非対称勾配法の適用により拡散サンプリングの逆過程を導出する手法を提案する。
我々のモデルの適応性は、画像融合モデルと潜時拡散モデルの両方で実装できる。
実験により,本手法は画像翻訳タスクにおいて,様々な最先端モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-06-07T12:56:56Z) - Wavelet-based Unsupervised Label-to-Image Translation [9.339522647331334]
本稿では、自己教師付きセグメンテーション損失と全画像ウェーブレットに基づく識別を併用した、SIS(USIS)のための新しいアン教師付きパラダイムを提案する。
3つの挑戦的なデータセットで方法論を検証し、ペアモデルとアンペアモデルのパフォーマンスギャップを橋渡しする能力を実証する。
論文 参考訳(メタデータ) (2023-05-16T17:48:44Z) - Discriminative Class Tokens for Text-to-Image Diffusion Models [107.98436819341592]
自由形式のテキストの表現可能性を利用した非侵襲的な微調整手法を提案する。
本手法は,従来の微調整法と比較して高速で,クラス内の画像の収集を必要としない。
i)標準拡散モデルよりも正確で高品質な生成画像,(ii)低リソース環境でのトレーニングデータの拡張,および(iii)誘導分類器の訓練に使用されるデータ情報を明らかにする。
論文 参考訳(メタデータ) (2023-03-30T05:25:20Z) - Masked and Adaptive Transformer for Exemplar Based Image Translation [16.93344592811513]
ドメイン間のセマンティックマッチングは難しい。
正確なクロスドメイン対応を学習するためのマスク付き適応変換器(MAT)を提案する。
品質識別型スタイル表現を得るための新しいコントラスト型スタイル学習法を考案する。
論文 参考訳(メタデータ) (2023-03-30T03:21:14Z) - Effective Data Augmentation With Diffusion Models [65.09758931804478]
我々は、事前訓練されたテキスト・画像拡散モデルによりパラメータ化された画像・画像変換によるデータ拡張の多様性の欠如に対処する。
本手法は,市販の拡散モデルを用いて画像のセマンティクスを編集し,いくつかのラベル付き例から新しい視覚概念に一般化する。
本手法は,実世界の雑草認識タスクと数ショット画像分類タスクにおいて評価し,テスト領域における精度の向上を観察する。
論文 参考訳(メタデータ) (2023-02-07T20:42:28Z) - Diffusion-based Image Translation using Disentangled Style and Content
Representation [51.188396199083336]
セマンティックテキストや単一のターゲット画像でガイドされた拡散ベースの画像変換により、柔軟なスタイル変換が可能になった。
逆拡散中、画像の原内容を維持することはしばしば困難である。
本稿では,不整合スタイルとコンテンツ表現を用いた新しい拡散に基づく教師なし画像翻訳手法を提案する。
提案手法は,テキスト誘導と画像誘導の両方の翻訳作業において,最先端のベースラインモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-09-30T06:44:37Z) - Hierarchical Text-Conditional Image Generation with CLIP Latents [20.476720970770128]
画像表現を明示的に生成することで、フォトリアリズムとキャプションの類似性が最小限に抑えられ、画像の多様性が向上することを示す。
画像表現に条件付けされたデコーダは、その意味とスタイルの両方を保存した画像のバリエーションを生成できる。
論文 参考訳(メタデータ) (2022-04-13T01:10:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。