論文の概要: Advancing Fine-Grained Classification by Structure and Subject Preserving Augmentation
- arxiv url: http://arxiv.org/abs/2406.14551v1
- Date: Thu, 20 Jun 2024 17:58:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-21 12:09:55.240257
- Title: Advancing Fine-Grained Classification by Structure and Subject Preserving Augmentation
- Title(参考訳): 構造と保存機能強化による微粒化の促進
- Authors: Eyal Michaeli, Ohad Fried,
- Abstract要約: 本報告では,SaSPA: Structure and Subject Preserving Augmentationについて述べる。
本手法では, 実画像をガイダンスとして使用せず, 生成の柔軟性を高め, 多様性を高める。
従来のデータ拡張手法と最近のデータ拡張手法の両方に対して、広範な実験を行い、SaSPAをベンチマークする。
- 参考スコア(独自算出の注目度): 8.777277201807351
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fine-grained visual classification (FGVC) involves classifying closely related sub-classes. This task is difficult due to the subtle differences between classes and the high intra-class variance. Moreover, FGVC datasets are typically small and challenging to gather, thus highlighting a significant need for effective data augmentation. Recent advancements in text-to-image diffusion models offer new possibilities for augmenting classification datasets. While these models have been used to generate training data for classification tasks, their effectiveness in full-dataset training of FGVC models remains under-explored. Recent techniques that rely on Text2Image generation or Img2Img methods, often struggle to generate images that accurately represent the class while modifying them to a degree that significantly increases the dataset's diversity. To address these challenges, we present SaSPA: Structure and Subject Preserving Augmentation. Contrary to recent methods, our method does not use real images as guidance, thereby increasing generation flexibility and promoting greater diversity. To ensure accurate class representation, we employ conditioning mechanisms, specifically by conditioning on image edges and subject representation. We conduct extensive experiments and benchmark SaSPA against both traditional and recent generative data augmentation methods. SaSPA consistently outperforms all established baselines across multiple settings, including full dataset training, contextual bias, and few-shot classification. Additionally, our results reveal interesting patterns in using synthetic data for FGVC models; for instance, we find a relationship between the amount of real data used and the optimal proportion of synthetic data. Code is available at https://github.com/EyalMichaeli/SaSPA-Aug.
- Abstract(参考訳): きめ細かい視覚分類(FGVC)は、密接に関連するサブクラスを分類する。
この課題は、クラスと高いクラス内分散の微妙な違いのため困難である。
さらに、FGVCデータセットは一般的に小さくて収集が難しいため、効果的なデータ拡張に対する大きなニーズが浮かび上がっている。
テキスト・画像拡散モデルの最近の進歩は、分類データセットを増大させる新しい可能性をもたらす。
これらのモデルは分類タスクのトレーニングデータを生成するために使われてきたが、FGVCモデルのフルデータセットトレーニングの有効性は未検討のままである。
Text2Image生成やImg2Imgメソッドに依存する最近の技術は、しばしばクラスを正確に表現するイメージを生成するのに苦労し、データセットの多様性を著しく向上させる程度に修正する。
これらの課題に対処するため、SaSPA: Structure and Subject Preserving Augmentationを提案する。
近年の手法とは対照的に,本手法では実像をガイダンスとして使用せず,生成の柔軟性を高め,多様性を高める。
正確なクラス表現を保証するため,画像のエッジと対象表現の条件付けにより,条件付け機構を用いる。
従来のデータ拡張手法と最近のデータ拡張手法の両方に対して、広範な実験を行い、SaSPAをベンチマークする。
SaSPAは、完全なデータセットトレーニング、コンテキストバイアス、少数ショット分類など、複数の設定で確立されたベースラインを一貫して上回る。
さらに,FGVCモデルに合成データを使用する際の興味深いパターンを明らかにし,実データ量と合成データの最適割合の関係について検討した。
コードはhttps://github.com/EyalMichaeli/SaSPA-Aug.comで入手できる。
関連論文リスト
- DataDream: Few-shot Guided Dataset Generation [90.09164461462365]
実データ分布をより忠実に表現する分類データセットを合成するためのフレームワークを提案する。
DataDream fine-tunes LoRA weights for the image generation model on the few real image before generated the training data using the adapt model。
次に、合成データを用いてCLIPのLoRA重みを微調整し、様々なデータセットに対する以前のアプローチよりも下流画像の分類を改善する。
論文 参考訳(メタデータ) (2024-07-15T17:10:31Z) - Enhance Image Classification via Inter-Class Image Mixup with Diffusion Model [80.61157097223058]
画像分類性能を高めるための一般的な戦略は、T2Iモデルによって生成された合成画像でトレーニングセットを増強することである。
本研究では,既存のデータ拡張技術の欠点について検討する。
Diff-Mixと呼ばれる革新的なクラス間データ拡張手法を導入する。
論文 参考訳(メタデータ) (2024-03-28T17:23:45Z) - DreamDA: Generative Data Augmentation with Diffusion Models [68.22440150419003]
本稿では,新しい分類指向フレームワークDreamDAを提案する。
DreamDAは、オリジナルのデータのトレーニングイメージを種として考慮して、オリジナルのデータ分布に準拠する多様なサンプルを生成する。
また、生成したデータのラベルは、対応するシード画像のラベルと一致しない可能性があるため、擬似ラベルを生成するための自己学習パラダイムを導入する。
論文 参考訳(メタデータ) (2024-03-19T15:04:35Z) - Additional Look into GAN-based Augmentation for Deep Learning COVID-19
Image Classification [57.1795052451257]
我々は,GANに基づく拡張性能のデータセットサイズ依存性について,小サンプルに着目して検討した。
両方のセットでStyleGAN2-ADAをトレーニングし、生成した画像の品質を検証した後、マルチクラス分類問題における拡張アプローチの1つとしてトレーニングされたGANを使用する。
GANベースの拡張アプローチは、中規模および大規模データセットでは古典的な拡張に匹敵するが、より小さなデータセットでは不十分である。
論文 参考訳(メタデータ) (2024-01-26T08:28:13Z) - Detail Reinforcement Diffusion Model: Augmentation Fine-Grained Visual Categorization in Few-Shot Conditions [11.121652649243119]
拡散モデルは、データ生成において顕著な多様性のため、データ拡張において広く採用されている。
詳細強化拡散モデル(DRDM)と呼ばれる新しい手法を提案する。
大規模モデルの豊富な知識を微粒化に活用し、識別的意味的組換え(DSR)と空間的知識参照(SKR)の2つの重要な構成要素を含む。
論文 参考訳(メタデータ) (2023-09-15T01:28:59Z) - Performance of GAN-based augmentation for deep learning COVID-19 image
classification [57.1795052451257]
ディープラーニングを医療分野に適用する上で最大の課題は、トレーニングデータの提供である。
データ拡張は、限られたデータセットに直面した時に機械学習で使用される典型的な方法論である。
本研究は, 新型コロナウイルスの胸部X線画像セットを限定して, StyleGAN2-ADAモデルを用いて訓練するものである。
論文 参考訳(メタデータ) (2023-04-18T15:39:58Z) - Effective Data Augmentation With Diffusion Models [65.09758931804478]
我々は、事前訓練されたテキスト・画像拡散モデルによりパラメータ化された画像・画像変換によるデータ拡張の多様性の欠如に対処する。
本手法は,市販の拡散モデルを用いて画像のセマンティクスを編集し,いくつかのラベル付き例から新しい視覚概念に一般化する。
本手法は,実世界の雑草認識タスクと数ショット画像分類タスクにおいて評価し,テスト領域における精度の向上を観察する。
論文 参考訳(メタデータ) (2023-02-07T20:42:28Z) - Towards Fine-grained Image Classification with Generative Adversarial
Networks and Facial Landmark Detection [0.0]
GANベースのデータ拡張を使用して、余分なデータセットインスタンスを生成します。
近年の視覚変換器 (ViT) モデルを用いて, きめ細かい画像分類の精度を評価し, 評価を行った。
論文 参考訳(メタデータ) (2021-08-28T06:32:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。