論文の概要: SGIA: Enhancing Fine-Grained Visual Classification with Sequence Generative Image Augmentation
- arxiv url: http://arxiv.org/abs/2412.06138v1
- Date: Mon, 09 Dec 2024 01:39:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:54:52.722837
- Title: SGIA: Enhancing Fine-Grained Visual Classification with Sequence Generative Image Augmentation
- Title(参考訳): SGIA:シーケンス生成画像拡張による細粒度視覚分類の強化
- Authors: Qiyu Liao, Xin Yuan, Min Xu, Dadong Wang,
- Abstract要約: 本稿では,FGVCデータセットを付加するためのSGIA(Sequence Generative Image Augmentation)を提案する。
本手法は,実データと合成データとの領域ギャップを最小限に抑えるために,独自のブリッジング・トランスファー・ラーニング・プロセスを備えている。
我々の研究は、CUB-200-2011データセットに対して、新しいベンチマークを設定し、従来の最先端モデルの分類精度を0.5%向上させる。
- 参考スコア(独自算出の注目度): 16.642582574494742
- License:
- Abstract: In Fine-Grained Visual Classification (FGVC), distinguishing highly similar subcategories remains a formidable challenge, often necessitating datasets with extensive variability. The acquisition and annotation of such FGVC datasets are notably difficult and costly, demanding specialized knowledge to identify subtle distinctions among closely related categories. Our study introduces a novel approach employing the Sequence Latent Diffusion Model (SLDM) for augmenting FGVC datasets, called Sequence Generative Image Augmentation (SGIA). Our method features a unique Bridging Transfer Learning (BTL) process, designed to minimize the domain gap between real and synthetically augmented data. This approach notably surpasses existing methods in generating more realistic image samples, providing a diverse range of pose transformations that extend beyond the traditional rigid transformations and style changes in generative augmentation. We demonstrate the effectiveness of our augmented dataset with substantial improvements in FGVC tasks on various datasets, models, and training strategies, especially in few-shot learning scenarios. Our method outperforms conventional image augmentation techniques in benchmark tests on three FGVC datasets, showcasing superior realism, variability, and representational quality. Our work sets a new benchmark and outperforms the previous state-of-the-art models in classification accuracy by 0.5% for the CUB-200-2011 dataset and advances the application of generative models in FGVC data augmentation.
- Abstract(参考訳): Fine-Grained Visual Classification (FGVC) では、非常に類似したサブカテゴリを区別することが深刻な課題であり、大きな変数を持つデータセットを必要とすることが多い。
このようなFGVCデータセットの取得とアノテーションは、特に困難でコストがかかるため、密接に関連するカテゴリ間の微妙な区別を識別するための専門知識を必要としている。
本研究は、SGIA(Sequence Generative Image Augmentation)と呼ばれるFGVCデータセットの拡張に、SLDM(Sequence Latent Diffusion Model)を用いた新しいアプローチを提案する。
提案手法は,実データと合成データとの領域ギャップを最小限に抑えるために,独自のBTL(Bridging Transfer Learning)プロセスを備える。
このアプローチは、より現実的なイメージサンプルを生成する既存の手法をはるかに超え、伝統的な厳密な変換や、生成的拡張におけるスタイル変化を超えて、多様なポーズ変換を提供する。
各種データセット,モデル,トレーニング戦略において,FGVCタスクを大幅に改善した強化データセットの有効性を示す。
提案手法は, 3つのFGVCデータセットのベンチマークテストにおいて, 優れたリアリズム, 可変性, 表現品質を示すため, 従来の画像強調手法よりも優れていた。
本研究は,CUB-200-2011データセットの分類精度を0.5%向上させ,FGVCデータ拡張における生成モデルの適用性を向上させる。
関連論文リスト
- A Simple Background Augmentation Method for Object Detection with Diffusion Model [53.32935683257045]
コンピュータビジョンでは、データの多様性の欠如がモデル性能を損なうことはよく知られている。
本稿では, 生成モデルの進歩を生かして, 単純かつ効果的なデータ拡張手法を提案する。
背景強化は、特にモデルの堅牢性と一般化能力を大幅に改善する。
論文 参考訳(メタデータ) (2024-08-01T07:40:00Z) - Advancing Fine-Grained Classification by Structure and Subject Preserving Augmentation [8.777277201807351]
本報告では,SaSPA: Structure and Subject Preserving Augmentationについて述べる。
本手法では, 実画像をガイダンスとして使用せず, 生成の柔軟性を高め, 多様性を高める。
従来のデータ拡張手法と最近のデータ拡張手法の両方に対して、広範な実験を行い、SaSPAをベンチマークする。
論文 参考訳(メタデータ) (2024-06-20T17:58:30Z) - Enhance Image Classification via Inter-Class Image Mixup with Diffusion Model [80.61157097223058]
画像分類性能を高めるための一般的な戦略は、T2Iモデルによって生成された合成画像でトレーニングセットを増強することである。
本研究では,既存のデータ拡張技術の欠点について検討する。
Diff-Mixと呼ばれる革新的なクラス間データ拡張手法を導入する。
論文 参考訳(メタデータ) (2024-03-28T17:23:45Z) - Additional Look into GAN-based Augmentation for Deep Learning COVID-19
Image Classification [57.1795052451257]
我々は,GANに基づく拡張性能のデータセットサイズ依存性について,小サンプルに着目して検討した。
両方のセットでStyleGAN2-ADAをトレーニングし、生成した画像の品質を検証した後、マルチクラス分類問題における拡張アプローチの1つとしてトレーニングされたGANを使用する。
GANベースの拡張アプローチは、中規模および大規模データセットでは古典的な拡張に匹敵するが、より小さなデータセットでは不十分である。
論文 参考訳(メタデータ) (2024-01-26T08:28:13Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z) - Unified Framework for Histopathology Image Augmentation and Classification via Generative Models [6.404713841079193]
本稿では,データ生成とモデルトレーニングの段階を統一プロセスに統合する,革新的な統一フレームワークを提案する。
提案手法では、画像合成と分類の両方を同時に扱うために、純粋視覚変換器(ViT)ベースの条件付き生成適応ネットワーク(cGAN)モデルを用いる。
本実験により,我々の統合合成増強フレームワークは,病理組織像分類モデルの性能を一貫して向上させることが示された。
論文 参考訳(メタデータ) (2022-12-20T03:40:44Z) - Guiding Generative Language Models for Data Augmentation in Few-Shot
Text Classification [59.698811329287174]
我々は、GPT-2を用いて、分類性能を向上させるために、人工訓練インスタンスを生成する。
実験の結果,少数のラベルインスタンスでGPT-2を微調整すると,一貫した分類精度が向上することがわかった。
論文 参考訳(メタデータ) (2021-11-17T12:10:03Z) - Learning Representational Invariances for Data-Efficient Action
Recognition [52.23716087656834]
我々は,データ拡張戦略により,Kinetics-100,UCF-101,HMDB-51データセットのパフォーマンスが期待できることを示す。
また,完全な教師付き設定でデータ拡張戦略を検証し,性能向上を実証した。
論文 参考訳(メタデータ) (2021-03-30T17:59:49Z) - Domain Adaptive Transfer Learning on Visual Attention Aware Data
Augmentation for Fine-grained Visual Categorization [3.5788754401889014]
ベースネットワークモデルに基づく微調整によるドメイン適応型知識伝達を行う。
我々は、注意認識データ拡張技術を用いて、アキュラシーの競争力の向上を示す。
提案手法は,複数の細粒度分類データセットにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2020-10-06T22:47:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。