論文の概要: Improving Diffusion-based Data Augmentation with Inversion Spherical Interpolation
- arxiv url: http://arxiv.org/abs/2408.16266v1
- Date: Thu, 29 Aug 2024 05:05:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-30 14:55:17.172686
- Title: Improving Diffusion-based Data Augmentation with Inversion Spherical Interpolation
- Title(参考訳): インバージョン球面補間による拡散に基づくデータ拡張の改善
- Authors: Yanghao Wang, Long Chen,
- Abstract要約: 拡散に基づくDA法は,高品質なサンプルを生成する上で重要な2つの鍵である忠実さと多様性の両方を考慮できない。
本稿では,新しいインバージョン補間DA法Diff-IIを提案する。
複数の画像分類タスクの実験は、Diff-IIが最先端拡散に基づくDA法に対して有効であることを示した。
- 参考スコア(独自算出の注目度): 6.442738337380714
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data Augmentation (DA), \ie, synthesizing faithful and diverse samples to expand the original training set, is a prevalent and effective strategy to improve various visual recognition tasks. With the powerful image generation ability, diffusion-based DA has shown strong performance gains on different benchmarks. In this paper, we analyze today's diffusion-based DA methods, and argue that they cannot take account of both faithfulness and diversity, which are two critical keys for generating high-quality samples and boosting final classification performance. To this end, we propose a novel Diffusion-based Inversion Interpolation DA method: Diff-II. Specifically, Diff-II consists of three main steps: 1) Category concepts learning: Learning concept embeddings for each category. 2) Inversion interpolation: Calculating the inversion for each image, and conducting spherical interpolation for two randomly sampled inversions from the same category. 3) Two-stage denoising: Using different prompts to generate synthesized images in a coarse-to-fine manner. Extensive experiments on multiple image classification tasks (\eg, few-shot, long-tailed, and out-of-distribution classification) have demonstrated its effectiveness over state-of-the-art diffusion-based DA methods.
- Abstract(参考訳): Data Augmentation (DA) \ieは、忠実で多様なサンプルを合成し、元のトレーニングセットを拡張することで、様々な視覚的認識タスクを改善するための一般的かつ効果的な戦略である。
強力な画像生成能力により、拡散ベースのDAは、異なるベンチマークで大きなパフォーマンス向上を示した。
本稿では,現在の拡散型DA法を解析し,高品質なサンプルの生成と最終分類性能の向上に欠かせない2つの鍵である,忠実さと多様性を両立できないことを論じる。
そこで本研究では,新しい拡散型逆補間DA法Diff-IIを提案する。
具体的には、Diff-IIは3つの主要なステップから構成される。
1) カテゴリー概念の学習: カテゴリ毎に概念の埋め込みを学習する。
2) インバージョン補間: 各画像のインバージョンを計算し、同じカテゴリからランダムにサンプリングされた2つのインバージョンに対して球面補間を行う。
3)2段階認知: 異なるプロンプトを用いて合成画像を粗く微妙に生成する。
複数の画像分類タスク(グレッグ、少数ショット、ロングテール、アウト・オブ・ディストリビューション)に関する大規模な実験は、最先端拡散に基づくDA法に対する効果を実証している。
関連論文リスト
- Diff-Mosaic: Augmenting Realistic Representations in Infrared Small Target Detection via Diffusion Prior [63.64088590653005]
本稿では拡散モデルに基づくデータ拡張手法であるDiff-Mosaicを提案する。
我々は,モザイク画像を高度に調整し,リアルな画像を生成するPixel-Priorという拡張ネットワークを導入する。
第2段階では,Diff-Prior という画像強調戦略を提案する。
論文 参考訳(メタデータ) (2024-06-02T06:23:05Z) - Enhance Image Classification via Inter-Class Image Mixup with Diffusion Model [80.61157097223058]
画像分類性能を高めるための一般的な戦略は、T2Iモデルによって生成された合成画像でトレーニングセットを増強することである。
本研究では,既存のデータ拡張技術の欠点について検討する。
Diff-Mixと呼ばれる革新的なクラス間データ拡張手法を導入する。
論文 参考訳(メタデータ) (2024-03-28T17:23:45Z) - DiffAugment: Diffusion based Long-Tailed Visual Relationship Recognition [43.01467525231004]
DiffAugment は WordNet を利用して言語空間のテールクラスを拡張する手法である。
本研究は, テールクラスに対する視覚的埋め込み生成における硬度認識拡散の有効性を実証する。
また,生成した視覚的埋め込みの識別能力を向上する,拡散サンプリングのための新しい主題とオブジェクトベースのシード戦略を提案する。
論文 参考訳(メタデータ) (2024-01-01T21:20:43Z) - Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。
学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。
提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文 参考訳(メタデータ) (2023-12-22T14:40:55Z) - DiffDis: Empowering Generative Diffusion Model with Cross-Modal
Discrimination Capability [75.9781362556431]
本稿では,拡散過程下での1つのフレームワークに,モダクティブと差別的事前学習を統一するDiffDisを提案する。
DiffDisは画像生成タスクと画像テキスト識別タスクの両方において単一タスクモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-08-18T05:03:48Z) - DuDGAN: Improving Class-Conditional GANs via Dual-Diffusion [2.458437232470188]
GAN(Generative Adversarial Network)を用いたクラス条件画像生成について,様々な手法を用いて検討した。
本稿では,DuDGANと呼ばれる2次元拡散型ノイズ注入法を取り入れたGANを用いたクラス条件画像生成手法を提案する。
提案手法は,画像生成のための現状条件付きGANモデルよりも性能的に優れている。
論文 参考訳(メタデータ) (2023-05-24T07:59:44Z) - Denoising Diffusion Models for Plug-and-Play Image Restoration [135.6359475784627]
本稿では,従来のプラグアンドプレイ方式を拡散サンプリングフレームワークに統合したDiffPIRを提案する。
DiffPIRは、差別的なガウスのデノイザーに依存するプラグアンドプレイIR法と比較して、拡散モデルの生成能力を継承することが期待されている。
論文 参考訳(メタデータ) (2023-05-15T20:24:38Z) - DiffMIC: Dual-Guidance Diffusion Network for Medical Image
Classification [32.67098520984195]
一般医用画像分類のための拡散モデル(DiffMIC)を提案する。
実験の結果,DiffMICは最先端の手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2023-03-19T09:15:45Z) - SinDiffusion: Learning a Diffusion Model from a Single Natural Image [159.4285444680301]
SinDiffusionは1つの自然な画像からパッチの内部分布を捉えるためにデノナイズ拡散モデルを利用する。
SinDiffusionは、2つのコア設計に基づいている。まず、SinDiffusionは、段階的にスケールが成長する複数のモデルではなく、1つのスケールで1つのモデルで訓練されている。
第2に,拡散ネットワークのパッチレベルの受容領域は,画像のパッチ統計を捉える上で重要かつ効果的であることを示す。
論文 参考訳(メタデータ) (2022-11-22T18:00:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。