論文の概要: Context-guided Responsible Data Augmentation with Diffusion Models
- arxiv url: http://arxiv.org/abs/2503.10687v1
- Date: Wed, 12 Mar 2025 00:12:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 13:07:46.285667
- Title: Context-guided Responsible Data Augmentation with Diffusion Models
- Title(参考訳): 拡散モデルを用いた文脈誘導応答性データ拡張
- Authors: Khawar Islam, Naveed Akhtar,
- Abstract要約: 本稿では,DiffCoRe-Mixというテキスト・ツー・イメージ(T2I)データ拡張手法を提案する。
キーセマンティックな軸を保存するために、増大過程における望ましくない生成サンプルをフィルタリングする。
我々は、ImageNet-1K、Tiny ImageNet-200、CIFAR-100、Flowers102、CUB-Birds、Stanford Cars、Caltechのデータセットでこの手法を広範囲に評価した。
- 参考スコア(独自算出の注目度): 29.41191005466334
- License:
- Abstract: Generative diffusion models offer a natural choice for data augmentation when training complex vision models. However, ensuring reliability of their generative content as augmentation samples remains an open challenge. Despite a number of techniques utilizing generative images to strengthen model training, it remains unclear how to utilize the combination of natural and generative images as a rich supervisory signal for effective model induction. In this regard, we propose a text-to-image (T2I) data augmentation method, named DiffCoRe-Mix, that computes a set of generative counterparts for a training sample with an explicitly constrained diffusion model that leverages sample-based context and negative prompting for a reliable augmentation sample generation. To preserve key semantic axes, we also filter out undesired generative samples in our augmentation process. To that end, we propose a hard-cosine filtration in the embedding space of CLIP. Our approach systematically mixes the natural and generative images at pixel and patch levels. We extensively evaluate our technique on ImageNet-1K,Tiny ImageNet-200, CIFAR-100, Flowers102, CUB-Birds, Stanford Cars, and Caltech datasets, demonstrating a notable increase in performance across the board, achieving up to $\sim 3\%$ absolute gain for top-1 accuracy over the state-of-the-art methods, while showing comparable computational overhead. Our code is publicly available at https://github.com/khawar-islam/DiffCoRe-Mix
- Abstract(参考訳): 生成拡散モデルは、複雑な視覚モデルを訓練する際に、データ拡張に自然な選択を提供する。
しかし, 拡張サンプルとして生成コンテンツの信頼性を確保することは, 未解決の課題である。
モデル訓練を強化するために生成画像を利用する技術は数多くあるが, 自然画像と生成画像の組み合わせを, 効果的なモデル誘導のためのリッチ・スーパーバイザリー・シグナルとして活用する方法は, いまだに不明である。
そこで本研究では,テキスト・トゥ・イメージ(T2I)データ拡張手法であるDiffCoRe-Mixを提案する。
キーセマンティックな軸を保存するために、増大過程における望ましくない生成サンプルをフィルタリングする。
そこで我々はCLIPの埋め込み空間におけるハードコサイン濾過を提案する。
提案手法は, 自然画像と生成画像とを, ピクセルレベルで, パッチレベルで系統的に混合する。
我々は、ImageNet-1K、Tiny ImageNet-200、CIFAR-100、Flowers102、CUB-Birds、Stanford Cars、Caltechのデータセット上で、我々のテクニックを広範囲に評価し、ボード全体のパフォーマンスが顕著に向上し、最先端の手法よりもトップ1の精度で最大$\sim 3\%の絶対的なゲインを実現した。
私たちのコードはhttps://github.com/khawar-islam/DiffCoRe-Mixで公開されています。
関連論文リスト
- Generative Dataset Distillation Based on Diffusion Model [45.305885410046116]
安定拡散に基づく新しい生成データセット蒸留法を提案する。
具体的には,SDXL-Turboモデルを用いて高速で画質の高い画像を生成する。
我々はECCV 2024 DD Challengeで3位となった。
論文 参考訳(メタデータ) (2024-08-16T08:52:02Z) - Derivative-Free Guidance in Continuous and Discrete Diffusion Models with Soft Value-Based Decoding [84.3224556294803]
拡散モデルは、画像、分子、DNA、RNA、タンパク質配列の自然なデザイン空間を捉えるのに優れている。
これらの設計空間の自然性を保ちながら、下流の報酬関数を最適化することを目指している。
提案アルゴリズムは,中間雑音状態が将来高い報酬をもたらすことの先駆けとして,ソフトバリュー関数を統合する。
論文 参考訳(メタデータ) (2024-08-15T16:47:59Z) - Gradient Inversion of Federated Diffusion Models [4.1355611383748005]
拡散モデルは、非常に高解像度の画像データを生成する欠陥生成モデルになりつつある。
本稿では,勾配反転攻撃のプライバシーリスクについて検討する。
本稿では,未知データの最適化をコーディネートする三重最適化GIDM+を提案する。
論文 参考訳(メタデータ) (2024-05-30T18:00:03Z) - DiffuseMix: Label-Preserving Data Augmentation with Diffusion Models [18.44432223381586]
近年、ディープニューラルネットワークの一般化を改善するために、画像混合に基づく拡張技術が数多く導入されている。
これらの手法では、2つ以上のランダムに選択された自然画像が混合され、拡張画像を生成する。
DiffuseMixを提案する。DiffuseMixは、拡散モデルを利用してトレーニング画像を再構成する新しいデータ拡張手法である。
論文 参考訳(メタデータ) (2024-04-05T05:31:02Z) - FreeSeg-Diff: Training-Free Open-Vocabulary Segmentation with Diffusion Models [56.71672127740099]
我々は,閉鎖語彙データセットのトレーニングモデルによって伝統的に解決されるイメージセグメンテーションの課題に焦点をあてる。
我々は、ゼロショットのオープン語彙セグメンテーションのために、異なる、比較的小さなオープンソース基盤モデルを活用している。
当社のアプローチ(別名FreeSeg-Diff)は、トレーニングに依存しないもので、Pascal VOCとCOCOデータセットの両方で多くのトレーニングベースのアプローチより優れています。
論文 参考訳(メタデータ) (2024-03-29T10:38:25Z) - The Journey, Not the Destination: How Data Guides Diffusion Models [75.19694584942623]
大規模なデータセットでトレーニングされた拡散モデルは、顕著な品質と多様性のフォトリアリスティックなイメージを合成することができる。
i)拡散モデルの文脈でデータ属性の形式的概念を提供し、(ii)そのような属性を反実的に検証することを可能にする枠組みを提案する。
論文 参考訳(メタデータ) (2023-12-11T08:39:43Z) - GeNIe: Generative Hard Negative Images Through Diffusion [16.619150568764262]
生成AIの最近の進歩により、自然画像に似たデータを生成する、より洗練された拡張技術が実現された。
本稿では,テキストプロンプトに条件付き潜伏拡散モデルを利用した新しい拡張手法であるGeNIeを紹介する。
本実験は,本手法の有効性と先行技術よりも優れた性能を示すものである。
論文 参考訳(メタデータ) (2023-12-05T07:34:30Z) - Hierarchical Integration Diffusion Model for Realistic Image Deblurring [71.76410266003917]
拡散モデル (DM) は画像劣化に導入され, 有望な性能を示した。
本稿では,階層型統合拡散モデル(HI-Diff)を提案する。
人工的および実世界のぼかしデータセットの実験は、HI-Diffが最先端の手法より優れていることを示した。
論文 参考訳(メタデータ) (2023-05-22T12:18:20Z) - Your Diffusion Model is Secretly a Zero-Shot Classifier [90.40799216880342]
大規模テキスト・画像拡散モデルからの密度推定をゼロショット分類に活用できることを示す。
分類に対する我々の生成的アプローチは、様々なベンチマークで強い結果が得られる。
我々の結果は、下流タスクにおける差別的モデルよりも生成的な利用に向けての一歩である。
論文 参考訳(メタデータ) (2023-03-28T17:59:56Z) - On Distillation of Guided Diffusion Models [94.95228078141626]
そこで本研究では,分類器を含まない誘導拡散モデルから抽出し易いモデルへ抽出する手法を提案する。
画素空間上で訓練された標準拡散モデルに対して,本手法は元のモデルに匹敵する画像を生成することができる。
遅延空間で訓練された拡散モデル(例えば、安定拡散)に対して、我々の手法は1から4段階のデノナイジングステップで高忠実度画像を生成することができる。
論文 参考訳(メタデータ) (2022-10-06T18:03:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。