論文の概要: DIAGen: Diverse Image Augmentation with Generative Models
- arxiv url: http://arxiv.org/abs/2408.14584v1
- Date: Mon, 26 Aug 2024 19:09:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-28 17:40:47.411877
- Title: DIAGen: Diverse Image Augmentation with Generative Models
- Title(参考訳): DIAGen: 生成モデルによる横画像拡張
- Authors: Tobias Lingenberg, Markus Reuter, Gopika Sudhakaran, Dominik Gojny, Stefan Roth, Simone Schaub-Meyer,
- Abstract要約: 本稿では,コンピュータビジョンモデルにおける意味的多様性を高めるためにDIAGenを提案する。
本研究では,テキストからテキストへの生成モデルの一般的な知識を活用し,拡散モデルのイメージ生成を導く。
その結果,DIAGenは意味的多様性を高めるだけでなく,その後の分類器の性能も向上することがわかった。
- 参考スコア(独自算出の注目度): 9.79392997282545
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Simple data augmentation techniques, such as rotations and flips, are widely used to enhance the generalization power of computer vision models. However, these techniques often fail to modify high-level semantic attributes of a class. To address this limitation, researchers have explored generative augmentation methods like the recently proposed DA-Fusion. Despite some progress, the variations are still largely limited to textural changes, thus falling short on aspects like varied viewpoints, environment, weather conditions, or even class-level semantic attributes (eg, variations in a dog's breed). To overcome this challenge, we propose DIAGen, building upon DA-Fusion. First, we apply Gaussian noise to the embeddings of an object learned with Textual Inversion to diversify generations using a pre-trained diffusion model's knowledge. Second, we exploit the general knowledge of a text-to-text generative model to guide the image generation of the diffusion model with varied class-specific prompts. Finally, we introduce a weighting mechanism to mitigate the impact of poorly generated samples. Experimental results across various datasets show that DIAGen not only enhances semantic diversity but also improves the performance of subsequent classifiers. The advantages of DIAGen over standard augmentations and the DA-Fusion baseline are particularly pronounced with out-of-distribution samples.
- Abstract(参考訳): 回転やフリップなどの単純なデータ拡張技術は、コンピュータビジョンモデルの一般化能力を高めるために広く用いられている。
しかしながら、これらのテクニックは、しばしばクラスの高レベルなセマンティック属性を変更することに失敗する。
この制限に対処するため、研究者は最近提案されたDA-Fusionのような生成的拡張法を調査した。
若干の進歩にもかかわらず、変種は依然としてテクスチャ的変化に限られており、様々な視点、環境、気象条件、さらにはクラスレベルの意味的属性(例えば犬の品種の変種)といった側面では不足している。
この課題を克服するため,DA-Fusionを基盤としたDIAGenを提案する。
まず,テキスト・インバージョンで学習した物体の埋め込みにガウス雑音を適用し,事前学習した拡散モデルの知識を用いて世代を多様化する。
第二に、テキストからテキストへの生成モデルの一般的な知識を利用して、クラス固有のプロンプトで拡散モデルの画像生成を誘導する。
最後に, 未生成試料の影響を軽減するため, 重み付け機構を導入する。
様々なデータセットにわたる実験結果から、DIAGenは意味的多様性を向上するだけでなく、その後の分類器の性能も向上することが示された。
標準拡張とDA-Fusionベースラインに対するDIAGenの利点は、特にアウト・オブ・ディストリビューション・サンプルで顕著である。
関連論文リスト
- GenFace: A Large-Scale Fine-Grained Face Forgery Benchmark and Cross Appearance-Edge Learning [50.7702397913573]
フォトリアリスティック・ジェネレータの急速な進歩は、真の画像と操作された画像の相違がますます不明瞭になっている臨界点に達している。
公開されている顔の偽造データセットはいくつかあるが、偽造顔は主にGANベースの合成技術を用いて生成される。
我々は,大規模で多様できめ細かな高忠実度データセットであるGenFaceを提案し,ディープフェイク検出の進展を促進する。
論文 参考訳(メタデータ) (2024-02-03T03:13:50Z) - Class-Prototype Conditional Diffusion Model with Gradient Projection for Continual Learning [20.175586324567025]
破滅的な忘れ方を減らすことは、継続的な学習における重要なハードルである。
大きな問題は、生成したデータの品質がオリジナルのものと比べて低下することである。
本稿では,ジェネレータにおける画像品質を向上させる連続学習のためのGRに基づくアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-10T17:39:42Z) - Improving Out-of-Distribution Robustness of Classifiers via Generative
Interpolation [56.620403243640396]
ディープニューラルネットワークは、独立かつ同一に分散されたデータ(すなわち、d)から学習する上で、優れたパフォーマンスを達成する。
しかし、アウト・オブ・ディストリビューション(OoD)データを扱う場合、その性能は著しく低下する。
多様なOoDサンプルを合成するために,複数のドメインから学習した生成モデルを融合するための生成補間法(Generative Interpolation)を開発した。
論文 参考訳(メタデータ) (2023-07-23T03:53:53Z) - DomainStudio: Fine-Tuning Diffusion Models for Domain-Driven Image
Generation using Limited Data [20.998032566820907]
本稿では,大規模ソースデータセット上で事前学習したDDPMを限定データを用いて対象ドメインに適応する新しいDomainStudioアプローチを提案する。
ソースドメインが提供する主題の多様性を維持し、ターゲットドメインに高品質で多様な適応型サンプルを取得するように設計されている。
論文 参考訳(メタデータ) (2023-06-25T07:40:39Z) - Analyzing Bias in Diffusion-based Face Generation Models [75.80072686374564]
拡散モデルは、合成データ生成と画像編集アプリケーションでますます人気がある。
本研究では, 性別, 人種, 年齢などの属性に関して, 拡散型顔生成モデルにおけるバイアスの存在について検討する。
本研究は,GAN(Generative Adversarial Network)とGAN(Generative Adversarial Network)をベースとした顔生成モデルにおいて,データセットサイズが属性組成および知覚品質に与える影響について検討する。
論文 参考訳(メタデータ) (2023-05-10T18:22:31Z) - Effective Data Augmentation With Diffusion Models [65.09758931804478]
我々は、事前訓練されたテキスト・画像拡散モデルによりパラメータ化された画像・画像変換によるデータ拡張の多様性の欠如に対処する。
本手法は,市販の拡散モデルを用いて画像のセマンティクスを編集し,いくつかのラベル付き例から新しい視覚概念に一般化する。
本手法は,実世界の雑草認識タスクと数ショット画像分類タスクにおいて評価し,テスト領域における精度の向上を観察する。
論文 参考訳(メタデータ) (2023-02-07T20:42:28Z) - GENIE: Large Scale Pre-training for Text Generation with Diffusion Model [86.2022500090247]
GENIEは、Transformerと拡散を組み合わせたシーケンス・ツー・シーケンスのテキスト生成モデルである。
本研究では,拡散モデルの特徴を基礎として,連続段落認知という新しい事前学習手法を提案する。
論文 参考訳(メタデータ) (2022-12-22T13:17:11Z) - A Survey on Generative Diffusion Model [75.93774014861978]
拡散モデルは、深層生成モデルの新たなクラスである。
時間を要する反復生成過程や高次元ユークリッド空間への閉じ込めなど、いくつかの制限がある。
本調査では,拡散モデルの向上を目的とした高度な手法を多数提示する。
論文 参考訳(メタデータ) (2022-09-06T16:56:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。