論文の概要: E$^{2}$GAN: Efficient Training of Efficient GANs for Image-to-Image Translation
- arxiv url: http://arxiv.org/abs/2401.06127v2
- Date: Mon, 3 Jun 2024 02:09:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-04 19:42:23.643843
- Title: E$^{2}$GAN: Efficient Training of Efficient GANs for Image-to-Image Translation
- Title(参考訳): E$^{2}$GAN:画像間翻訳のための効率的なGANの効率的な訓練
- Authors: Yifan Gong, Zheng Zhan, Qing Jin, Yanyu Li, Yerlan Idelbayev, Xian Liu, Andrey Zharkov, Kfir Aberman, Sergey Tulyakov, Yanzhi Wang, Jian Ren,
- Abstract要約: 拡散モデルからGANを蒸留するプロセスは、より効率的にできるのか?
まず、一般化された特徴を持つベースGANモデルを構築し、微調整により異なる概念に適応し、スクラッチからトレーニングの必要性を排除した。
第2に,ベースモデル全体の微調整を行うのではなく,低ランク適応(LoRA)を簡易かつ効果的なランク探索プロセスで行う。
第3に、微調整に必要な最小限のデータ量を調査し、トレーニング時間を短縮する。
- 参考スコア(独自算出の注目度): 69.72194342962615
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: One highly promising direction for enabling flexible real-time on-device image editing is utilizing data distillation by leveraging large-scale text-to-image diffusion models to generate paired datasets used for training generative adversarial networks (GANs). This approach notably alleviates the stringent requirements typically imposed by high-end commercial GPUs for performing image editing with diffusion models. However, unlike text-to-image diffusion models, each distilled GAN is specialized for a specific image editing task, necessitating costly training efforts to obtain models for various concepts. In this work, we introduce and address a novel research direction: can the process of distilling GANs from diffusion models be made significantly more efficient? To achieve this goal, we propose a series of innovative techniques. First, we construct a base GAN model with generalized features, adaptable to different concepts through fine-tuning, eliminating the need for training from scratch. Second, we identify crucial layers within the base GAN model and employ Low-Rank Adaptation (LoRA) with a simple yet effective rank search process, rather than fine-tuning the entire base model. Third, we investigate the minimal amount of data necessary for fine-tuning, further reducing the overall training time. Extensive experiments show that we can efficiently empower GANs with the ability to perform real-time high-quality image editing on mobile devices with remarkably reduced training and storage costs for each concept.
- Abstract(参考訳): フレキシブルリアルタイムオンデバイス画像編集を実現する上で,大規模テキスト画像拡散モデルを利用してGAN(Generative Adversarial Network)のトレーニングに使用するペアデータセットを生成することにより,データ蒸留を活用することが期待できる。
このアプローチは、拡散モデルで画像編集を行うためのハイエンドの商用GPUによって課される厳しい要件を特に緩和する。
しかし, テキストから画像への拡散モデルとは異なり, 蒸留したGANは特定の画像編集作業に特化しており, 様々な概念のモデルを得るためには, コストのかかる訓練が必要である。
本研究は, 拡散モデルからGANを蒸留するプロセスをより効率的にすることができるか?
この目的を達成するために,我々は一連の革新的な技術を提案する。
まず、一般化された特徴を持つベースGANモデルを構築し、微調整により異なる概念に適応し、スクラッチからトレーニングの必要性を排除した。
第2に,ベースモデル全体の微調整を行うのではなく,低ランク適応(LoRA)を簡易かつ効果的なランク探索プロセスで行う。
第3に、微調整に必要な最小限のデータ量を調査し、トレーニング時間を短縮する。
大規模な実験により,モバイル端末上でのリアルタイムな高品質画像編集を,各コンセプトのトレーニングやストレージコストを著しく削減し,効率よくGANを活用できることが示されている。
関連論文リスト
- One-Step Diffusion Distillation via Deep Equilibrium Models [64.11782639697883]
本稿では,拡散モデルを初期雑音から得られた画像に直接蒸留する簡易かつ効果的な方法を提案する。
本手法は,拡散モデルからノイズ/イメージペアのみによる完全オフライントレーニングを可能にする。
GET は FID スコアの点で 5 倍の ViT と一致するので,DEC アーキテクチャがこの能力に不可欠であることを示す。
論文 参考訳(メタデータ) (2023-12-12T07:28:40Z) - Steered Diffusion: A Generalized Framework for Plug-and-Play Conditional
Image Synthesis [62.07413805483241]
Steered Diffusionは、無条件生成のために訓練された拡散モデルを用いたゼロショット条件画像生成のためのフレームワークである。
塗装,着色,テキスト誘導セマンティック編集,画像超解像などのタスクに対して,ステアリング拡散を用いた実験を行った。
論文 参考訳(メタデータ) (2023-09-30T02:03:22Z) - UGC: Unified GAN Compression for Efficient Image-to-Image Translation [20.3126581529643]
我々はモデル効率とラベル効率の学習の相乗効果をシームレスに促進するための統一的な目的を持った新しい学習パラダイムUnified GAN Compression (UGC)を提案する。
異種相互学習スキームを定式化し、アーキテクチャに柔軟で、ラベル効率が高く、性能に優れたモデルを得る。
論文 参考訳(メタデータ) (2023-09-17T15:55:09Z) - A Simple and Effective Baseline for Attentional Generative Adversarial
Networks [8.63558211869045]
テキスト記述を通して生成モデルを導くことで高品質な画像のテキスト・ツー・イメージモデルを構築することは革新的で挑戦的な課題である。
近年、GANトレーニングをガイドするAttnGAN、SD-GAN、Stack-GAN++が提案されている。
我々は,AttnGANの冗長構造を除去し,バックボーンネットワークを改善するために,一般的なシンプルで効果的なアイデア(1)を用いる。
モデルの性能が変化しないことを保証しながら、モデルのサイズとトレーニング効率を大幅に改善しました。
論文 参考訳(メタデータ) (2023-06-26T13:55:57Z) - SnapFusion: Text-to-Image Diffusion Model on Mobile Devices within Two
Seconds [88.06788636008051]
テキストから画像への拡散モデルは、プロのアーティストや写真家の作品に匹敵する自然言語の記述から素晴らしい画像を作り出すことができる。
これらのモデルは大規模で、複雑なネットワークアーキテクチャと数十のデノベーションイテレーションを持ち、計算コストが高く、実行が遅い。
モバイル端末上でテキストから画像への拡散モデルの実行を2ドル以下でアンロックする汎用的なアプローチを提案する。
論文 参考訳(メタデータ) (2023-06-01T17:59:25Z) - Is This Loss Informative? Faster Text-to-Image Customization by Tracking
Objective Dynamics [31.15864240403093]
本研究では,人気テキスト対画像パーソナライズ手法のトレーニングダイナミクスについて検討し,それらを高速化することを目的とした。
本稿では,一定組の入力に対して,正規学習目標の計算のみを必要とする,簡単な早期停止基準を提案する。
48の異なる概念に対する安定拡散実験と3つのパーソナライズ手法により,本手法の競争性能を実証した。
論文 参考訳(メタデータ) (2023-02-09T18:49:13Z) - Lafite2: Few-shot Text-to-Image Generation [132.14211027057766]
本稿では,画像のみのデータセットを用いたテキスト・画像生成モデルの事前学習手法を提案する。
擬似テキスト特徴を合成する検索テーマ最適化手法を検討する。
これは、数ショット、半教師あり、完全に教師された学習など、幅広い設定で有益である。
論文 参考訳(メタデータ) (2022-10-25T16:22:23Z) - A Generic Approach for Enhancing GANs by Regularized Latent Optimization [79.00740660219256]
本稿では,事前学習したGANを効果的かつシームレスに拡張できる,エミュレーティブモデル推論と呼ばれる汎用フレームワークを提案する。
我々の基本的な考え方は、ワッサーシュタイン勾配流法を用いて与えられた要求に対する最適潜時分布を効率的に推算することである。
論文 参考訳(メタデータ) (2021-12-07T05:22:50Z) - Towards Faster and Stabilized GAN Training for High-fidelity Few-shot
Image Synthesis [21.40315235087551]
1024*1024解像度で優れた品質を得る軽量GAN構造を提案します。
データとコンピューティングの予算が限られている場合、私たちのモデルが最先端のstylegan2よりも優れたパフォーマンスを示します。
論文 参考訳(メタデータ) (2021-01-12T22:02:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。