論文の概要: E$^{2}$GAN: Efficient Training of Efficient GANs for Image-to-Image
Translation
- arxiv url: http://arxiv.org/abs/2401.06127v1
- Date: Thu, 11 Jan 2024 18:59:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-12 13:12:24.707895
- Title: E$^{2}$GAN: Efficient Training of Efficient GANs for Image-to-Image
Translation
- Title(参考訳): E$^{2}$GAN:画像間翻訳のための効率的なGANの効率的な訓練
- Authors: Yifan Gong, Zheng Zhan, Qing Jin, Yanyu Li, Yerlan Idelbayev, Xian
Liu, Andrey Zharkov, Kfir Aberman, Sergey Tulyakov, Yanzhi Wang, Jian Ren
- Abstract要約: 拡散モデルからGANを蒸留するプロセスは、より効率的にできるのか?
まず、一般化された特徴を持つベースGANモデルを構築し、微調整により異なる概念に適応し、スクラッチからトレーニングの必要性を排除した。
第2に,ベースモデル全体の微調整を行うのではなく,低ランク適応(LoRA)を簡易かつ効果的なランク探索プロセスで行う。
- 参考スコア(独自算出の注目度): 71.7970885247162
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: One highly promising direction for enabling flexible real-time on-device
image editing is utilizing data distillation by leveraging large-scale
text-to-image diffusion models, such as Stable Diffusion, to generate paired
datasets used for training generative adversarial networks (GANs). This
approach notably alleviates the stringent requirements typically imposed by
high-end commercial GPUs for performing image editing with diffusion models.
However, unlike text-to-image diffusion models, each distilled GAN is
specialized for a specific image editing task, necessitating costly training
efforts to obtain models for various concepts. In this work, we introduce and
address a novel research direction: can the process of distilling GANs from
diffusion models be made significantly more efficient? To achieve this goal, we
propose a series of innovative techniques. First, we construct a base GAN model
with generalized features, adaptable to different concepts through fine-tuning,
eliminating the need for training from scratch. Second, we identify crucial
layers within the base GAN model and employ Low-Rank Adaptation (LoRA) with a
simple yet effective rank search process, rather than fine-tuning the entire
base model. Third, we investigate the minimal amount of data necessary for
fine-tuning, further reducing the overall training time. Extensive experiments
show that we can efficiently empower GANs with the ability to perform real-time
high-quality image editing on mobile devices with remarkable reduced training
cost and storage for each concept.
- Abstract(参考訳): フレキシブル・リアルタイム・デバイス・オン・デバイス・イメージ編集を実現するための非常に有望な方向の1つは、安定拡散のような大規模テキスト・画像拡散モデルを利用して、生成的敵ネットワーク(GAN)のトレーニングに使用されるペアデータセットを生成することである。
このアプローチは、拡散モデルで画像編集を行うためのハイエンドの商用GPUによって課される厳しい要件を特に緩和する。
しかし, テキストから画像への拡散モデルとは異なり, 蒸留したGANは特定の画像編集作業に特化しており, 様々な概念のモデルを得るためには, コストのかかる訓練が必要である。
本研究は, 拡散モデルからGANを蒸留するプロセスをより効率的にすることができるか?
この目的を達成するために,我々は一連の革新的な技術を提案する。
まず,汎用的な機能を備えたベースganモデルを構築し,微調整によって異なる概念に適応し,スクラッチからトレーニングを不要にする。
第2に,ベースモデル全体の微調整を行うのではなく,低ランク適応(LoRA)を簡易かつ効果的なランク探索プロセスで行う。
第3に,微調整に必要なデータ量を最小限に抑え,トレーニング時間の短縮を図る。
大規模な実験により,モバイル端末上でリアルタイムな高品質な画像編集を,各コンセプトのトレーニングコストとストレージを著しく削減し,効率よくGANを活用できることが示されている。
関連論文リスト
- Diffusion Models Trained with Large Data Are Transferable Visual Models [51.9937114613558]
そこで本研究では,適度な量の目標データを用いて,基本的な視覚知覚タスクにおいて顕著な伝達性能を実現することができることを示す。
結果は、様々なタスクや実世界のデータセットにまたがる拡散モデルのバックボーンの顕著な転送可能性を示している。
論文 参考訳(メタデータ) (2024-03-10T04:23:24Z) - One-Step Diffusion Distillation via Deep Equilibrium Models [64.11782639697883]
本稿では,拡散モデルを初期雑音から得られた画像に直接蒸留する簡易かつ効果的な方法を提案する。
本手法は,拡散モデルからノイズ/イメージペアのみによる完全オフライントレーニングを可能にする。
GET は FID スコアの点で 5 倍の ViT と一致するので,DEC アーキテクチャがこの能力に不可欠であることを示す。
論文 参考訳(メタデータ) (2023-12-12T07:28:40Z) - Steered Diffusion: A Generalized Framework for Plug-and-Play Conditional
Image Synthesis [62.07413805483241]
Steered Diffusionは、無条件生成のために訓練された拡散モデルを用いたゼロショット条件画像生成のためのフレームワークである。
塗装,着色,テキスト誘導セマンティック編集,画像超解像などのタスクに対して,ステアリング拡散を用いた実験を行った。
論文 参考訳(メタデータ) (2023-09-30T02:03:22Z) - A Simple and Effective Baseline for Attentional Generative Adversarial
Networks [8.63558211869045]
テキスト記述を通して生成モデルを導くことで高品質な画像のテキスト・ツー・イメージモデルを構築することは革新的で挑戦的な課題である。
近年、GANトレーニングをガイドするAttnGAN、SD-GAN、Stack-GAN++が提案されている。
我々は,AttnGANの冗長構造を除去し,バックボーンネットワークを改善するために,一般的なシンプルで効果的なアイデア(1)を用いる。
モデルの性能が変化しないことを保証しながら、モデルのサイズとトレーニング効率を大幅に改善しました。
論文 参考訳(メタデータ) (2023-06-26T13:55:57Z) - SnapFusion: Text-to-Image Diffusion Model on Mobile Devices within Two
Seconds [88.06788636008051]
テキストから画像への拡散モデルは、プロのアーティストや写真家の作品に匹敵する自然言語の記述から素晴らしい画像を作り出すことができる。
これらのモデルは大規模で、複雑なネットワークアーキテクチャと数十のデノベーションイテレーションを持ち、計算コストが高く、実行が遅い。
モバイル端末上でテキストから画像への拡散モデルの実行を2ドル以下でアンロックする汎用的なアプローチを提案する。
論文 参考訳(メタデータ) (2023-06-01T17:59:25Z) - Diffusion Guided Domain Adaptation of Image Generators [22.444668833151677]
分類器フリーガイダンスを批判として活用し,大規模テキスト・画像拡散モデルから知識を抽出できることを示す。
ジェネレータは、ターゲットドメインからの基底サンプルにアクセスすることなく、テキストプロンプトによって示される新しいドメインに効率的に移動することができる。
CLIP損失を最小限に抑えるためにトレーニングされていないが、我々のモデルはCLIPスコアが等しく高く、FIDが短いプロンプトよりも大幅に低い。
論文 参考訳(メタデータ) (2022-12-08T18:46:19Z) - Lafite2: Few-shot Text-to-Image Generation [132.14211027057766]
本稿では,画像のみのデータセットを用いたテキスト・画像生成モデルの事前学習手法を提案する。
擬似テキスト特徴を合成する検索テーマ最適化手法を検討する。
これは、数ショット、半教師あり、完全に教師された学習など、幅広い設定で有益である。
論文 参考訳(メタデータ) (2022-10-25T16:22:23Z) - Towards Faster and Stabilized GAN Training for High-fidelity Few-shot
Image Synthesis [21.40315235087551]
1024*1024解像度で優れた品質を得る軽量GAN構造を提案します。
データとコンピューティングの予算が限られている場合、私たちのモデルが最先端のstylegan2よりも優れたパフォーマンスを示します。
論文 参考訳(メタデータ) (2021-01-12T22:02:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。