論文の概要: One-Shot Adaptation of GAN in Just One CLIP
- arxiv url: http://arxiv.org/abs/2203.09301v1
- Date: Thu, 17 Mar 2022 13:03:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-18 22:45:08.855605
- Title: One-Shot Adaptation of GAN in Just One CLIP
- Title(参考訳): 1つのCLIPにおけるGANのワンショット適応
- Authors: Gihyun Kwon, Jong Chul Ye
- Abstract要約: 本稿では,CLIP空間を統一した単一ショットGAN適応方式を提案する。
具体的には、CLIP誘導潜在最適化を用いて、ソースジェネレータ内の参照画像検索という2段階のトレーニング戦略を採用する。
対象のテクスチャで多様な出力を生成し,質的かつ定量的にベースラインモデルより優れていることを示す。
- 参考スコア(独自算出の注目度): 51.188396199083336
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: There are many recent research efforts to fine-tune a pre-trained generator
with a few target images to generate images of a novel domain. Unfortunately,
these methods often suffer from overfitting or under-fitting when fine-tuned
with a single target image. To address this, here we present a novel
single-shot GAN adaptation method through unified CLIP space manipulations.
Specifically, our model employs a two-step training strategy: reference image
search in the source generator using a CLIP-guided latent optimization,
followed by generator fine-tuning with a novel loss function that imposes CLIP
space consistency between the source and adapted generators. To further improve
the adapted model to produce spatially consistent samples with respect to the
source generator, we also propose contrastive regularization for patchwise
relationships in the CLIP space. Experimental results show that our model
generates diverse outputs with the target texture and outperforms the baseline
models both qualitatively and quantitatively. Furthermore, we show that our
CLIP space manipulation strategy allows more effective attribute editing.
- Abstract(参考訳): 新たなドメインのイメージを生成するために、事前学習したジェネレータを少数のターゲットイメージで微調整する研究が近年行われている。
残念なことに、これらの手法は単一のターゲットイメージで微調整された場合、過度な適合や不適合に悩まされることが多い。
そこで本研究では,CLIP空間操作を統一した単一ショットGAN適応方式を提案する。
具体的には、CLIP誘導潜在最適化を用いたソースジェネレータの参照画像検索と、ソースと適応ジェネレータ間のCLIP空間の整合性を強制する新しい損失関数によるジェネレータの微調整という2段階のトレーニング手法を用いる。
ソースジェネレータに関して空間的に整合性のあるサンプルを生成するために適応モデルをさらに改良するため,CLIP空間におけるパッチワイズ関係に対するコントラスト正規化を提案する。
実験結果から, 対象テクスチャを用いて多様な出力を生成し, 質的, 定量的にベースラインモデルを上回った。
さらに,我々のCLIP空間操作戦略により,より効率的な属性編集が可能となることを示す。
関連論文リスト
- Stabilize the Latent Space for Image Autoregressive Modeling: A Unified Perspective [52.778766190479374]
遅延ベース画像生成モデルは、画像生成タスクにおいて顕著な成功を収めた。
同じ遅延空間を共有するにもかかわらず、自己回帰モデルは画像生成において LDM や MIM よりもかなり遅れている。
本稿では,画像生成モデルのための遅延空間を安定化する,単純だが効果的な離散画像トークン化手法を提案する。
論文 参考訳(メタデータ) (2024-10-16T12:13:17Z) - Boosting Few-Shot Detection with Large Language Models and Layout-to-Image Synthesis [1.1633929083694388]
本稿では,最先端な生成的拡張アプローチを超越した,少数ショット検出のためのフレームワークを提案する。
我々は,新しいレイアウト対応CLIPスコアをサンプルランキングに導入し,生成したレイアウトと画像の密結合を可能にする。
アプローチでは,COCO5-,10-,30ショット設定でYOLOX-Sベースラインを140%以上,50%,35%のmAPで強化する。
論文 参考訳(メタデータ) (2024-10-09T12:57:45Z) - CLIP with Generative Latent Replay: a Strong Baseline for Incremental Learning [17.614980614656407]
インクリメンタル・プロンプト学習のための連続的生成学習を提案する。
変分オートエンコーダを用いてクラス条件分布を学習する。
このような生成的リプレイアプローチは、ゼロショット機能を改善しつつ、新しいタスクに適応できることを示す。
論文 参考訳(メタデータ) (2024-07-22T16:51:28Z) - Compressing Image-to-Image Translation GANs Using Local Density
Structures on Their Learned Manifold [69.33930972652594]
GAN(Generative Adversarial Networks)は、画像から画像への変換のための複雑なデータ分散のモデル化において、顕著な成功を収めている。
既存のGAN圧縮法は主に知識蒸留や畳み込み分類器の刈り取り技術に依存している。
学習多様体上の元のパラメータ重モデルの密度構造を保存するために,プルーンドモデルを明示的に促すことにより,新しいアプローチを提案する。
画像変換GANモデルであるPix2PixとCycleGANについて,様々なベンチマークデータセットとアーキテクチャを用いて実験を行い,本手法の有効性を実証した。
論文 参考訳(メタデータ) (2023-12-22T15:43:12Z) - Bridging CLIP and StyleGAN through Latent Alignment for Image Editing [33.86698044813281]
我々はCLIPとStyleGANを橋渡し、推論時最適化のない多様な操作方向マイニングを実現する。
このマッピング方式により、GANインバージョン、テキスト・ツー・イメージ生成、テキスト駆動画像操作を実現することができる。
論文 参考訳(メタデータ) (2022-10-10T09:17:35Z) - Towards Diverse and Faithful One-shot Adaption of Generative Adversarial
Networks [54.80435295622583]
ワンショット生成ドメイン適応は、訓練済みのジェネレータを1つの参照画像のみを使用して、新しいドメインに転送することを目的としている。
本稿では、多種多様な世代と忠実な適応のための新しい一発生成ドメイン適応法、すなわち、DiFaを提案する。
論文 参考訳(メタデータ) (2022-07-18T16:29:41Z) - FewGAN: Generating from the Joint Distribution of a Few Images [95.6635227371479]
本稿では,新しい,高品質で多様な画像を生成するための生成モデルFewGANを紹介する。
FewGANは、第1の粗いスケールで量子化を適用した階層的なパッチGANであり、その後、より微細なスケールで残った完全畳み込みGANのピラミッドが続く。
大規模な実験では、FewGANは定量的にも定性的にも基線より優れていることが示されている。
論文 参考訳(メタデータ) (2022-07-18T07:11:28Z) - Few Shot Generative Model Adaption via Relaxed Spatial Structural
Alignment [130.84010267004803]
限られたデータでGAN(Generative Adversarial Network)を訓練することは難しい課題である。
実現可能な解決策は、大規模なソースドメインで十分に訓練されたGANから始め、ターゲットドメインにいくつかのサンプルで適応することである。
本研究では,適応時の対象生成モデルのキャリブレーションを行うための緩和された空間構造アライメント手法を提案する。
論文 参考訳(メタデータ) (2022-03-06T14:26:25Z) - Optimizing Generative Adversarial Networks for Image Super Resolution
via Latent Space Regularization [4.529132742139768]
GAN(Generative Adversarial Networks)は、多様体内の実画像の分布を学習し、実際のように見えるサンプルを生成する。
本稿では,これらの問題を教師付きGANに対して緩和する方法を探究する。
論文 参考訳(メタデータ) (2020-01-22T16:27:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。