論文の概要: Improving Diversity in Zero-Shot GAN Adaptation with Semantic Variations
- arxiv url: http://arxiv.org/abs/2308.10554v1
- Date: Mon, 21 Aug 2023 08:12:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-22 14:30:04.531157
- Title: Improving Diversity in Zero-Shot GAN Adaptation with Semantic Variations
- Title(参考訳): 意味変化を用いたゼロショットgan適応の多様性向上
- Authors: Seogkyu Jeon, Bei Liu, Pilhyeon Lee, Kibeom Hong, Jianlong Fu, Hyeran
Byun
- Abstract要約: 0ショットのGAN適応は、よく訓練されたジェネレータを再利用して、目に見えないターゲットドメインの画像を合成することを目的としている。
実際の画像の代わりに1つの代表的テキスト機能しか持たないため、合成された画像は徐々に多様性を損なう。
そこで本研究では,CLIP空間における対象テキストの意味的変化を見つけるための新しい手法を提案する。
- 参考スコア(独自算出の注目度): 61.132408427908175
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training deep generative models usually requires a large amount of data. To
alleviate the data collection cost, the task of zero-shot GAN adaptation aims
to reuse well-trained generators to synthesize images of an unseen target
domain without any further training samples. Due to the data absence, the
textual description of the target domain and the vision-language models, e.g.,
CLIP, are utilized to effectively guide the generator. However, with only a
single representative text feature instead of real images, the synthesized
images gradually lose diversity as the model is optimized, which is also known
as mode collapse. To tackle the problem, we propose a novel method to find
semantic variations of the target text in the CLIP space. Specifically, we
explore diverse semantic variations based on the informative text feature of
the target domain while regularizing the uncontrolled deviation of the semantic
information. With the obtained variations, we design a novel directional moment
loss that matches the first and second moments of image and text direction
distributions. Moreover, we introduce elastic weight consolidation and a
relation consistency loss to effectively preserve valuable content information
from the source domain, e.g., appearances. Through extensive experiments, we
demonstrate the efficacy of the proposed methods in ensuring sample diversity
in various scenarios of zero-shot GAN adaptation. We also conduct ablation
studies to validate the effect of each proposed component. Notably, our model
achieves a new state-of-the-art on zero-shot GAN adaptation in terms of both
diversity and quality.
- Abstract(参考訳): 深層生成モデルのトレーニングは通常、大量のデータを必要とする。
データ収集コストを軽減するため、ゼロショットgan適応のタスクは、訓練済みのジェネレータを再利用して、これ以上のトレーニングサンプルを使わずに対象領域のイメージを合成することを目的としている。
データの欠如により、対象領域のテキスト記述や、例えばクリップなどの視覚言語モデルを利用して、ジェネレータを効果的にガイドする。
しかし、実際の画像の代わりに1つの代表テキスト機能しか持たないため、モデルが最適化されるにつれて、合成画像は徐々に多様性を失い、モード崩壊とも呼ばれる。
この問題に対処するために,CLIP空間における対象テキストの意味的変動を見つける新しい手法を提案する。
具体的には,意味情報の非制御的偏差を定式化しつつ,対象領域の情報的テキスト特徴に基づく多様な意味変化を探索する。
得られた変動により,画像とテキストの方向分布の第一モーメントと第二モーメントに一致する新しい方向モーメントロスをデザインする。
さらに,弾力的な重みの和合せと関係一貫性の損失を導入し,ソース領域,例えば外観から貴重なコンテンツ情報を効果的に保存する。
本研究では,ゼロショットgan適応の様々なシナリオにおいて,サンプルの多様性を確保するための提案手法の有効性を実証する。
また,提案する各成分の効果を検証するため,アブレーション研究を行う。
特に,本モデルでは,多様性と品質の両面で,ゼロショットGAN適応の最先端性を実現している。
関連論文リスト
- DALDA: Data Augmentation Leveraging Diffusion Model and LLM with Adaptive Guidance Scaling [6.7206291284535125]
大規模言語モデル(LLM)と拡散モデル(DM)を利用した効果的なデータ拡張フレームワークを提案する。
提案手法は,合成画像の多様性を増大させる問題に対処する。
本手法は, 目標分布の付着性を維持しつつ, 多様性を向上した合成画像を生成する。
論文 参考訳(メタデータ) (2024-09-25T14:02:43Z) - Few-Shot Image Generation by Conditional Relaxing Diffusion Inversion [37.18537753482751]
条件拡散緩和インバージョン(CRDI)は、合成画像生成における分布の多様性を高めるために設計されている。
CRDIはいくつかのサンプルに基づいた微調整を頼りにしていない。
ターゲットの画像インスタンスの再構築と、数ショットの学習による多様性の拡大に重点を置いている。
論文 参考訳(メタデータ) (2024-07-09T21:58:26Z) - Adaptive Prompt Learning with Negative Textual Semantics and Uncertainty Modeling for Universal Multi-Source Domain Adaptation [15.773845409601389]
Universal Multi-source Domain Adaptation (UniMDA)は、複数のラベル付きソースドメインからの知識をラベルなしターゲットドメインに転送する。
既存のソリューションでは、未知のサンプルを検出するための画像特徴の発掘に重点を置いており、テキストセマンティクスに含まれる豊富な情報を無視している。
本論文では,UniMDA分類タスクのテキスト意味論と不確実性モデリング手法を用いた適応型プロンプト学習を提案する。
論文 参考訳(メタデータ) (2024-04-23T02:54:12Z) - Language Guided Domain Generalized Medical Image Segmentation [68.93124785575739]
単一ソースドメインの一般化は、より信頼性が高く一貫性のあるイメージセグメンテーションを現実の臨床環境にわたって約束する。
本稿では,テキストエンコーダ機能によって案内されるコントラスト学習機構を組み込むことで,テキスト情報を明確に活用する手法を提案する。
文献における既存手法に対して,本手法は良好な性能を発揮する。
論文 参考訳(メタデータ) (2024-04-01T17:48:15Z) - Text-guided Explorable Image Super-resolution [14.83045604603449]
ゼロショットテキスト誘導超解像に対する2つのアプローチを提案する。
提案手法はテキストプロンプトによって提供される意味的意味に合致する多様な解をもたらすことを示す。
論文 参考訳(メタデータ) (2024-03-02T08:10:54Z) - Diversified in-domain synthesis with efficient fine-tuning for few-shot
classification [64.86872227580866]
画像分類は,クラスごとのラベル付き例の小さなセットのみを用いて,画像分類器の学習を目的としている。
合成データを用いた数ショット学習における一般化問題に対処する新しいアプローチである DisEF を提案する。
提案手法を10種類のベンチマークで検証し,ベースラインを一貫して上回り,数ショット分類のための新しい最先端の手法を確立した。
論文 参考訳(メタデータ) (2023-12-05T17:18:09Z) - Phasic Content Fusing Diffusion Model with Directional Distribution
Consistency for Few-Shot Model Adaption [73.98706049140098]
本稿では,方向分布の整合性を損なう少数ショット拡散モデルを用いた新しいファシックコンテンツを提案する。
具体的には、ファシックコンテンツ融合を用いたファシックトレーニング戦略を設計し、tが大きければ、モデルがコンテンツやスタイル情報を学ぶのに役立てる。
最後に、ドメイン適応時の構造整合性を高めるクロスドメイン構造ガイダンス戦略を提案する。
論文 参考訳(メタデータ) (2023-09-07T14:14:11Z) - Consistency Regularization for Generalizable Source-free Domain
Adaptation [62.654883736925456]
ソースフリードメイン適応(source-free domain adapt, SFDA)は、ソースデータセットにアクセスすることなく、十分にトレーニングされたソースモデルを未学習のターゲットドメインに適応することを目的としている。
既存のSFDAメソッドは、ターゲットのトレーニングセット上で適用されたモデルを評価し、目に見えないが同一の分散テストセットからデータを無視する。
より一般化可能なSFDA法を開発するための整合正則化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-03T07:45:53Z) - Semantic Image Synthesis via Diffusion Models [159.4285444680301]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に「GAN(Generative Adversarial Nets)」に追従している。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z) - Consistency Regularization with High-dimensional Non-adversarial
Source-guided Perturbation for Unsupervised Domain Adaptation in Segmentation [15.428323201750144]
BiSIDAは、未ラベルのターゲットデータセットからの情報を効率的に活用するために、一貫性の正則化を採用している。
BiSIDAは、一般的に使われている2つの合成-実領域適応ベンチマーク上で、新しい最先端を実現する。
論文 参考訳(メタデータ) (2020-09-18T03:26:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。