Fugu-MT 論文翻訳(概要): Improving Diversity in Zero-Shot GAN Adaptation with Semantic Variations

論文の概要: Improving Diversity in Zero-Shot GAN Adaptation with Semantic Variations

arxiv url: http://arxiv.org/abs/2308.10554v1
Date: Mon, 21 Aug 2023 08:12:28 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-22 14:30:04.531157
Title: Improving Diversity in Zero-Shot GAN Adaptation with Semantic Variations
Title（参考訳）: 意味変化を用いたゼロショットgan適応の多様性向上
Authors: Seogkyu Jeon, Bei Liu, Pilhyeon Lee, Kibeom Hong, Jianlong Fu, Hyeran Byun
Abstract要約: 0ショットのGAN適応は、よく訓練されたジェネレータを再利用して、目に見えないターゲットドメインの画像を合成することを目的としている。実際の画像の代わりに1つの代表的テキスト機能しか持たないため、合成された画像は徐々に多様性を損なう。そこで本研究では,CLIP空間における対象テキストの意味的変化を見つけるための新しい手法を提案する。
参考スコア（独自算出の注目度）: 61.132408427908175
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Training deep generative models usually requires a large amount of data. To alleviate the data collection cost, the task of zero-shot GAN adaptation aims to reuse well-trained generators to synthesize images of an unseen target domain without any further training samples. Due to the data absence, the textual description of the target domain and the vision-language models, e.g., CLIP, are utilized to effectively guide the generator. However, with only a single representative text feature instead of real images, the synthesized images gradually lose diversity as the model is optimized, which is also known as mode collapse. To tackle the problem, we propose a novel method to find semantic variations of the target text in the CLIP space. Specifically, we explore diverse semantic variations based on the informative text feature of the target domain while regularizing the uncontrolled deviation of the semantic information. With the obtained variations, we design a novel directional moment loss that matches the first and second moments of image and text direction distributions. Moreover, we introduce elastic weight consolidation and a relation consistency loss to effectively preserve valuable content information from the source domain, e.g., appearances. Through extensive experiments, we demonstrate the efficacy of the proposed methods in ensuring sample diversity in various scenarios of zero-shot GAN adaptation. We also conduct ablation studies to validate the effect of each proposed component. Notably, our model achieves a new state-of-the-art on zero-shot GAN adaptation in terms of both diversity and quality.
Abstract（参考訳）: 深層生成モデルのトレーニングは通常、大量のデータを必要とする。データ収集コストを軽減するため、ゼロショットgan適応のタスクは、訓練済みのジェネレータを再利用して、これ以上のトレーニングサンプルを使わずに対象領域のイメージを合成することを目的としている。データの欠如により、対象領域のテキスト記述や、例えばクリップなどの視覚言語モデルを利用して、ジェネレータを効果的にガイドする。しかし、実際の画像の代わりに1つの代表テキスト機能しか持たないため、モデルが最適化されるにつれて、合成画像は徐々に多様性を失い、モード崩壊とも呼ばれる。この問題に対処するために,CLIP空間における対象テキストの意味的変動を見つける新しい手法を提案する。具体的には,意味情報の非制御的偏差を定式化しつつ,対象領域の情報的テキスト特徴に基づく多様な意味変化を探索する。得られた変動により,画像とテキストの方向分布の第一モーメントと第二モーメントに一致する新しい方向モーメントロスをデザインする。さらに,弾力的な重みの和合せと関係一貫性の損失を導入し,ソース領域,例えば外観から貴重なコンテンツ情報を効果的に保存する。本研究では,ゼロショットgan適応の様々なシナリオにおいて,サンプルの多様性を確保するための提案手法の有効性を実証する。また,提案する各成分の効果を検証するため,アブレーション研究を行う。特に,本モデルでは,多様性と品質の両面で,ゼロショットGAN適応の最先端性を実現している。

関連論文リスト

Zero Shot Domain Adaptive Semantic Segmentation by Synthetic Data Generation and Progressive Adaptation [8.124539956043074]
本稿では,ゼロショット領域適応型セマンティックセマンティックセグメンテーションに挑戦する新たな手法を提案する。トレーニング済みオフザシェルフテキスト・ツー・イメージ拡散モデルを用いて,ソース・ドメイン・イメージをターゲット・スタイルに転送することでトレーニング・イメージを生成する。合成データにおけるノイズの影響を軽減するため,我々は,学習過程を通じて堅牢な学習を確実にする,進行的適応戦略を設計する。
論文参考訳（メタデータ） (2025-08-05T10:21:09Z)
Steering Guidance for Personalized Text-to-Image Diffusion Models [19.550718192994353]
既存のサンプリングガイダンス手法では、出力をバランスの取れた空間へ誘導することができない。我々は、ヌルテキストプロンプトに条件付き未学習弱モデルを活用する、単純で効果的なパーソナライズガイダンスを提案する。本手法は,余分な計算オーバーヘッドを伴わずに,バランスの取れた潜在空間への出力を明示的に制御する。
論文参考訳（メタデータ） (2025-08-01T05:02:26Z)
SIDA: Synthetic Image Driven Zero-shot Domain Adaptation [5.542712070598464]
ゼロショット領域適応は、ターゲット領域の画像データを活用することなく、対象領域にモデルを適用する方法である。合成画像を利用した新規で効率的なゼロショット領域適応手法であるSIDAを提案する。多様なゼロショット適応シナリオにおける最先端性能を示すことで,本手法の有効性を実証する。
論文参考訳（メタデータ） (2025-07-24T17:59:36Z)
DALDA: Data Augmentation Leveraging Diffusion Model and LLM with Adaptive Guidance Scaling [6.7206291284535125]
大規模言語モデル(LLM)と拡散モデル(DM)を利用した効果的なデータ拡張フレームワークを提案する。提案手法は,合成画像の多様性を増大させる問題に対処する。本手法は, 目標分布の付着性を維持しつつ, 多様性を向上した合成画像を生成する。
論文参考訳（メタデータ） (2024-09-25T14:02:43Z)
Few-Shot Image Generation by Conditional Relaxing Diffusion Inversion [37.18537753482751]
条件拡散緩和インバージョン(CRDI)は、合成画像生成における分布の多様性を高めるために設計されている。 CRDIはいくつかのサンプルに基づいた微調整を頼りにしていない。ターゲットの画像インスタンスの再構築と、数ショットの学習による多様性の拡大に重点を置いている。
論文参考訳（メタデータ） (2024-07-09T21:58:26Z)
Adaptive Prompt Learning with Negative Textual Semantics and Uncertainty Modeling for Universal Multi-Source Domain Adaptation [15.773845409601389]
Universal Multi-source Domain Adaptation (UniMDA)は、複数のラベル付きソースドメインからの知識をラベルなしターゲットドメインに転送する。既存のソリューションでは、未知のサンプルを検出するための画像特徴の発掘に重点を置いており、テキストセマンティクスに含まれる豊富な情報を無視している。本論文では,UniMDA分類タスクのテキスト意味論と不確実性モデリング手法を用いた適応型プロンプト学習を提案する。
論文参考訳（メタデータ） (2024-04-23T02:54:12Z)
Language Guided Domain Generalized Medical Image Segmentation [68.93124785575739]
単一ソースドメインの一般化は、より信頼性が高く一貫性のあるイメージセグメンテーションを現実の臨床環境にわたって約束する。本稿では,テキストエンコーダ機能によって案内されるコントラスト学習機構を組み込むことで,テキスト情報を明確に活用する手法を提案する。文献における既存手法に対して,本手法は良好な性能を発揮する。
論文参考訳（メタデータ） (2024-04-01T17:48:15Z)
Text-guided Explorable Image Super-resolution [14.83045604603449]
ゼロショットテキスト誘導超解像に対する2つのアプローチを提案する。提案手法はテキストプロンプトによって提供される意味的意味に合致する多様な解をもたらすことを示す。
論文参考訳（メタデータ） (2024-03-02T08:10:54Z)
Diversified in-domain synthesis with efficient fine-tuning for few-shot classification [64.86872227580866]
画像分類は,クラスごとのラベル付き例の小さなセットのみを用いて,画像分類器の学習を目的としている。合成データを用いた数ショット学習における一般化問題に対処する新しいアプローチである DisEF を提案する。提案手法を10種類のベンチマークで検証し,ベースラインを一貫して上回り,数ショット分類のための新しい最先端の手法を確立した。
論文参考訳（メタデータ） (2023-12-05T17:18:09Z)
Phasic Content Fusing Diffusion Model with Directional Distribution Consistency for Few-Shot Model Adaption [73.98706049140098]
本稿では,方向分布の整合性を損なう少数ショット拡散モデルを用いた新しいファシックコンテンツを提案する。具体的には、ファシックコンテンツ融合を用いたファシックトレーニング戦略を設計し、tが大きければ、モデルがコンテンツやスタイル情報を学ぶのに役立てる。最後に、ドメイン適応時の構造整合性を高めるクロスドメイン構造ガイダンス戦略を提案する。
論文参考訳（メタデータ） (2023-09-07T14:14:11Z)
Consistency Regularization for Generalizable Source-free Domain Adaptation [62.654883736925456]
ソースフリードメイン適応(source-free domain adapt, SFDA)は、ソースデータセットにアクセスすることなく、十分にトレーニングされたソースモデルを未学習のターゲットドメインに適応することを目的としている。既存のSFDAメソッドは、ターゲットのトレーニングセット上で適用されたモデルを評価し、目に見えないが同一の分散テストセットからデータを無視する。より一般化可能なSFDA法を開発するための整合正則化フレームワークを提案する。
論文参考訳（メタデータ） (2023-08-03T07:45:53Z)
Semantic Image Synthesis via Diffusion Models [159.4285444680301]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。セマンティック画像合成に関する最近の研究は、主に「GAN(Generative Adversarial Nets)」に追従している。
論文参考訳（メタデータ） (2022-06-30T18:31:51Z)
Semi-Supervised Domain Adaptation with Prototypical Alignment and Consistency Learning [86.6929930921905]
本稿では,いくつかの対象サンプルがラベル付けされていれば,ドメインシフトに対処するのにどの程度役立つか検討する。ランドマークの可能性を最大限に追求するために、ランドマークから各クラスのターゲットプロトタイプを計算するプロトタイプアライメント(PA)モジュールを組み込んでいます。具体的には,ラベル付き画像に深刻な摂動を生じさせ,PAを非自明にし,モデル一般化性を促進する。
論文参考訳（メタデータ） (2021-04-19T08:46:08Z)
Consistency Regularization with High-dimensional Non-adversarial Source-guided Perturbation for Unsupervised Domain Adaptation in Segmentation [15.428323201750144]
BiSIDAは、未ラベルのターゲットデータセットからの情報を効率的に活用するために、一貫性の正則化を採用している。 BiSIDAは、一般的に使われている2つの合成-実領域適応ベンチマーク上で、新しい最先端を実現する。
論文参考訳（メタデータ） (2020-09-18T03:26:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。