論文の概要: AIR: Zero-shot Generative Model Adaptation with Iterative Refinement
- arxiv url: http://arxiv.org/abs/2506.10895v1
- Date: Thu, 12 Jun 2025 17:00:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.854425
- Title: AIR: Zero-shot Generative Model Adaptation with Iterative Refinement
- Title(参考訳): AIR: 反復リファインメントによるゼロショット生成モデル適応
- Authors: Guimeng Liu, Milad Abdollahzadeh, Ngai-Man Cheung,
- Abstract要約: ゼロショット生成モデル適応(ZSGM)は、テキストガイダンスのみを使用して、事前訓練されたジェネレータをターゲットドメインに適応することを目的としている。
最近のZSGMアプローチの中心は、CLIPのような視覚言語モデルの埋め込み空間において、画像オフセットとテキストオフセットを整列する形で、テキストガイダンスを使用する方向損失である。
- 参考スコア(独自算出の注目度): 27.322307161825844
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Zero-shot generative model adaptation (ZSGM) aims to adapt a pre-trained generator to a target domain using only text guidance and without any samples from the target domain. Central to recent ZSGM approaches are directional loss which use the text guidance in the form of aligning the image offset with text offset in the embedding space of a vision-language model like CLIP. This is similar to the analogical reasoning in NLP where the offset between one pair of words is used to identify a missing element in another pair by aligning the offset between these two pairs. However, a major limitation of existing ZSGM methods is that the learning objective assumes the complete alignment between image offset and text offset in the CLIP embedding space, resulting in quality degrade in generated images. Our work makes two main contributions. Inspired by the offset misalignment studies in NLP, as our first contribution, we perform an empirical study to analyze the misalignment between text offset and image offset in CLIP embedding space for various large publicly available datasets. Our important finding is that offset misalignment in CLIP embedding space is correlated with concept distance, i.e., close concepts have a less offset misalignment. To address the limitations of the current approaches, as our second contribution, we propose Adaptation with Iterative Refinement (AIR) which is the first ZSGM approach to focus on improving target domain image quality based on our new insight on offset misalignment.Qualitative, quantitative, and user study in 26 experiment setups consistently demonstrate the proposed AIR approach achieves SOTA performance. Additional experiments are in Supp.
- Abstract(参考訳): ゼロショット生成モデル適応(ZSGM)は、テキストガイダンスのみを使用し、ターゲットドメインからのサンプルを含まない、事前訓練されたジェネレータをターゲットドメインに適応することを目的としている。
最近のZSGMアプローチの中心は、CLIPのような視覚言語モデルの埋め込み空間において、画像オフセットとテキストオフセットを整列する形で、テキストガイダンスを使用する方向損失である。
これは、NLPにおける類似の推論と似ており、1つの単語間のオフセットを使用して、この2つの単語間のオフセットを整列させることで、別のペア内の欠落要素を識別する。
しかし、既存のZSGM手法の大きな制限は、学習目的がCLIP埋め込み空間における画像オフセットとテキストオフセットの完全なアライメントを仮定し、結果として生成された画像の品質が低下することである。
私たちの仕事は2つの主な貢献をします。
最初のコントリビューションとして,NLPにおけるオフセット不整合の研究に触発されて,CLIP埋め込み空間におけるテキストオフセットと画像オフセットの相違を解析するための実証的研究を行った。
我々の重要な発見は、CLIP埋め込み空間におけるオフセットの不一致が概念距離と相関していることである。
第2のコントリビューションであるAdaptation with Iterative Refinement(AIR)は,オフセットミスアライメントに関する新たな知見に基づいて,ターゲット領域の画質向上に焦点をあてた最初のZSGMアプローチである。
その他の実験はSuppで行われている。
関連論文リスト
- Post-pre-training for Modality Alignment in Vision-Language Foundation Models [12.110530026601968]
本稿では,CLIPモデルの事前学習と微調整の段階における事前学習手法であるCLIP-Refineを提案する。
ゼロショットのパフォーマンス劣化を伴わずに、小さな画像テキストデータセットに対する1エポックトレーニングとフィーチャースペースの整合性を目指す。
論文 参考訳(メタデータ) (2025-04-17T07:46:19Z) - Semi-supervised Domain Adaptive Medical Image Segmentation through
Consistency Regularized Disentangled Contrastive Learning [11.049672162852733]
本研究では,医用画像分割のための半教師付き領域適応法(SSDA)について検討した。
本稿では,2段階の学習プロセスを提案する。まず,新しいドメイン・コンテント・ディコンタングル・コントラスト学習(CL)と画素レベルの特徴整合性制約を用いて,自己学習パラダイムでエンコーダを事前学習する。
提案手法がUDA設定で容易に拡張可能であることを実験的に検証し、提案手法の優位性を高める。
論文 参考訳(メタデータ) (2023-07-06T06:13:22Z) - Boosting Few-shot Fine-grained Recognition with Background Suppression
and Foreground Alignment [53.401889855278704]
FS-FGR (Few-shot Fine-fine Recognition) は、限られたサンプルの助けを借りて、新しいきめ細かなカテゴリを認識することを目的としている。
本研究では,背景アクティベーション抑制 (BAS) モジュール,フォアグラウンドオブジェクトアライメント (FOA) モジュール,および局所的局所的(L2L) 類似度測定器からなる2段階の背景アライメントとフォアグラウンドアライメントフレームワークを提案する。
複数のベンチマークで行った実験により,提案手法は既存の最先端技術よりも大きなマージンで優れていることが示された。
論文 参考訳(メタデータ) (2022-10-04T07:54:40Z) - Refign: Align and Refine for Adaptation of Semantic Segmentation to
Adverse Conditions [78.71745819446176]
Refignは、ドメイン間の通信を利用する自己学習ベースのUDAメソッドへの汎用的な拡張である。
Refign は,(1) 不確実性を認識した高密度マッチングネットワークを用いて,正常条件画像と対応する悪条件画像とを整列させ,(2) 適応ラベル補正機構を用いて正常予測で悪条件予測を精査する。
このアプローチでは、追加のトレーニングパラメータや、トレーニングのみの計算オーバーヘッドの最小化は導入されず、任意の自己学習ベースのUDAメソッドを改善するためにドロップイン拡張として使用することができる。
論文 参考訳(メタデータ) (2022-07-14T11:30:38Z) - ContraCLIP: Interpretable GAN generation driven by pairs of contrasting
sentences [45.06326873752593]
事前学習されたGANの潜在空間における非線形解釈パスをモデルに依存しない方法で発見する。
視覚言語埋め込み空間において、所望の経路に沿って変化を起こす経路を探索する目的を定義することにより、基礎となる生成因子を直感的に制御する方法を提供する。
論文 参考訳(メタデータ) (2022-06-05T06:13:42Z) - BDA-SketRet: Bi-Level Domain Adaptation for Zero-Shot SBIR [52.78253400327191]
BDA-SketRetは、視覚データペアの空間的特徴と意味的特徴を整合させるために、バイレベルドメイン適応を実行する新しいフレームワークである。
拡張されたSketchy、TU-Berlin、QuickDrawの実験結果は、文献よりも大幅に改善された。
論文 参考訳(メタデータ) (2022-01-17T18:45:55Z) - Semi-supervised Domain Adaptive Structure Learning [72.01544419893628]
半教師付きドメイン適応 (SSDA) は,1) アノテーションの低いデータに過度に適合する手法と,2) ドメイン間の分散シフトの両方を克服しなければならない課題である。
SSLとDAの協調を正規化するための適応型構造学習手法を提案する。
論文 参考訳(メタデータ) (2021-12-12T06:11:16Z) - HSVA: Hierarchical Semantic-Visual Adaptation for Zero-Shot Learning [74.76431541169342]
ゼロショット学習(ZSL)は、目に見えないクラス認識の問題に取り組み、目に見えないクラスから目に見えないクラスに意味的な知識を移す。
本稿では,意味領域と視覚領域を協調させる新しい階層型意味視覚適応(HSVA)フレームワークを提案する。
4つのベンチマークデータセットの実験では、HSVAは従来のZSLと一般的なZSLの両方で優れた性能を示す。
論文 参考訳(メタデータ) (2021-09-30T14:27:50Z) - Pixel-Level Cycle Association: A New Perspective for Domain Adaptive
Semantic Segmentation [169.82760468633236]
本稿では,ソースとターゲットの画素ペア間の画素レベルサイクルの関連性を構築することを提案する。
我々の手法は1段階のエンドツーエンドで訓練でき、追加のパラメータは導入しない。
論文 参考訳(メタデータ) (2020-10-31T00:11:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。