論文の概要: One-for-All: Towards Universal Domain Translation with a Single StyleGAN
- arxiv url: http://arxiv.org/abs/2310.14222v1
- Date: Sun, 22 Oct 2023 08:02:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 01:03:47.867114
- Title: One-for-All: Towards Universal Domain Translation with a Single StyleGAN
- Title(参考訳): ワン・フォー・オール:単一スタイルGANによるユニバーサルドメイン翻訳を目指して
- Authors: Yong Du, Jiahui Zhan, Shengfeng He, Xinzhe Li, Junyu Dong, Sheng Chen,
and Ming-Hsuan Yang
- Abstract要約: 視覚的に異なる領域間の表現を変換するための新しい翻訳モデルUniTranslatorを提案する。
提案したUniTranslatorは汎用的で、スタイルミキシング、スタイリゼーション、翻訳など様々なタスクを実行できる。
UniTranslatorは、既存の汎用モデルの性能を超越し、代表タスクの特殊モデルに対してよく機能する。
- 参考スコア(独自算出の注目度): 86.33216867136639
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a novel translation model, UniTranslator, for
transforming representations between visually distinct domains under conditions
of limited training data and significant visual differences. The main idea
behind our approach is leveraging the domain-neutral capabilities of CLIP as a
bridging mechanism, while utilizing a separate module to extract abstract,
domain-agnostic semantics from the embeddings of both the source and target
realms. Fusing these abstract semantics with target-specific semantics results
in a transformed embedding within the CLIP space. To bridge the gap between the
disparate worlds of CLIP and StyleGAN, we introduce a new non-linear mapper,
the CLIP2P mapper. Utilizing CLIP embeddings, this module is tailored to
approximate the latent distribution in the P space, effectively acting as a
connector between these two spaces. The proposed UniTranslator is versatile and
capable of performing various tasks, including style mixing, stylization, and
translations, even in visually challenging scenarios across different visual
domains. Notably, UniTranslator generates high-quality translations that
showcase domain relevance, diversity, and improved image quality. UniTranslator
surpasses the performance of existing general-purpose models and performs well
against specialized models in representative tasks. The source code and trained
models will be released to the public.
- Abstract(参考訳): 本稿では,限られた訓練データと有意な視覚差の条件下で,視覚的に異なる領域間の表現を変換するための新しい翻訳モデルUniTranslatorを提案する。
このアプローチの背景にある主な考え方は、CLIPのドメイン中立機能をブリッジ機構として活用しつつ、ソースとターゲット両方の領域の埋め込みから抽象的でドメインに依存しないセマンティクスを抽出するために別個のモジュールを活用することです。
これらの抽象意味論とターゲット固有の意味論を融合させることで、CLIP空間に変換された埋め込みをもたらす。
クリップとスタイルガンの異なる世界のギャップを埋めるため、新しい非線形マッパーであるクリップ2pマッパーを紹介する。
CLIP埋め込みを利用することで、このモジュールはP空間の潜伏分布を近似するように調整され、2つの空間間のコネクタとして効果的に機能する。
提案するユニトランスレータは多用途で、異なる視覚領域で視覚的に困難なシナリオであっても、スタイル混合、スタイライゼーション、翻訳など様々なタスクを実行することができる。
特に、unitranslatorは、ドメインの関連性、多様性、画質向上を示す高品質な翻訳を生成する。
UniTranslatorは、既存の汎用モデルの性能を超越し、代表タスクの特殊モデルに対してよく機能する。
ソースコードとトレーニングされたモデルは一般公開される予定だ。
関連論文リスト
- FUSE-ing Language Models: Zero-Shot Adapter Discovery for Prompt Optimization Across Tokenizers [55.2480439325792]
FUSEは、あるモデルのテキスト埋め込み空間から別のモデルへのマッピングを行うアダプタ層を、異なるトークン化器にまたがっても近似するアプローチである。
画像キャプションと感情に基づく画像キャプションのための視覚言語モデルと因果言語モデルに対する多目的最適化によるアプローチの有効性を示す。
論文 参考訳(メタデータ) (2024-08-09T02:16:37Z) - Semantic-Rearrangement-Based Multi-Level Alignment for Domain Generalized Segmentation [11.105659621713855]
異なるローカルセマンティック領域は、ソースドメインからターゲットドメインへの異なる視覚的特性を示す。
本稿では,Semantic-Rearrangement-based Multi-Level Alignment (SRMA)を提案する。
論文 参考訳(メタデータ) (2024-04-21T16:05:38Z) - Unified Language-driven Zero-shot Domain Adaptation [55.64088594551629]
Unified Language-driven Zero-shot Domain Adaptation (ULDA)は、新しいタスクセットである。
これにより、ドメインIDの知識を明示することなく、単一のモデルを多様なターゲットドメインに適応させることができる。
論文 参考訳(メタデータ) (2024-04-10T16:44:11Z) - Split to Merge: Unifying Separated Modalities for Unsupervised Domain
Adaptation [25.499205902426716]
教師なしドメイン適応のための統一モダリティ分離(UniMoS)フレームワークを導入する。
私たちは,CLIPの機能を言語関連コンポーネントと視覚関連コンポーネントに明確に分離する,スウィンブルなモダリティ分離ネットワークを構築した。
モダリティ・アンサンブル・トレーニング(MET)法は,モダリティ・アンサンブル情報の交換を促進する。
論文 参考訳(メタデータ) (2024-03-11T17:33:12Z) - VLLaVO: Mitigating Visual Gap through LLMs [7.352822795984628]
クロスドメイン学習は、トレーニングとテストデータのドメインシフトを減らすために、ドメイン不変の知識を抽出することを目的としている。
視覚言語モデルと大規模言語モデルを組み合わせたVLLaVOを提案する。
論文 参考訳(メタデータ) (2024-01-06T16:33:39Z) - Style-Hallucinated Dual Consistency Learning: A Unified Framework for
Visual Domain Generalization [113.03189252044773]
本稿では,様々な視覚的タスクにおけるドメインシフトを処理するための統合フレームワークであるStyle-HAllucinated Dual consistEncy Learning (SHADE)を提案する。
我々の汎用SHADEは、画像分類、セマンティックセグメンテーション、オブジェクト検出など、様々な視覚認識タスクにおける一般化を著しく向上させることができる。
論文 参考訳(メタデータ) (2022-12-18T11:42:51Z) - Language-aware Domain Generalization Network for Cross-Scene
Hyperspectral Image Classification [15.842081807249416]
ハイパースペクトル画像分類における言語モードの有効性を検討する必要がある。
大規模な事前学習画像テキスト基盤モデルは、様々なダウンストリームアプリケーションで優れた性能を示している。
言語対応ドメイン一般化ネットワーク(LDGnet)を提案する。
論文 参考訳(メタデータ) (2022-09-06T10:06:10Z) - BURT: BERT-inspired Universal Representation from Learning Meaningful
Segment [46.51685959045527]
この研究は普遍的な表現学習、すなわち一様ベクトル空間における言語単位の異なるレベルへの埋め込みを導入し、探求する。
我々は、異なるレベルの言語単位を同じベクトル空間に符号化する普遍表現モデルburtを提案する。
具体的には,ポイントワイズ相互情報(pmi)に基づいて有意義なセグメントを抽出・マスキングし,異なる粒度目標を事前学習段階に組み込む。
論文 参考訳(メタデータ) (2020-12-28T16:02:28Z) - Referring Image Segmentation via Cross-Modal Progressive Comprehension [94.70482302324704]
画像セグメンテーションの参照は、自然言語表現で与えられた記述によく一致するエンティティの前景マスクをセグメンテーションすることを目的としている。
従来のアプローチでは、暗黙的な特徴相互作用と視覚的モダリティと言語的モダリティの融合を用いてこの問題に対処していた。
本稿では,この課題に効果的に対応するために,Cross-Modal Progressive (CMPC) モジュールと Text-Guided Feature Exchange (TGFE) モジュールを提案する。
論文 参考訳(メタデータ) (2020-10-01T16:02:30Z) - Universal-RCNN: Universal Object Detector via Transferable Graph R-CNN [117.80737222754306]
我々はUniversal-RCNNと呼ばれる新しいユニバーサルオブジェクト検出器を提案する。
まず、すべてのカテゴリの高レベルなセマンティック表現を統合することで、グローバルなセマンティックプールを生成する。
ドメイン内推論モジュールは、空間認識GCNによってガイドされる1つのデータセット内のスパースグラフ表現を学習し、伝播する。
論文 参考訳(メタデータ) (2020-02-18T07:57:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。