論文の概要: Bridging CLIP and StyleGAN through Latent Alignment for Image Editing
- arxiv url: http://arxiv.org/abs/2210.04506v1
- Date: Mon, 10 Oct 2022 09:17:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-11 17:57:03.862283
- Title: Bridging CLIP and StyleGAN through Latent Alignment for Image Editing
- Title(参考訳): 画像編集のための遅延アライメントによるCLIPとStyleGANのブリッジ
- Authors: Wanfeng Zheng, Qiang Li, Xiaoyan Guo, Pengfei Wan, Zhongyuan Wang
- Abstract要約: 我々はCLIPとStyleGANを橋渡し、推論時最適化のない多様な操作方向マイニングを実現する。
このマッピング方式により、GANインバージョン、テキスト・ツー・イメージ生成、テキスト駆動画像操作を実現することができる。
- 参考スコア(独自算出の注目度): 33.86698044813281
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-driven image manipulation is developed since the vision-language model
(CLIP) has been proposed. Previous work has adopted CLIP to design a text-image
consistency-based objective to address this issue. However, these methods
require either test-time optimization or image feature cluster analysis for
single-mode manipulation direction. In this paper, we manage to achieve
inference-time optimization-free diverse manipulation direction mining by
bridging CLIP and StyleGAN through Latent Alignment (CSLA). More specifically,
our efforts consist of three parts: 1) a data-free training strategy to train
latent mappers to bridge the latent space of CLIP and StyleGAN; 2) for more
precise mapping, temporal relative consistency is proposed to address the
knowledge distribution bias problem among different latent spaces; 3) to refine
the mapped latent in s space, adaptive style mixing is also proposed. With this
mapping scheme, we can achieve GAN inversion, text-to-image generation and
text-driven image manipulation. Qualitative and quantitative comparisons are
made to demonstrate the effectiveness of our method.
- Abstract(参考訳): 視覚言語モデル(CLIP)が提案されて以来,テキストによる画像操作が開発されている。
これまでの作業では,この問題に対処するためのテキストイメージの一貫性に基づく目標設計にCLIPを採用していた。
しかし、これらの手法には、単モード操作方向に対するテスト時間最適化または画像特徴クラスタ分析が必要である。
本稿では,CLIPとStyleGANをラテントアライメント(CSLA)を介してブリッジすることで,予測時最適化のない多様な操作方向マイニングを実現する。
具体的には、我々の努力は3つの部分から構成される。
1)CLIPとStyleGANの潜伏空間を橋渡しするために潜伏マッパーを訓練するデータフリートレーニング戦略
2) より正確なマッピングでは, 異なる潜在空間間の知識分布バイアス問題に対処するため, 時間的相対一貫性が提案される。
3) s空間にマッピングされた潜伏点を精錬するために,適応型混合法も提案されている。
このマッピング方式により、ganインバージョン、テキスト対画像生成、テキスト駆動画像操作を実現することができる。
本手法の有効性を示すために質的・定量的比較を行った。
関連論文リスト
- Optimizing CLIP Models for Image Retrieval with Maintained Joint-Embedding Alignment [0.7499722271664144]
Contrastive Language and Image Pairing (CLIP) はマルチメディア検索における変換手法である。
CLIPは通常、2つのニューラルネットワークを同時にトレーニングし、テキストとイメージペアのジョイント埋め込みを生成する。
本稿では,様々な画像に基づく類似性検索シナリオに対して,CLIPモデルを最適化するという課題に対処する。
論文 参考訳(メタデータ) (2024-09-03T14:33:01Z) - Layered Rendering Diffusion Model for Zero-Shot Guided Image Synthesis [60.260724486834164]
本稿では,テキストクエリに依存する拡散モデルにおける空間制御性向上のための革新的な手法を提案する。
視覚誘導(Vision Guidance)とレイヤーレンダリング拡散(Layered Rendering Diffusion)フレームワーク(Layered Diffusion)という2つの重要なイノベーションを提示します。
本稿では,ボックス・ツー・イメージ,セマンティック・マスク・ツー・イメージ,画像編集の3つの実践的応用に適用する。
論文 参考訳(メタデータ) (2023-11-30T10:36:19Z) - Conditional Score Guidance for Text-Driven Image-to-Image Translation [52.73564644268749]
本稿では,事前訓練されたテキスト・画像拡散モデルに基づく,テキスト駆動型画像・画像変換のための新しいアルゴリズムを提案する。
本手法は,ソース画像の関心領域を選択的に編集することで,対象画像を生成することを目的とする。
論文 参考訳(メタデータ) (2023-05-29T10:48:34Z) - Variational Distribution Learning for Unsupervised Text-to-Image
Generation [42.3246826401366]
本稿では,訓練中に画像のテキストキャプションが利用できない場合に,ディープニューラルネットワークに基づくテキスト画像生成アルゴリズムを提案する。
画像と対応するテキストの埋め込みを結合空間に適切に整列できる事前訓練されたCLIPモデルを用いる。
画像テキストCLIP埋め込みのペア上での条件付きデータログを最大化することにより、テキスト・画像生成モデルを最適化する。
論文 参考訳(メタデータ) (2023-03-28T16:18:56Z) - CLIP-PAE: Projection-Augmentation Embedding to Extract Relevant Features for a Disentangled, Interpretable, and Controllable Text-Guided Face Manipulation [4.078926358349661]
対照的に、CLIP(Contrastive Language- Image Pre-Training)は、画像とテキストを共同の潜在空間に埋め込むことでブリッジする。
共同空間における画像とテキストの埋め込みの相違により、最適化対象としてテキストの埋め込みを用いることで、結果の画像に望ましくないアーティファクトがしばしば導入される。
テキスト誘導画像操作の性能向上のための最適化ターゲットとして,CLIPプロジェクション拡張埋め込み(PAE)を導入する。
論文 参考訳(メタデータ) (2022-10-08T05:12:25Z) - One-Shot Adaptation of GAN in Just One CLIP [51.188396199083336]
本稿では,CLIP空間を統一した単一ショットGAN適応方式を提案する。
具体的には、CLIP誘導潜在最適化を用いて、ソースジェネレータ内の参照画像検索という2段階のトレーニング戦略を採用する。
対象のテクスチャで多様な出力を生成し,質的かつ定量的にベースラインモデルより優れていることを示す。
論文 参考訳(メタデータ) (2022-03-17T13:03:06Z) - StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery [71.1862388442953]
StyleGAN画像操作のためのテキストベースのインターフェースを開発しています。
まず,ユーザが提案するテキストプロンプトに応答して,CLIPに基づく損失を利用して入力潜時ベクトルを変更する最適化手法を提案する。
次に、与えられた入力画像に対してテキスト誘導の潜時操作ステップを推論し、より高速で安定したテキストベースの操作を可能にする潜時マッパーについて述べる。
論文 参考訳(メタデータ) (2021-03-31T17:51:25Z) - TediGAN: Text-Guided Diverse Face Image Generation and Manipulation [52.83401421019309]
TediGANはマルチモーダル画像生成とテキスト記述による操作のためのフレームワークである。
StyleGANインバージョンモジュールは、よく訓練されたStyleGANの潜在空間に実際の画像をマッピングする。
視覚言語的類似性は、画像とテキストを共通の埋め込み空間にマッピングすることで、テキスト画像マッチングを学ぶ。
インスタンスレベルの最適化は、操作におけるID保存のためのものだ。
論文 参考訳(メタデータ) (2020-12-06T16:20:19Z) - Style Intervention: How to Achieve Spatial Disentanglement with
Style-based Generators? [100.60938767993088]
任意の入力画像に適応し、フレキシブルな目的の下で自然な翻訳効果をレンダリングできる軽量な最適化アルゴリズムを提案する。
フォトリアリズムと一貫性の両方を必要とする高解像度画像の顔属性編集において,提案するフレームワークの性能を検証する。
論文 参考訳(メタデータ) (2020-11-19T07:37:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。