論文の概要: CLIP2StyleGAN: Unsupervised Extraction of StyleGAN Edit Directions
- arxiv url: http://arxiv.org/abs/2112.05219v1
- Date: Thu, 9 Dec 2021 21:26:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-14 02:35:25.093273
- Title: CLIP2StyleGAN: Unsupervised Extraction of StyleGAN Edit Directions
- Title(参考訳): CLIP2StyleGAN:StyleGAN編集方向の教師なし抽出
- Authors: Rameen Abdal, Peihao Zhu, John Femiani, Niloy J. Mitra, Peter Wonka
- Abstract要約: StyleGANは、合成画像と実画像の両方において、前例のないセマンティック編集機能を実現している。
興味あるCLIP方向を見つけるためのブロックと、CLIP潜在空間における任意の方向を示すブロックを提案する。
提案手法の有効性を評価し,不整合ラベル付きStyleGAN編集方向の抽出が実際に可能であることを示す。
- 参考スコア(独自算出の注目度): 65.00528970576401
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The success of StyleGAN has enabled unprecedented semantic editing
capabilities, on both synthesized and real images. However, such editing
operations are either trained with semantic supervision or described using
human guidance. In another development, the CLIP architecture has been trained
with internet-scale image and text pairings and has been shown to be useful in
several zero-shot learning settings. In this work, we investigate how to
effectively link the pretrained latent spaces of StyleGAN and CLIP, which in
turn allows us to automatically extract semantically labeled edit directions
from StyleGAN, finding and naming meaningful edit operations without any
additional human guidance. Technically, we propose two novel building blocks;
one for finding interesting CLIP directions and one for labeling arbitrary
directions in CLIP latent space. The setup does not assume any pre-determined
labels and hence we do not require any additional supervised text/attributes to
build the editing framework. We evaluate the effectiveness of the proposed
method and demonstrate that extraction of disentangled labeled StyleGAN edit
directions is indeed possible, and reveals interesting and non-trivial edit
directions.
- Abstract(参考訳): StyleGANの成功により、合成画像と実画像の両方で前例のないセマンティック編集が可能になった。
しかし、このような編集作業は意味的な監督によって訓練されるか、人的指導を用いて記述される。
別の開発では、CLIPアーキテクチャはインターネットスケールの画像とテキストのペアリングで訓練されており、いくつかのゼロショット学習設定で有用であることが示されている。
本研究では,スタイルガンとクリップの事前学習済みの潜在空間を効果的にリンクさせる方法について検討し,スタイルガンから意味的にラベル付けされた編集指示を自動的に抽出し,人間の指示なしに意味のある編集操作を検索・命名することを可能にする。
技術的には、興味深いCLIP方向を見つけるためのブロックと、CLIP潜在空間内の任意の方向をラベル付けするためのブロックを2つ提案する。
設定は事前に決められたラベルを前提としないので、編集フレームワークを構築するために追加の教師付きテキスト/属性は必要ありません。
提案手法の有効性を評価し,不連続ラベル付きスタイルガン編集方向の抽出が可能であることを実証し,興味深い非自明な編集方向を示す。
関連論文リスト
- Editing Arbitrary Propositions in LLMs without Subject Labels [88.67755930096966]
GT(Gradient Tracing)と呼ばれるシンプルで高速なローカライゼーション手法を提案する。
GTは、単にバイナリではなく任意の命題を編集できる。
提案手法は, 対象ラベルにアクセスせずに, 対象ラベルを持つ最先端のL&E手法に近い動作を行うことを示す。
論文 参考訳(メタデータ) (2024-01-15T08:08:24Z) - CLIP-Guided StyleGAN Inversion for Text-Driven Real Image Editing [22.40686064568406]
提案するCLIPInverterは,複数属性の変更を効率よく,かつ確実に行うことのできる,テキスト駆動型画像編集手法である。
本手法は,人間の顔,猫,鳥など,さまざまな領域における操作精度とフォトリアリズムにおいて,競合するアプローチよりも優れる。
論文 参考訳(メタデータ) (2023-07-17T11:29:48Z) - Robust Text-driven Image Editing Method that Adaptively Explores
Directions in Latent Spaces of StyleGAN and CLIP [10.187432367590201]
テキスト駆動画像編集における先駆的な作業であるStyleCLIPは、CLIP空間の編集方向を見つけ、その方向をStyleGAN空間にマッピングすることで画像を編集する。
同時に、原画像以外の適切な入力と、画像編集のためのテキスト命令を調整することは困難である。
本稿では,SVMを用いてStyleGANとCLIP空間の編集方向を適応的に構築する手法を提案する。
論文 参考訳(メタデータ) (2023-04-03T13:30:48Z) - Discovering Class-Specific GAN Controls for Semantic Image Synthesis [73.91655061467988]
本稿では,事前訓練されたSISモデルの潜在空間において,空間的に不整合なクラス固有方向を求める新しい手法を提案する。
提案手法によって検出される潜在方向は,セマンティッククラスの局所的な外観を効果的に制御できることを示す。
論文 参考訳(メタデータ) (2022-12-02T21:39:26Z) - CLIP2GAN: Towards Bridging Text with the Latent Space of GANs [128.47600914674985]
本稿では,CLIPモデルとStyleGANを利用した新しいフレームワークであるCLIP2GANを提案する。
CLIP2GANのキーとなるアイデアは、CLIPの出力機能埋め込みスペースとStyleGANの入力潜在スペースをブリッジすることです。
論文 参考訳(メタデータ) (2022-11-28T04:07:17Z) - $S^2$-Flow: Joint Semantic and Style Editing of Facial Images [16.47093005910139]
GAN(Generative Adversarial Network)は、画像編集への応用に関する調査をモチベーションとしている。
GANは特定の編集を行うために提供されるコントロールに制限されることが多い。
本稿では,GAN$text'$s潜在空間を意味空間とスタイル空間に分解する手法を提案する。
論文 参考訳(メタデータ) (2022-11-22T12:00:02Z) - Towards Counterfactual Image Manipulation via CLIP [106.94502632502194]
既存の方法は、顔画像の年齢や性別など、さまざまな視覚特性をリアルに編集することができる。
コントラスト・ランゲージ・イメージ・プレトレーニング(CLIP)を用いたテキスト駆動方式でこの問題を考察する。
定義済みのCLIP空間の方向を利用して、異なる視点から所望の方向に向けて編集を誘導する新しいコントラスト損失を設計する。
論文 参考訳(メタデータ) (2022-07-06T17:02:25Z) - StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery [71.1862388442953]
StyleGAN画像操作のためのテキストベースのインターフェースを開発しています。
まず,ユーザが提案するテキストプロンプトに応答して,CLIPに基づく損失を利用して入力潜時ベクトルを変更する最適化手法を提案する。
次に、与えられた入力画像に対してテキスト誘導の潜時操作ステップを推論し、より高速で安定したテキストベースの操作を可能にする潜時マッパーについて述べる。
論文 参考訳(メタデータ) (2021-03-31T17:51:25Z) - Towards Disentangling Latent Space for Unsupervised Semantic Face
Editing [21.190437168936764]
修正属性の編集には注釈付きトレーニングデータが必要で、編集可能な属性をラベル付き属性に制限する。
本稿では、重み分解と直交正規化(STIA-WO)を用いた構造テクスチュア独立アーキテクチャ(Structure-Texture Independent Architecture)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2020-11-05T03:29:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。