論文の概要: CLIP-PAE: Projection-Augmentation Embedding to Extract Relevant Features
for a Disentangled, Interpretable, and Controllable Text-Guided Face
Manipulation
- arxiv url: http://arxiv.org/abs/2210.03919v4
- Date: Sun, 7 May 2023 20:26:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-10 00:15:53.140581
- Title: CLIP-PAE: Projection-Augmentation Embedding to Extract Relevant Features
for a Disentangled, Interpretable, and Controllable Text-Guided Face
Manipulation
- Title(参考訳): CLIP-PAE: 絡み合った、解釈可能な、制御可能なテキストガイド型顔マニピュレーションのための関連特徴抽出のための投影拡張埋め込み
- Authors: Chenliang Zhou, Fangcheng Zhong, Cengiz Oztireli
- Abstract要約: テキスト誘導画像操作の性能向上のための最適化ターゲットとして,CLIPプロジェクション拡張埋め込み(PAE)を導入する。
提案手法は,任意のCLIPに基づく画像操作アルゴリズムに容易に計算,適応し,スムーズに組み込むことができる,シンプルで汎用的なパラダイムである。
- 参考スコア(独自算出の注目度): 2.7685408681770247
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recently introduced Contrastive Language-Image Pre-Training (CLIP) bridges
images and text by embedding them into a joint latent space. This opens the
door to ample literature that aims to manipulate an input image by providing a
textual explanation. However, due to the discrepancy between image and text
embeddings in the joint space, using text embeddings as the optimization target
often introduces undesired artifacts in the resulting images. Disentanglement,
interpretability, and controllability are also hard to guarantee for
manipulation. To alleviate these problems, we propose to define corpus
subspaces spanned by relevant prompts to capture specific image
characteristics. We introduce CLIP Projection-Augmentation Embedding (PAE) as
an optimization target to improve the performance of text-guided image
manipulation. Our method is a simple and general paradigm that can be easily
computed and adapted, and smoothly incorporated into any CLIP-based image
manipulation algorithm. To demonstrate the effectiveness of our method, we
conduct several theoretical and empirical studies. As a case study, we utilize
the method for text-guided semantic face editing. We quantitatively and
qualitatively demonstrate that PAE facilitates a more disentangled,
interpretable, and controllable image manipulation with state-of-the-art
quality and accuracy.
- Abstract(参考訳): 最近導入されたContrastive Language- Image Pre-Training (CLIP) は、画像とテキストを結合した潜在空間に埋め込むことでブリッジする。
これにより、テキストによる説明を提供することで、入力画像を操作することを目的とした文献を多用する扉を開く。
しかし、画像とテキストの埋め込みの相違により、最適化対象としてテキスト埋め込みを使用することで、結果の画像に望ましくないアーティファクトをしばしば導入する。
絡み合い、解釈可能性、制御性も操作の保証が難しい。
これらの問題を緩和するために,関連するプロンプトにまたがるコーパス部分空間を定義し,特定の画像特性をキャプチャする。
テキスト誘導画像操作の性能向上のための最適化ターゲットとして,CLIPプロジェクション拡張埋め込み(PAE)を導入する。
提案手法は単純で汎用的なパラダイムであり,任意のCLIPベースの画像操作アルゴリズムにスムーズに組み込むことができる。
本手法の有効性を示すために,いくつかの理論および経験的研究を行った。
ケーススタディとして,テキスト誘導型セマンティックフェイス編集の手法を用いる。
我々はPAEが、最先端の品質と精度で、より不整合で、解釈可能で、制御可能な画像操作を促進することを定量的に、質的に証明する。
関連論文リスト
- Analogist: Out-of-the-box Visual In-Context Learning with Image Diffusion Model [25.47573567479831]
本稿では,視覚とテキストの両方のプロンプト技術を利用した新しい推論に基づく視覚的ICL手法を提案する。
提案手法はアウト・オブ・ボックスであり,微調整や最適化は不要である。
論文 参考訳(メタデータ) (2024-05-16T17:59:21Z) - CgT-GAN: CLIP-guided Text GAN for Image Captioning [48.276753091051035]
本稿では,CLIP-Guided text GAN (CgT-GAN) を提案する。
我々は,外部テキストコーパスのフレーズを模倣するために,CgT-GANの教育に逆行訓練を用いる。
CgT-GANは、すべてのメトリクスで最先端のメソッドを著しく上回る。
論文 参考訳(メタデータ) (2023-08-23T10:25:37Z) - CLIP-Guided StyleGAN Inversion for Text-Driven Real Image Editing [22.40686064568406]
提案するCLIPInverterは,複数属性の変更を効率よく,かつ確実に行うことのできる,テキスト駆動型画像編集手法である。
本手法は,人間の顔,猫,鳥など,さまざまな領域における操作精度とフォトリアリズムにおいて,競合するアプローチよりも優れる。
論文 参考訳(メタデータ) (2023-07-17T11:29:48Z) - Towards Effective Image Manipulation Detection with Proposal Contrastive
Learning [61.5469708038966]
本稿では,効果的な画像操作検出のためのコントラスト学習(PCL)を提案する。
我々のPCLは、RGBとノイズビューから2種類のグローバル特徴を抽出し、2ストリームアーキテクチャで構成されている。
我々のPCLは、実際にラベル付けされていないデータに容易に適用でき、手作業によるラベル付けコストを削減し、より一般化可能な機能を促進することができる。
論文 参考訳(メタデータ) (2022-10-16T13:30:13Z) - Bridging CLIP and StyleGAN through Latent Alignment for Image Editing [33.86698044813281]
我々はCLIPとStyleGANを橋渡し、推論時最適化のない多様な操作方向マイニングを実現する。
このマッピング方式により、GANインバージョン、テキスト・ツー・イメージ生成、テキスト駆動画像操作を実現することができる。
論文 参考訳(メタデータ) (2022-10-10T09:17:35Z) - Towards Counterfactual Image Manipulation via CLIP [106.94502632502194]
既存の方法は、顔画像の年齢や性別など、さまざまな視覚特性をリアルに編集することができる。
コントラスト・ランゲージ・イメージ・プレトレーニング(CLIP)を用いたテキスト駆動方式でこの問題を考察する。
定義済みのCLIP空間の方向を利用して、異なる視点から所望の方向に向けて編集を誘導する新しいコントラスト損失を設計する。
論文 参考訳(メタデータ) (2022-07-06T17:02:25Z) - No Token Left Behind: Explainability-Aided Image Classification and
Generation [79.4957965474334]
ここでは、CLIPが入力のすべての関連する意味的部分に焦点を当てることを保証するために、損失項を追加する新しい説明可能性に基づくアプローチを提案する。
本手法は, 追加訓練や微調整を伴わずに, 認識率の向上を図っている。
論文 参考訳(メタデータ) (2022-04-11T07:16:39Z) - FlexIT: Towards Flexible Semantic Image Translation [59.09398209706869]
我々は,任意の入力画像とユーザが定義したテキストを編集するための新しい方法であるFlexITを提案する。
まず、FlexITは入力画像とテキストをCLIPマルチモーダル埋め込み空間内の単一のターゲットポイントに結合する。
我々は、入力画像を目標点に向けて反復的に変換し、新しい正規化用語で一貫性と品質を確保する。
論文 参考訳(メタデータ) (2022-03-09T13:34:38Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery [71.1862388442953]
StyleGAN画像操作のためのテキストベースのインターフェースを開発しています。
まず,ユーザが提案するテキストプロンプトに応答して,CLIPに基づく損失を利用して入力潜時ベクトルを変更する最適化手法を提案する。
次に、与えられた入力画像に対してテキスト誘導の潜時操作ステップを推論し、より高速で安定したテキストベースの操作を可能にする潜時マッパーについて述べる。
論文 参考訳(メタデータ) (2021-03-31T17:51:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。