論文の概要: Towards Counterfactual Image Manipulation via CLIP
- arxiv url: http://arxiv.org/abs/2207.02812v2
- Date: Thu, 7 Jul 2022 04:57:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-08 10:56:01.972872
- Title: Towards Counterfactual Image Manipulation via CLIP
- Title(参考訳): CLIPによる対物画像操作に向けて
- Authors: Yingchen Yu, Fangneng Zhan, Rongliang Wu, Jiahui Zhang, Shijian Lu,
Miaomiao Cui, Xuansong Xie, Xian-Sheng Hua, Chunyan Miao
- Abstract要約: 既存の方法は、顔画像の年齢や性別など、さまざまな視覚特性をリアルに編集することができる。
コントラスト・ランゲージ・イメージ・プレトレーニング(CLIP)を用いたテキスト駆動方式でこの問題を考察する。
定義済みのCLIP空間の方向を利用して、異なる視点から所望の方向に向けて編集を誘導する新しいコントラスト損失を設計する。
- 参考スコア(独自算出の注目度): 106.94502632502194
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Leveraging StyleGAN's expressivity and its disentangled latent codes,
existing methods can achieve realistic editing of different visual attributes
such as age and gender of facial images. An intriguing yet challenging problem
arises: Can generative models achieve counterfactual editing against their
learnt priors? Due to the lack of counterfactual samples in natural datasets,
we investigate this problem in a text-driven manner with
Contrastive-Language-Image-Pretraining (CLIP), which can offer rich semantic
knowledge even for various counterfactual concepts. Different from in-domain
manipulation, counterfactual manipulation requires more comprehensive
exploitation of semantic knowledge encapsulated in CLIP as well as more
delicate handling of editing directions for avoiding being stuck in local
minimum or undesired editing. To this end, we design a novel contrastive loss
that exploits predefined CLIP-space directions to guide the editing toward
desired directions from different perspectives. In addition, we design a simple
yet effective scheme that explicitly maps CLIP embeddings (of target text) to
the latent space and fuses them with latent codes for effective latent code
optimization and accurate editing. Extensive experiments show that our design
achieves accurate and realistic editing while driving by target texts with
various counterfactual concepts.
- Abstract(参考訳): StyleGANの表現力と非絡み合った潜在コードを活用することで、既存の方法では、顔画像の年齢や性別などの異なる視覚特性をリアルに編集することができる。
生成モデルは、学習前の学習に対して反実的な編集を達成できるのか?
自然データセットにおける反事実サンプルの欠如により、様々な反事実概念に対しても豊富な意味知識を提供するコントラスト言語イメージプリトレーニング(clip)を用いて、テキスト駆動方式でこの問題を調査した。
ドメイン内操作と異なり、反ファクト操作では、CLIPにカプセル化されたセマンティック知識のより包括的な利用と、ローカルな最小限の編集や望ましくない編集で立ち往生することを避けるための編集方向のより繊細な処理が必要である。
そこで本研究では,前定義したクリップ空間方向を利用して,異なる視点から所望の方向へ編集を誘導する新しいコントラスト損失をデザインする。
さらに,CLIP埋め込み(ターゲットテキストの)を潜在空間に明示的にマッピングし,有効な潜時コード最適化と正確な編集のために潜時コードと融合する簡易かつ効果的なスキームを設計する。
広範な実験により,様々な反事実概念を持つ対象テキストを駆使しながら,正確かつ現実的な編集を実現することができた。
関連論文リスト
- Optimisation-Based Multi-Modal Semantic Image Editing [58.496064583110694]
本稿では,複数の編集命令型に対応するために,推論時編集の最適化を提案する。
各損失関数の影響を調整することで、ユーザの好みに合わせてフレキシブルな編集ソリューションを構築することができる。
本手法は,テキスト,ポーズ,スクリブルといった編集条件を用いて評価し,複雑な編集を行う能力を強調した。
論文 参考訳(メタデータ) (2023-11-28T15:31:11Z) - CLIP-Guided StyleGAN Inversion for Text-Driven Real Image Editing [22.40686064568406]
提案するCLIPInverterは,複数属性の変更を効率よく,かつ確実に行うことのできる,テキスト駆動型画像編集手法である。
本手法は,人間の顔,猫,鳥など,さまざまな領域における操作精度とフォトリアリズムにおいて,競合するアプローチよりも優れる。
論文 参考訳(メタデータ) (2023-07-17T11:29:48Z) - Domain-Agnostic Tuning-Encoder for Fast Personalization of Text-To-Image
Models [59.094601993993535]
テキスト・ツー・イメージ(T2I)のパーソナライズにより、ユーザーは自然言語のプロンプトに自身の視覚的概念を組み合わせることができる。
既存のエンコーダのほとんどは単一クラスドメインに限定されており、多様な概念を扱う能力を妨げる。
個人化された概念に関する特別なデータセットや事前情報を必要としないドメインに依存しない手法を提案する。
論文 参考訳(メタデータ) (2023-07-13T17:46:42Z) - CLIP-PAE: Projection-Augmentation Embedding to Extract Relevant Features for a Disentangled, Interpretable, and Controllable Text-Guided Face Manipulation [4.078926358349661]
対照的に、CLIP(Contrastive Language- Image Pre-Training)は、画像とテキストを共同の潜在空間に埋め込むことでブリッジする。
共同空間における画像とテキストの埋め込みの相違により、最適化対象としてテキストの埋め込みを用いることで、結果の画像に望ましくないアーティファクトがしばしば導入される。
テキスト誘導画像操作の性能向上のための最適化ターゲットとして,CLIPプロジェクション拡張埋め込み(PAE)を導入する。
論文 参考訳(メタデータ) (2022-10-08T05:12:25Z) - Expanding the Latent Space of StyleGAN for Real Face Editing [4.1715767752637145]
セマンティックな操作に事前訓練されたStyleGANを使用するために、顔編集技術の急増が提案されている。
実際の画像を編集するには、最初に入力された画像をStyleGANの潜伏変数に変換する必要がある。
本稿では,低歪みと高編集性の間のトレードオフを断ち切るために,コンテンツ機能の追加により,StyleGANの潜伏空間を拡張する手法を提案する。
論文 参考訳(メタデータ) (2022-04-26T18:27:53Z) - CLIP2StyleGAN: Unsupervised Extraction of StyleGAN Edit Directions [65.00528970576401]
StyleGANは、合成画像と実画像の両方において、前例のないセマンティック編集機能を実現している。
興味あるCLIP方向を見つけるためのブロックと、CLIP潜在空間における任意の方向を示すブロックを提案する。
提案手法の有効性を評価し,不整合ラベル付きStyleGAN編集方向の抽出が実際に可能であることを示す。
論文 参考訳(メタデータ) (2021-12-09T21:26:03Z) - HairCLIP: Design Your Hair by Text and Reference Image [100.85116679883724]
本稿では, 毛髪属性を個別に, 共同で操作できる新しい毛髪編集インタラクションモードを提案する。
画像とテキストの条件を共有埋め込み空間にエンコードし、統一的なヘア編集フレームワークを提案する。
念入りに設計されたネットワーク構造と損失関数により,我々のフレームワークは高品質な毛髪編集を行うことができる。
論文 参考訳(メタデータ) (2021-12-09T18:59:58Z) - CLIP-NeRF: Text-and-Image Driven Manipulation of Neural Radiance Fields [33.43993665841577]
ニューラルレイディアンスフィールド(NeRF)のためのマルチモーダル3次元オブジェクト操作法であるCLIP-NeRFを提案する。
ユーザフレンドリーな方法でNeRFを操作できる統一的なフレームワークを提案する。
我々は、様々なテキストプロンプトや模範画像に関する広範な実験により、我々のアプローチを評価する。
論文 参考訳(メタデータ) (2021-12-09T18:59:55Z) - StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery [71.1862388442953]
StyleGAN画像操作のためのテキストベースのインターフェースを開発しています。
まず,ユーザが提案するテキストプロンプトに応答して,CLIPに基づく損失を利用して入力潜時ベクトルを変更する最適化手法を提案する。
次に、与えられた入力画像に対してテキスト誘導の潜時操作ステップを推論し、より高速で安定したテキストベースの操作を可能にする潜時マッパーについて述べる。
論文 参考訳(メタデータ) (2021-03-31T17:51:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。