論文の概要: Robust Text-driven Image Editing Method that Adaptively Explores
Directions in Latent Spaces of StyleGAN and CLIP
- arxiv url: http://arxiv.org/abs/2304.00964v1
- Date: Mon, 3 Apr 2023 13:30:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-04 15:21:22.812368
- Title: Robust Text-driven Image Editing Method that Adaptively Explores
Directions in Latent Spaces of StyleGAN and CLIP
- Title(参考訳): StyleGANとCLIPの潜在空間における方向を適応的に探索するロバストテキスト駆動画像編集法
- Authors: Tsuyoshi Baba, Kosuke Nishida, Kyosuke Nishida
- Abstract要約: テキスト駆動画像編集における先駆的な作業であるStyleCLIPは、CLIP空間の編集方向を見つけ、その方向をStyleGAN空間にマッピングすることで画像を編集する。
同時に、原画像以外の適切な入力と、画像編集のためのテキスト命令を調整することは困難である。
本稿では,SVMを用いてStyleGANとCLIP空間の編集方向を適応的に構築する手法を提案する。
- 参考スコア(独自算出の注目度): 10.187432367590201
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic image editing has great demands because of its numerous
applications, and the use of natural language instructions is essential to
achieving flexible and intuitive editing as the user imagines. A pioneering
work in text-driven image editing, StyleCLIP, finds an edit direction in the
CLIP space and then edits the image by mapping the direction to the StyleGAN
space. At the same time, it is difficult to tune appropriate inputs other than
the original image and text instructions for image editing. In this study, we
propose a method to construct the edit direction adaptively in the StyleGAN and
CLIP spaces with SVM. Our model represents the edit direction as a normal
vector in the CLIP space obtained by training a SVM to classify positive and
negative images. The images are retrieved from a large-scale image corpus,
originally used for pre-training StyleGAN, according to the CLIP similarity
between the images and the text instruction. We confirmed that our model
performed as well as the StyleCLIP baseline, whereas it allows simple inputs
without increasing the computational time.
- Abstract(参考訳): 自動画像編集には多くの応用があるため大きな需要があり、ユーザが想像するように柔軟で直感的な編集を実現するためには自然言語命令の使用が不可欠である。
テキスト駆動画像編集における先駆的な作業であるStyleCLIPは、CLIP空間の編集方向を見つけ、その方向をStyleGAN空間にマッピングすることで画像を編集する。
同時に、原画像以外の適切な入力と、画像編集のためのテキスト命令を調整することは困難である。
本研究では,SVMを用いたStyleGANとCLIP空間における編集方向を適応的に構築する手法を提案する。
本モデルは,SVMをトレーニングして正負の画像を分類したCLIP空間において,編集方向を正規ベクトルとして表現する。
画像は、画像とテキスト命令のCLIP類似性に従って、StyleGANの事前トレーニングに使用された大規模な画像コーパスから検索される。
提案方式はStyleCLIPベースラインと同様に動作し,計算時間を増やすことなく簡単な入力が可能であることを確認した。
関連論文リスト
- Text-Driven Image Editing via Learnable Regions [74.45313434129005]
本研究では,ユーザが提供するマスクやスケッチを必要とせずに,テキストプロンプトによって駆動される領域ベースの画像編集手法を提案する。
この単純なアプローチにより、現在の画像生成モデルと互換性のあるフレキシブルな編集が可能になることを示す。
実験では,提案した言語記述に対応する忠実度とリアリズムの高い画像の操作において,提案手法の競合性能を示す。
論文 参考訳(メタデータ) (2023-11-28T02:27:31Z) - CLIP-Guided StyleGAN Inversion for Text-Driven Real Image Editing [22.40686064568406]
提案するCLIPInverterは,複数属性の変更を効率よく,かつ確実に行うことのできる,テキスト駆動型画像編集手法である。
本手法は,人間の顔,猫,鳥など,さまざまな領域における操作精度とフォトリアリズムにおいて,競合するアプローチよりも優れる。
論文 参考訳(メタデータ) (2023-07-17T11:29:48Z) - TD-GEM: Text-Driven Garment Editing Mapper [15.121103742607383]
ファッションアイテムをアンタングルに編集するためのテキスト駆動型ガーメント編集マッパー(TD-GEM)を提案する。
次に、最適化に基づくContrastive Language- Image Pre-trainingを用いて、ファッションイメージの潜在表現をガイドする。
我々のTD-GEMは、テキストプロンプトで表現された対象属性に従って、正確に画像を操作します。
論文 参考訳(メタデータ) (2023-05-29T14:31:54Z) - Towards Arbitrary Text-driven Image Manipulation via Space Alignment [49.3370305074319]
スペースアライメント(TMSA)を用いた新しいテキスト駆動画像操作フレームワークを提案する。
TMSAはCLIPとStyleGAN空間で同じセマンティック領域を整列することを目的としている。
このフレームワークは、追加コストなしで任意の画像編集モードをサポートすることができる。
論文 参考訳(メタデータ) (2023-01-25T16:20:01Z) - CLIP2GAN: Towards Bridging Text with the Latent Space of GANs [128.47600914674985]
本稿では,CLIPモデルとStyleGANを利用した新しいフレームワークであるCLIP2GANを提案する。
CLIP2GANのキーとなるアイデアは、CLIPの出力機能埋め込みスペースとStyleGANの入力潜在スペースをブリッジすることです。
論文 参考訳(メタデータ) (2022-11-28T04:07:17Z) - Bridging CLIP and StyleGAN through Latent Alignment for Image Editing [33.86698044813281]
我々はCLIPとStyleGANを橋渡し、推論時最適化のない多様な操作方向マイニングを実現する。
このマッピング方式により、GANインバージョン、テキスト・ツー・イメージ生成、テキスト駆動画像操作を実現することができる。
論文 参考訳(メタデータ) (2022-10-10T09:17:35Z) - FlexIT: Towards Flexible Semantic Image Translation [59.09398209706869]
我々は,任意の入力画像とユーザが定義したテキストを編集するための新しい方法であるFlexITを提案する。
まず、FlexITは入力画像とテキストをCLIPマルチモーダル埋め込み空間内の単一のターゲットポイントに結合する。
我々は、入力画像を目標点に向けて反復的に変換し、新しい正規化用語で一貫性と品質を確保する。
論文 参考訳(メタデータ) (2022-03-09T13:34:38Z) - SpaceEdit: Learning a Unified Editing Space for Open-Domain Image
Editing [94.31103255204933]
オープンドメイン画像の色やトーン調整に着目したオープンドメイン画像編集のための統一モデルを提案する。
我々のモデルは、よりセマンティックで直感的で操作が容易な統合編集空間を学習する。
画像ペアを学習した編集空間の潜在コードに変換することで、下流編集タスクに我々のモデルを活用できることが示される。
論文 参考訳(メタデータ) (2021-11-30T23:53:32Z) - StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery [71.1862388442953]
StyleGAN画像操作のためのテキストベースのインターフェースを開発しています。
まず,ユーザが提案するテキストプロンプトに応答して,CLIPに基づく損失を利用して入力潜時ベクトルを変更する最適化手法を提案する。
次に、与えられた入力画像に対してテキスト誘導の潜時操作ステップを推論し、より高速で安定したテキストベースの操作を可能にする潜時マッパーについて述べる。
論文 参考訳(メタデータ) (2021-03-31T17:51:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。