論文の概要: One Model to Edit Them All: Free-Form Text-Driven Image Manipulation
with Semantic Modulations
- arxiv url: http://arxiv.org/abs/2210.07883v2
- Date: Mon, 17 Oct 2022 06:11:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-18 13:26:06.659576
- Title: One Model to Edit Them All: Free-Form Text-Driven Image Manipulation
with Semantic Modulations
- Title(参考訳): すべてを編集する1つのモデル:セマンティック変調による自由形式のテキスト駆動画像操作
- Authors: Yiming Zhu and Hongyu Liu and Yibing Song and ziyang Yuan and Xintong
Han and Chun Yuan and Qifeng Chen and Jue Wang
- Abstract要約: Free-Form CLIPは、ある操作モデルがフリーフォームのテキストプロンプトを処理するように、自動ラテントマッピングを確立することを目的としている。
1種類の画像(例えば人間の肖像画)に対して、1つのFFCLIPモデルは自由形式のテキストプロンプトを扱うために学習することができる。
視覚的および数値的な結果は、FFCLIPが意味的に正確で視覚的にリアルなイメージを効果的に生成することを示している。
- 参考スコア(独自算出の注目度): 75.81725681546071
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Free-form text prompts allow users to describe their intentions during image
manipulation conveniently. Based on the visual latent space of StyleGAN[21] and
text embedding space of CLIP[34], studies focus on how to map these two latent
spaces for text-driven attribute manipulations. Currently, the latent mapping
between these two spaces is empirically designed and confines that each
manipulation model can only handle one fixed text prompt. In this paper, we
propose a method named Free-Form CLIP (FFCLIP), aiming to establish an
automatic latent mapping so that one manipulation model handles free-form text
prompts. Our FFCLIP has a cross-modality semantic modulation module containing
semantic alignment and injection. The semantic alignment performs the automatic
latent mapping via linear transformations with a cross attention mechanism.
After alignment, we inject semantics from text prompt embeddings to the
StyleGAN latent space. For one type of image (e.g., `human portrait'), one
FFCLIP model can be learned to handle free-form text prompts. Meanwhile, we
observe that although each training text prompt only contains a single semantic
meaning, FFCLIP can leverage text prompts with multiple semantic meanings for
image manipulation. In the experiments, we evaluate FFCLIP on three types of
images (i.e., `human portraits', `cars', and `churches'). Both visual and
numerical results show that FFCLIP effectively produces semantically accurate
and visually realistic images. Project page:
https://github.com/KumapowerLIU/FFCLIP.
- Abstract(参考訳): フリーフォームテキストプロンプトは、画像操作中の意図を便利に記述できる。
StyleGAN[21]の視覚的潜伏空間とCLIP[34]のテキスト埋め込み空間に基づいて、テキスト駆動属性操作のためにこれらの2つの潜伏空間をマップする方法に焦点を当てる。
現在、これらの2つの空間間の潜在マッピングは経験的に設計され、各操作モデルが1つの固定テキストプロンプトのみを処理できることを定めている。
本稿では,自由形式クリップ (ffclip) という手法を提案し,1つの操作モデルが自由形式テキストプロンプトを処理するように,自動潜在マッピングを確立することを目的とした。
FFCLIPは, セマンティックアライメントとインジェクションを含むモジュールである。
セマンティックアライメントは、クロスアテンション機構を備えた線形変換による自動潜時マッピングを実行する。
アライメントの後、テキストプロンプトからのセマンティクスをスタイルガン潜在空間に注入する。
1種類の画像(例えば「人間の肖像画」)に対して、1つのFFCLIPモデルは自由形式のテキストプロンプトを扱うために学習することができる。
一方,各学習テキストプロンプトは単一の意味的意味しか含まないが,ffclipでは複数の意味的意味を持つテキストプロンプトを画像操作に活用できる。
実験では, FFCLIPを3種類の画像(「人像」, 「車」, 「車」, 「車」)で評価した。
視覚的および数値的な結果は、FFCLIPが意味的に正確で視覚的にリアルなイメージを効果的に生成することを示している。
プロジェクトページ:https://github.com/KumapowerLIU/FFCLIP
関連論文リスト
- DeltaSpace: A Semantic-aligned Feature Space for Flexible Text-guided
Image Editing [22.354236929932476]
テキスト誘導画像編集は、トレーニングと推論の柔軟性において大きな課題に直面している。
本稿では,CLIP の視覚的特徴差を生成モデルの潜在空間方向にマッピングする DeltaEdit という新しいフレームワークを提案する。
実験は、異なる生成モデルによるDeltaEditの有効性と汎用性を検証する。
論文 参考訳(メタデータ) (2023-10-12T15:43:12Z) - Entity-Level Text-Guided Image Manipulation [70.81648416508867]
実世界の実体レベルにおけるテキスト誘導画像操作の新しい課題(eL-TGIM)について検討する。
本稿では,実世界の画像のセマンティック・マニピュレーション(Semantic Manipulation)を形成する,セマンニ(Semani)と呼ばれるエレガントなフレームワークを提案する。
セマンティクスアライメントフェーズでは、セマンティクスアライメントモジュールを使用して、操作対象のエンティティ関連領域を特定する。
画像操作フェーズでは、SeManiは生成モデルを採用し、エンティティ非関連領域に条件付された新しい画像とターゲットテキスト記述を合成する。
論文 参考訳(メタデータ) (2023-02-22T13:56:23Z) - Towards Arbitrary Text-driven Image Manipulation via Space Alignment [49.3370305074319]
スペースアライメント(TMSA)を用いた新しいテキスト駆動画像操作フレームワークを提案する。
TMSAはCLIPとStyleGAN空間で同じセマンティック領域を整列することを目的としている。
このフレームワークは、追加コストなしで任意の画像編集モードをサポートすることができる。
論文 参考訳(メタデータ) (2023-01-25T16:20:01Z) - ManiTrans: Entity-Level Text-Guided Image Manipulation via Token-wise
Semantic Alignment and Generation [97.36550187238177]
実世界の実体レベルにおけるテキスト誘導画像操作に関する新しい課題について検討する。
このタスクは、(1)テキスト記述と整合したエンティティを編集すること、(2)テキスト関連領域を保存すること、(3)操作されたエンティティを自然に画像にマージすること、の3つの基本的な要件を課している。
本フレームワークでは,操作対象の画像領域を特定するためのセマンティックアライメントモジュールと,視覚と言語の関係の整合を支援するセマンティックアライメントモジュールを備えている。
論文 参考訳(メタデータ) (2022-04-09T09:01:19Z) - FlexIT: Towards Flexible Semantic Image Translation [59.09398209706869]
我々は,任意の入力画像とユーザが定義したテキストを編集するための新しい方法であるFlexITを提案する。
まず、FlexITは入力画像とテキストをCLIPマルチモーダル埋め込み空間内の単一のターゲットポイントに結合する。
我々は、入力画像を目標点に向けて反復的に変換し、新しい正規化用語で一貫性と品質を確保する。
論文 参考訳(メタデータ) (2022-03-09T13:34:38Z) - CLIP-NeRF: Text-and-Image Driven Manipulation of Neural Radiance Fields [33.43993665841577]
ニューラルレイディアンスフィールド(NeRF)のためのマルチモーダル3次元オブジェクト操作法であるCLIP-NeRFを提案する。
ユーザフレンドリーな方法でNeRFを操作できる統一的なフレームワークを提案する。
我々は、様々なテキストプロンプトや模範画像に関する広範な実験により、我々のアプローチを評価する。
論文 参考訳(メタデータ) (2021-12-09T18:59:55Z) - StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery [71.1862388442953]
StyleGAN画像操作のためのテキストベースのインターフェースを開発しています。
まず,ユーザが提案するテキストプロンプトに応答して,CLIPに基づく損失を利用して入力潜時ベクトルを変更する最適化手法を提案する。
次に、与えられた入力画像に対してテキスト誘導の潜時操作ステップを推論し、より高速で安定したテキストベースの操作を可能にする潜時マッパーについて述べる。
論文 参考訳(メタデータ) (2021-03-31T17:51:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。