論文の概要: FlexIT: Towards Flexible Semantic Image Translation
- arxiv url: http://arxiv.org/abs/2203.04705v1
- Date: Wed, 9 Mar 2022 13:34:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-10 16:26:23.019172
- Title: FlexIT: Towards Flexible Semantic Image Translation
- Title(参考訳): flexit: 柔軟なセマンティック画像翻訳を目指して
- Authors: Guillaume Couairon and Asya Grechka and Jakob Verbeek and Holger
Schwenk and Matthieu Cord
- Abstract要約: 我々は,任意の入力画像とユーザが定義したテキストを編集するための新しい方法であるFlexITを提案する。
まず、FlexITは入力画像とテキストをCLIPマルチモーダル埋め込み空間内の単一のターゲットポイントに結合する。
我々は、入力画像を目標点に向けて反復的に変換し、新しい正規化用語で一貫性と品質を確保する。
- 参考スコア(独自算出の注目度): 59.09398209706869
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Deep generative models, like GANs, have considerably improved the state of
the art in image synthesis, and are able to generate near photo-realistic
images in structured domains such as human faces. Based on this success, recent
work on image editing proceeds by projecting images to the GAN latent space and
manipulating the latent vector. However, these approaches are limited in that
only images from a narrow domain can be transformed, and with only a limited
number of editing operations. We propose FlexIT, a novel method which can take
any input image and a user-defined text instruction for editing. Our method
achieves flexible and natural editing, pushing the limits of semantic image
translation. First, FlexIT combines the input image and text into a single
target point in the CLIP multimodal embedding space. Via the latent space of an
auto-encoder, we iteratively transform the input image toward the target point,
ensuring coherence and quality with a variety of novel regularization terms. We
propose an evaluation protocol for semantic image translation, and thoroughly
evaluate our method on ImageNet. Code will be made publicly available.
- Abstract(参考訳): GANのような深層生成モデルは、画像合成における技術状況を大幅に改善し、人間の顔のような構造化領域で近距離の写実画像を生成することができる。
この成功に基づいて、画像編集に関する最近の研究は、画像がGAN潜在空間に投影され、潜在ベクトルを操作することによって進められている。
しかし、これらのアプローチは、狭い領域の画像のみを変換でき、限られた数の編集操作しかできないという点で制限されている。
我々は,任意の入力画像とユーザが定義したテキストを編集するための新しい方法であるFlexITを提案する。
本手法は,セマンティック画像翻訳の限界を押し上げ,フレキシブルかつ自然な編集を実現する。
まず、FlexITは入力画像とテキストをCLIPマルチモーダル埋め込み空間内の単一のターゲットポイントに結合する。
オートエンコーダの潜在空間を用いて、入力画像を目標点に向けて反復的に変換し、新しい正規化項の一貫性と品質を確保する。
本稿では,セマンティック画像翻訳のための評価プロトコルを提案し,imagenet上での手法を徹底的に評価する。
コードは公開される予定だ。
関連論文リスト
- Zero-shot Text-driven Physically Interpretable Face Editing [29.32334174584623]
本稿では、任意のテキストプロンプトに基づく顔編集のための、新しく物理的に解釈可能な手法を提案する。
本手法は, 同一性が高く, 画像品質が高い物理的に解釈可能な顔編集結果を生成することができる。
論文 参考訳(メタデータ) (2023-08-11T07:20:24Z) - CLIP-Guided StyleGAN Inversion for Text-Driven Real Image Editing [22.40686064568406]
提案するCLIPInverterは,複数属性の変更を効率よく,かつ確実に行うことのできる,テキスト駆動型画像編集手法である。
本手法は,人間の顔,猫,鳥など,さまざまな領域における操作精度とフォトリアリズムにおいて,競合するアプローチよりも優れる。
論文 参考訳(メタデータ) (2023-07-17T11:29:48Z) - Towards Arbitrary Text-driven Image Manipulation via Space Alignment [49.3370305074319]
スペースアライメント(TMSA)を用いた新しいテキスト駆動画像操作フレームワークを提案する。
TMSAはCLIPとStyleGAN空間で同じセマンティック領域を整列することを目的としている。
このフレームワークは、追加コストなしで任意の画像編集モードをサポートすることができる。
論文 参考訳(メタデータ) (2023-01-25T16:20:01Z) - LDEdit: Towards Generalized Text Guided Image Manipulation via Latent
Diffusion Models [12.06277444740134]
フレキシブルテキスト入力を持つ単一モデルを用いた汎用画像操作は非常に望ましい。
最近の研究は、事前学習された視覚言語エンコーダを用いて、ジェネリックイメージで訓練された生成モデルを導くことで、この課題に対処している。
本稿では,テキストプロンプトから画像の汎用的な操作を行うための最適化不要な手法を提案する。
論文 参考訳(メタデータ) (2022-10-05T13:26:15Z) - ManiTrans: Entity-Level Text-Guided Image Manipulation via Token-wise
Semantic Alignment and Generation [97.36550187238177]
実世界の実体レベルにおけるテキスト誘導画像操作に関する新しい課題について検討する。
このタスクは、(1)テキスト記述と整合したエンティティを編集すること、(2)テキスト関連領域を保存すること、(3)操作されたエンティティを自然に画像にマージすること、の3つの基本的な要件を課している。
本フレームワークでは,操作対象の画像領域を特定するためのセマンティックアライメントモジュールと,視覚と言語の関係の整合を支援するセマンティックアライメントモジュールを備えている。
論文 参考訳(メタデータ) (2022-04-09T09:01:19Z) - Towards Open-World Text-Guided Face Image Generation and Manipulation [52.83401421019309]
顔画像生成と操作の両方に統一的なフレームワークを提案する。
本手法は,画像とテキストの両方を含むオープンワールドシナリオをサポートし,再トレーニングや微調整,後処理は行わない。
論文 参考訳(メタデータ) (2021-04-18T16:56:07Z) - StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery [71.1862388442953]
StyleGAN画像操作のためのテキストベースのインターフェースを開発しています。
まず,ユーザが提案するテキストプロンプトに応答して,CLIPに基づく損失を利用して入力潜時ベクトルを変更する最適化手法を提案する。
次に、与えられた入力画像に対してテキスト誘導の潜時操作ステップを推論し、より高速で安定したテキストベースの操作を可能にする潜時マッパーについて述べる。
論文 参考訳(メタデータ) (2021-03-31T17:51:25Z) - In-Domain GAN Inversion for Real Image Editing [56.924323432048304]
トレーニング済みのGANジェネレータに実際のイメージを送出する一般的な方法は、遅延コードに戻すことである。
既存の反転法は、通常、画素値によってターゲット画像の再構成にフォーカスするが、反転したコードは元の潜伏空間のセマンティックドメインに着陸しない。
本稿では、入力画像を忠実に再構成し、変換されたコードが編集に意味のある意味を持つようにするためのドメイン内GAN逆変換手法を提案する。
論文 参考訳(メタデータ) (2020-03-31T18:20:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。