論文の概要: Entity-Level Text-Guided Image Manipulation
- arxiv url: http://arxiv.org/abs/2302.11383v1
- Date: Wed, 22 Feb 2023 13:56:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-23 15:05:09.340142
- Title: Entity-Level Text-Guided Image Manipulation
- Title(参考訳): エンティティレベルテキストガイド画像操作
- Authors: Yikai Wang, Jianan Wang, Guansong Lu, Hang Xu, Zhenguo Li, Wei Zhang,
and Yanwei Fu
- Abstract要約: 実世界の実体レベルにおけるテキスト誘導画像操作の新しい課題(eL-TGIM)について検討する。
本稿では,実世界の画像のセマンティック・マニピュレーション(Semantic Manipulation)を形成する,セマンニ(Semani)と呼ばれるエレガントなフレームワークを提案する。
セマンティクスアライメントフェーズでは、セマンティクスアライメントモジュールを使用して、操作対象のエンティティ関連領域を特定する。
画像操作フェーズでは、SeManiは生成モデルを採用し、エンティティ非関連領域に条件付された新しい画像とターゲットテキスト記述を合成する。
- 参考スコア(独自算出の注目度): 70.81648416508867
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing text-guided image manipulation methods aim to modify the appearance
of the image or to edit a few objects in a virtual or simple scenario, which is
far from practical applications. In this work, we study a novel task on
text-guided image manipulation on the entity level in the real world (eL-TGIM).
The task imposes three basic requirements, (1) to edit the entity consistent
with the text descriptions, (2) to preserve the entity-irrelevant regions, and
(3) to merge the manipulated entity into the image naturally. To this end, we
propose an elegant framework, dubbed as SeMani, forming the Semantic
Manipulation of real-world images that can not only edit the appearance of
entities but also generate new entities corresponding to the text guidance. To
solve eL-TGIM, SeMani decomposes the task into two phases: the semantic
alignment phase and the image manipulation phase. In the semantic alignment
phase, SeMani incorporates a semantic alignment module to locate the
entity-relevant region to be manipulated. In the image manipulation phase,
SeMani adopts a generative model to synthesize new images conditioned on the
entity-irrelevant regions and target text descriptions. We discuss and propose
two popular generation processes that can be utilized in SeMani, the discrete
auto-regressive generation with transformers and the continuous denoising
generation with diffusion models, yielding SeMani-Trans and SeMani-Diff,
respectively. We conduct extensive experiments on the real datasets CUB,
Oxford, and COCO datasets to verify that SeMani can distinguish the
entity-relevant and -irrelevant regions and achieve more precise and flexible
manipulation in a zero-shot manner compared with baseline methods. Our codes
and models will be released at https://github.com/Yikai-Wang/SeMani.
- Abstract(参考訳): 既存のテキストガイド画像操作手法は、画像の外観を変更したり、仮想的あるいは単純なシナリオでいくつかのオブジェクトを編集することを目的としている。
本研究では,実世界の実体レベル(eL-TGIM)におけるテキスト誘導画像操作の新しい課題について検討する。
このタスクは、(1)テキスト記述に一致するエンティティを編集する(2)エンティティ関連領域を保存すること、(3)操作されたエンティティを自然にイメージにマージすることの3つの基本的な要件を課している。
そこで,本稿ではsemaniというエレガントなフレームワークを提案する。エンティティの外観を編集できるだけでなく,テキストガイダンスに対応する新たなエンティティを生成する実世界のイメージの意味操作を実現する。
eL-TGIMを解決するために、SeManiはタスクをセマンティックアライメントフェーズとイメージ操作フェーズの2つのフェーズに分解する。
意味的アライメントフェーズでは、semaniは操作対象のエンティティ関連領域を特定するために意味的アライメントモジュールを組み込んでいる。
画像操作フェーズでは、SeManiは生成モデルを採用し、エンティティ非関連領域に条件付された新しい画像とターゲットテキスト記述を合成する。
本稿では,SeMani-Trans と SeMani-Diff をそれぞれ生成する拡散モデルを用いた離散自己回帰生成と連続デノナイジング生成の2つの人気生成プロセスについて論じ,提案する。
我々は,実データセットであるCUB,オックスフォード,COCOのデータセットを用いて,SeManiがエンティティ関連領域と非関連領域を区別し,ベースライン法と比較してゼロショット方式でより正確で柔軟な操作を行えることを検証する。
私たちのコードとモデルはhttps://github.com/Yikai-Wang/SeMani.comでリリースされます。
関連論文リスト
- Latent Space Disentanglement in Diffusion Transformers Enables Precise Zero-shot Semantic Editing [4.948910649137149]
拡散変換器(DiT)は近年,テキスト誘導画像生成において顕著な成功を収めている。
マルチモーダルな情報がこのジョイント空間を集合的に形成し、合成画像のセマンティクスをいかに導くかを示す。
ゼロショットきめ細かい画像編集のための簡易かつ効果的なEncode-Identify-Manipulate (EIM) フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-12T21:34:30Z) - Latent Space Disentanglement in Diffusion Transformers Enables Zero-shot Fine-grained Semantic Editing [4.948910649137149]
Diffusion Transformer (DiTs) は多種多様な高品質のテキスト・トゥ・イメージ(T2I)生成において顕著な成功を収めた。
テキストと画像の潜伏者が、生成した画像のセマンティクスに、個々と共同でどのように貢献するかを検討する。
ゼロショットきめ細かい画像編集のための簡易かつ効果的な抽出マニピュレーション・サンプル・フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-23T19:00:52Z) - Exploring Stroke-Level Modifications for Scene Text Editing [86.33216648792964]
シーンテキスト編集(STE)は、元のテキストの背景とスタイルを保存しながら、テキストを所望のテキストに置き換えることを目的としている。
画像全体を編集するには、背景領域とテキスト領域の異なる翻訳規則を同時に学習する必要がある。
Scene Text Image at strokE Level (MOSTEL) を用いた新しいネットワークを提案する。
論文 参考訳(メタデータ) (2022-12-05T02:10:59Z) - Interactive Image Manipulation with Complex Text Instructions [14.329411711887115]
複雑なテキスト命令を用いてインタラクティブに画像を編集する新しい画像操作法を提案する。
ユーザーは画像操作の精度を向上できるだけでなく、拡大、縮小、オブジェクトの削除といった複雑なタスクも実現できる。
CUB(Caltech-UCSD Birds-200-2011)データセットとMicrosoft Common Objects in Context(MSCOCO)データセットの大規模な実験により、提案手法がリアルタイムにインタラクティブで柔軟で正確な画像操作を可能にすることを示す。
論文 参考訳(メタデータ) (2022-11-25T08:05:52Z) - ManiTrans: Entity-Level Text-Guided Image Manipulation via Token-wise
Semantic Alignment and Generation [97.36550187238177]
実世界の実体レベルにおけるテキスト誘導画像操作に関する新しい課題について検討する。
このタスクは、(1)テキスト記述と整合したエンティティを編集すること、(2)テキスト関連領域を保存すること、(3)操作されたエンティティを自然に画像にマージすること、の3つの基本的な要件を課している。
本フレームワークでは,操作対象の画像領域を特定するためのセマンティックアライメントモジュールと,視覚と言語の関係の整合を支援するセマンティックアライメントモジュールを備えている。
論文 参考訳(メタデータ) (2022-04-09T09:01:19Z) - FlexIT: Towards Flexible Semantic Image Translation [59.09398209706869]
我々は,任意の入力画像とユーザが定義したテキストを編集するための新しい方法であるFlexITを提案する。
まず、FlexITは入力画像とテキストをCLIPマルチモーダル埋め込み空間内の単一のターゲットポイントに結合する。
我々は、入力画像を目標点に向けて反復的に変換し、新しい正規化用語で一貫性と品質を確保する。
論文 参考訳(メタデータ) (2022-03-09T13:34:38Z) - TediGAN: Text-Guided Diverse Face Image Generation and Manipulation [52.83401421019309]
TediGANはマルチモーダル画像生成とテキスト記述による操作のためのフレームワークである。
StyleGANインバージョンモジュールは、よく訓練されたStyleGANの潜在空間に実際の画像をマッピングする。
視覚言語的類似性は、画像とテキストを共通の埋め込み空間にマッピングすることで、テキスト画像マッチングを学ぶ。
インスタンスレベルの最適化は、操作におけるID保存のためのものだ。
論文 参考訳(メタデータ) (2020-12-06T16:20:19Z) - SESAME: Semantic Editing of Scenes by Adding, Manipulating or Erasing
Objects [127.7627687126465]
SESAMEは、オブジェクトの追加、操作、消去によるシーンのセマンティック編集のための新しいジェネレータ-差別化器である。
我々の設定では、ユーザは編集対象領域のセマンティックラベルを提供し、ジェネレータは対応するピクセルを合成する。
我々は,多種多様なデータセット上でモデルを評価し,2つのタスクについて最先端のパフォーマンスを報告する。
論文 参考訳(メタデータ) (2020-04-10T10:19:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。