論文の概要: ManiTrans: Entity-Level Text-Guided Image Manipulation via Token-wise
Semantic Alignment and Generation
- arxiv url: http://arxiv.org/abs/2204.04428v1
- Date: Sat, 9 Apr 2022 09:01:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-12 16:05:38.272522
- Title: ManiTrans: Entity-Level Text-Guided Image Manipulation via Token-wise
Semantic Alignment and Generation
- Title(参考訳): ManiTrans:Token-wise Semantic Alignment and Generationによるエンティティレベルテキストガイド画像操作
- Authors: Jianan Wang, Guansong Lu, Hang Xu, Zhenguo Li, Chunjing Xu and Yanwei
Fu
- Abstract要約: 実世界の実体レベルにおけるテキスト誘導画像操作に関する新しい課題について検討する。
このタスクは、(1)テキスト記述と整合したエンティティを編集すること、(2)テキスト関連領域を保存すること、(3)操作されたエンティティを自然に画像にマージすること、の3つの基本的な要件を課している。
本フレームワークでは,操作対象の画像領域を特定するためのセマンティックアライメントモジュールと,視覚と言語の関係の整合を支援するセマンティックアライメントモジュールを備えている。
- 参考スコア(独自算出の注目度): 97.36550187238177
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing text-guided image manipulation methods aim to modify the appearance
of the image or to edit a few objects in a virtual or simple scenario, which is
far from practical application. In this work, we study a novel task on
text-guided image manipulation on the entity level in the real world. The task
imposes three basic requirements, (1) to edit the entity consistent with the
text descriptions, (2) to preserve the text-irrelevant regions, and (3) to
merge the manipulated entity into the image naturally. To this end, we propose
a new transformer-based framework based on the two-stage image synthesis
method, namely \textbf{ManiTrans}, which can not only edit the appearance of
entities but also generate new entities corresponding to the text guidance. Our
framework incorporates a semantic alignment module to locate the image regions
to be manipulated, and a semantic loss to help align the relationship between
the vision and language. We conduct extensive experiments on the real datasets,
CUB, Oxford, and COCO datasets to verify that our method can distinguish the
relevant and irrelevant regions and achieve more precise and flexible
manipulation compared with baseline methods. The project homepage is
\url{https://jawang19.github.io/manitrans}.
- Abstract(参考訳): 既存のテキストガイド画像操作手法は、画像の外観を変更したり、仮想的あるいは単純なシナリオでいくつかのオブジェクトを編集することを目的としている。
本研究では,実世界の実体レベルでのテキスト誘導画像操作に関する新しい課題について検討する。
このタスクでは,(1)テキスト記述に一致するエンティティを編集する,(2)テキスト関連領域を保存すること,(3)操作されたエンティティを自然にイメージにマージすること,の3つの基本的な要件が課されている。
そこで本研究では,2段階画像合成法である「textbf{ManiTrans}」に基づくトランスフォーマーベースの新しいフレームワークを提案する。
我々のフレームワークは、操作対象の画像領域を特定するためのセマンティックアライメントモジュールと、視覚と言語の関係を調整するのに役立つセマンティックロスを組み込んでいる。
実際のデータセット、CUB、オックスフォード、COCOのデータセットについて広範な実験を行い、本手法が関連する領域と無関係領域を識別し、ベースライン法と比較してより正確で柔軟な操作を実現できることを検証した。
プロジェクトのホームページは \url{https://jawang19.github.io/manitrans}。
関連論文リスト
- Entity-Level Text-Guided Image Manipulation [70.81648416508867]
実世界の実体レベルにおけるテキスト誘導画像操作の新しい課題(eL-TGIM)について検討する。
本稿では,実世界の画像のセマンティック・マニピュレーション(Semantic Manipulation)を形成する,セマンニ(Semani)と呼ばれるエレガントなフレームワークを提案する。
セマンティクスアライメントフェーズでは、セマンティクスアライメントモジュールを使用して、操作対象のエンティティ関連領域を特定する。
画像操作フェーズでは、SeManiは生成モデルを採用し、エンティティ非関連領域に条件付された新しい画像とターゲットテキスト記述を合成する。
論文 参考訳(メタデータ) (2023-02-22T13:56:23Z) - Towards Arbitrary Text-driven Image Manipulation via Space Alignment [49.3370305074319]
スペースアライメント(TMSA)を用いた新しいテキスト駆動画像操作フレームワークを提案する。
TMSAはCLIPとStyleGAN空間で同じセマンティック領域を整列することを目的としている。
このフレームワークは、追加コストなしで任意の画像編集モードをサポートすることができる。
論文 参考訳(メタデータ) (2023-01-25T16:20:01Z) - Exploring Stroke-Level Modifications for Scene Text Editing [86.33216648792964]
シーンテキスト編集(STE)は、元のテキストの背景とスタイルを保存しながら、テキストを所望のテキストに置き換えることを目的としている。
画像全体を編集するには、背景領域とテキスト領域の異なる翻訳規則を同時に学習する必要がある。
Scene Text Image at strokE Level (MOSTEL) を用いた新しいネットワークを提案する。
論文 参考訳(メタデータ) (2022-12-05T02:10:59Z) - Interactive Image Manipulation with Complex Text Instructions [14.329411711887115]
複雑なテキスト命令を用いてインタラクティブに画像を編集する新しい画像操作法を提案する。
ユーザーは画像操作の精度を向上できるだけでなく、拡大、縮小、オブジェクトの削除といった複雑なタスクも実現できる。
CUB(Caltech-UCSD Birds-200-2011)データセットとMicrosoft Common Objects in Context(MSCOCO)データセットの大規模な実験により、提案手法がリアルタイムにインタラクティブで柔軟で正確な画像操作を可能にすることを示す。
論文 参考訳(メタデータ) (2022-11-25T08:05:52Z) - FlexIT: Towards Flexible Semantic Image Translation [59.09398209706869]
我々は,任意の入力画像とユーザが定義したテキストを編集するための新しい方法であるFlexITを提案する。
まず、FlexITは入力画像とテキストをCLIPマルチモーダル埋め込み空間内の単一のターゲットポイントに結合する。
我々は、入力画像を目標点に向けて反復的に変換し、新しい正規化用語で一貫性と品質を確保する。
論文 参考訳(メタデータ) (2022-03-09T13:34:38Z) - Text as Neural Operator: Image Manipulation by Text Instruction [68.53181621741632]
本稿では、複雑なテキスト命令を用いて複数のオブジェクトで画像を編集し、オブジェクトの追加、削除、変更を可能にする設定について検討する。
タスクの入力は、(1)参照画像を含むマルチモーダルであり、(2)所望の修正を記述した自然言語の命令である。
提案モデルは,最近の3つの公開データセットの強いベースラインに対して良好に動作することを示す。
論文 参考訳(メタデータ) (2020-08-11T07:07:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。