論文の概要: Interactive Image Manipulation with Complex Text Instructions
- arxiv url: http://arxiv.org/abs/2211.15352v1
- Date: Fri, 25 Nov 2022 08:05:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-29 14:54:42.888340
- Title: Interactive Image Manipulation with Complex Text Instructions
- Title(参考訳): 複雑なテキスト命令による対話型画像操作
- Authors: Ryugo Morita, Zhiqiang Zhang, Man M. Ho, Jinjia Zhou
- Abstract要約: 複雑なテキスト命令を用いてインタラクティブに画像を編集する新しい画像操作法を提案する。
ユーザーは画像操作の精度を向上できるだけでなく、拡大、縮小、オブジェクトの削除といった複雑なタスクも実現できる。
CUB(Caltech-UCSD Birds-200-2011)データセットとMicrosoft Common Objects in Context(MSCOCO)データセットの大規模な実験により、提案手法がリアルタイムにインタラクティブで柔軟で正確な画像操作を可能にすることを示す。
- 参考スコア(独自算出の注目度): 14.329411711887115
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, text-guided image manipulation has received increasing attention in
the research field of multimedia processing and computer vision due to its high
flexibility and controllability. Its goal is to semantically manipulate parts
of an input reference image according to the text descriptions. However, most
of the existing works have the following problems: (1) text-irrelevant content
cannot always be maintained but randomly changed, (2) the performance of image
manipulation still needs to be further improved, (3) only can manipulate
descriptive attributes. To solve these problems, we propose a novel image
manipulation method that interactively edits an image using complex text
instructions. It allows users to not only improve the accuracy of image
manipulation but also achieve complex tasks such as enlarging, dwindling, or
removing objects and replacing the background with the input image. To make
these tasks possible, we apply three strategies. First, the given image is
divided into text-relevant content and text-irrelevant content. Only the
text-relevant content is manipulated and the text-irrelevant content can be
maintained. Second, a super-resolution method is used to enlarge the
manipulation region to further improve the operability and to help manipulate
the object itself. Third, a user interface is introduced for editing the
segmentation map interactively to re-modify the generated image according to
the user's desires. Extensive experiments on the Caltech-UCSD Birds-200-2011
(CUB) dataset and Microsoft Common Objects in Context (MS COCO) datasets
demonstrate our proposed method can enable interactive, flexible, and accurate
image manipulation in real-time. Through qualitative and quantitative
evaluations, we show that the proposed model outperforms other state-of-the-art
methods.
- Abstract(参考訳): 近年,テキスト誘導画像操作は,高柔軟性と制御性のため,マルチメディア処理やコンピュータビジョンの研究分野に注目が集まっている。
その目的は、テキスト記述に従って入力参照画像の一部を意味的に操作することである。
しかし,既存の作品の多くは,(1) テキスト非関連コンテンツは必ずしも維持できないが,ランダムに変化しない,(2) 画像操作の性能をさらに改善する必要がある,(3) 記述的属性のみを操作できる,といった問題を抱えている。
そこで本稿では,複雑なテキスト命令を用いてインタラクティブに画像編集を行う新しい画像操作手法を提案する。
ユーザーは画像操作の精度を向上させるだけでなく、オブジェクトを拡大、縮小、削除したり、背景を入力画像に置き換えたりといった複雑なタスクを実現できる。
これらのタスクを可能にするために、3つの戦略を適用します。
まず、与えられた画像は、テキスト関連コンテンツとテキスト関連コンテンツに分けられる。
テキスト関連コンテンツのみが操作され、テキスト関連コンテンツを維持することができる。
第二に、操作領域を拡大して操作性をさらに向上し、オブジェクト自体の操作を支援するために超解像法を用いる。
第3に、セグメンテーションマップをインタラクティブに編集して、ユーザの欲求に応じて生成された画像を再修正するユーザインタフェースを導入する。
CUB(Caltech-UCSD Birds-200-2011)データセットとMicrosoft Common Objects in Context(MSCOCO)データセットの大規模な実験により、提案手法がリアルタイムにインタラクティブで柔軟で正確な画像操作を可能にすることを示す。
定性的および定量的評価により,提案手法が他の最先端手法よりも優れていることを示す。
関連論文リスト
- DragText: Rethinking Text Embedding in Point-based Image Editing [3.1923251959845214]
拡散モデルにおける入力画像のプログレッシブな編集において,テキスト埋め込みは一定であることを示す。
そこで我々はDragTextを提案する。DragTextはドラッグ処理と同時にテキスト埋め込みを最適化し、修正された画像埋め込みと組み合わせる。
論文 参考訳(メタデータ) (2024-07-25T07:57:55Z) - Text-Driven Image Editing via Learnable Regions [74.45313434129005]
本研究では,ユーザが提供するマスクやスケッチを必要とせずに,テキストプロンプトによって駆動される領域ベースの画像編集手法を提案する。
この単純なアプローチにより、現在の画像生成モデルと互換性のあるフレキシブルな編集が可能になることを示す。
実験では,提案した言語記述に対応する忠実度とリアリズムの高い画像の操作において,提案手法の競合性能を示す。
論文 参考訳(メタデータ) (2023-11-28T02:27:31Z) - TextCLIP: Text-Guided Face Image Generation And Manipulation Without
Adversarial Training [5.239585892767183]
本研究では,テキスト誘導画像生成と操作のための統合フレームワークであるTextCLIPを提案する。
提案手法は,テキスト誘導型生成タスクと操作タスクの両方において,既存の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2023-09-21T09:34:20Z) - Entity-Level Text-Guided Image Manipulation [70.81648416508867]
実世界の実体レベルにおけるテキスト誘導画像操作の新しい課題(eL-TGIM)について検討する。
本稿では,実世界の画像のセマンティック・マニピュレーション(Semantic Manipulation)を形成する,セマンニ(Semani)と呼ばれるエレガントなフレームワークを提案する。
セマンティクスアライメントフェーズでは、セマンティクスアライメントモジュールを使用して、操作対象のエンティティ関連領域を特定する。
画像操作フェーズでは、SeManiは生成モデルを採用し、エンティティ非関連領域に条件付された新しい画像とターゲットテキスト記述を合成する。
論文 参考訳(メタデータ) (2023-02-22T13:56:23Z) - ManiTrans: Entity-Level Text-Guided Image Manipulation via Token-wise
Semantic Alignment and Generation [97.36550187238177]
実世界の実体レベルにおけるテキスト誘導画像操作に関する新しい課題について検討する。
このタスクは、(1)テキスト記述と整合したエンティティを編集すること、(2)テキスト関連領域を保存すること、(3)操作されたエンティティを自然に画像にマージすること、の3つの基本的な要件を課している。
本フレームワークでは,操作対象の画像領域を特定するためのセマンティックアライメントモジュールと,視覚と言語の関係の整合を支援するセマンティックアライメントモジュールを備えている。
論文 参考訳(メタデータ) (2022-04-09T09:01:19Z) - Make-A-Scene: Scene-Based Text-to-Image Generation with Human Priors [58.71128866226768]
近年のテキスト・ツー・イメージ生成手法は、生成した画像の忠実度とテキスト関連性を漸進的に改善している。
i)シーンの形式でテキストを補完する単純な制御機構を実現することで,これらのギャップに対処する新しいテキスト・ツー・イメージ手法を提案する。
このモデルにより,512×512ピクセルの解像度で高忠実度画像を生成することができる。
論文 参考訳(メタデータ) (2022-03-24T15:44:50Z) - StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery [71.1862388442953]
StyleGAN画像操作のためのテキストベースのインターフェースを開発しています。
まず,ユーザが提案するテキストプロンプトに応答して,CLIPに基づく損失を利用して入力潜時ベクトルを変更する最適化手法を提案する。
次に、与えられた入力画像に対してテキスト誘導の潜時操作ステップを推論し、より高速で安定したテキストベースの操作を可能にする潜時マッパーについて述べる。
論文 参考訳(メタデータ) (2021-03-31T17:51:25Z) - Text as Neural Operator: Image Manipulation by Text Instruction [68.53181621741632]
本稿では、複雑なテキスト命令を用いて複数のオブジェクトで画像を編集し、オブジェクトの追加、削除、変更を可能にする設定について検討する。
タスクの入力は、(1)参照画像を含むマルチモーダルであり、(2)所望の修正を記述した自然言語の命令である。
提案モデルは,最近の3つの公開データセットの強いベースラインに対して良好に動作することを示す。
論文 参考訳(メタデータ) (2020-08-11T07:07:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。