論文の概要: Target-Free Text-guided Image Manipulation
- arxiv url: http://arxiv.org/abs/2211.14544v1
- Date: Sat, 26 Nov 2022 11:45:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-29 14:44:02.451135
- Title: Target-Free Text-guided Image Manipulation
- Title(参考訳): ターゲットフリーテキスト誘導画像マニピュレーション
- Authors: Wan-Cyuan Fan, Cheng-Fu Yang, Chiao-An Yang, Yu-Chiang Frank Wang
- Abstract要約: そこで我々は,興味のある画像領域の編集方法と場所を実現するために,循環操作型GAN(cManiGAN)を提案する。
具体的には、cManiGANの画像エディタは、入力画像の識別と完了を学習する。
出力画像の意味的正当性を検証するために、クロスモーダルインタプリタと推論器が配置される。
- 参考スコア(独自算出の注目度): 30.3884508895415
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We tackle the problem of target-free text-guided image manipulation, which
requires one to modify the input reference image based on the given text
instruction, while no ground truth target image is observed during training. To
address this challenging task, we propose a Cyclic-Manipulation GAN (cManiGAN)
in this paper, which is able to realize where and how to edit the image regions
of interest. Specifically, the image editor in cManiGAN learns to identify and
complete the input image, while cross-modal interpreter and reasoner are
deployed to verify the semantic correctness of the output image based on the
input instruction. While the former utilizes factual/counterfactual description
learning for authenticating the image semantics, the latter predicts the "undo"
instruction and provides pixel-level supervision for the training of cManiGAN.
With such operational cycle-consistency, our cManiGAN can be trained in the
above weakly supervised setting. We conduct extensive experiments on the
datasets of CLEVR and COCO, and the effectiveness and generalizability of our
proposed method can be successfully verified. Project page:
https://sites.google.com/view/wancyuanfan/projects/cmanigan.
- Abstract(参考訳): 与えられたテキスト命令に基づいて入力基準画像を変更する必要があるが、訓練中は真理目標画像は観測されない、目標フリーなテキストガイド画像操作の問題に取り組む。
この課題に対処するため,本論文では,興味のある画像領域の編集方法と場所を認識可能な循環制御型GAN(cManiGAN)を提案する。
具体的には、cManiGANの画像エディタが入力画像の識別と完了を学習し、クロスモーダルインタプリタと推論器が配置され、入力命令に基づいて出力画像の意味的正当性を検証する。
前者はイメージセマンティクスの認証に事実/事実記述学習を利用するが、後者は"undo"命令を予測し、cManiGANの訓練にピクセルレベルの監督を提供する。
このような運用サイクル整合性では、上記の弱教師付き環境でcManiGANをトレーニングすることができます。
我々はCLEVRとCOCOのデータセットに関する広範な実験を行い、提案手法の有効性と一般化性を検証した。
プロジェクトページ: https://sites.google.com/view/wancyuanfan/projects/cmanigan
関連論文リスト
- TextCLIP: Text-Guided Face Image Generation And Manipulation Without
Adversarial Training [5.239585892767183]
本研究では,テキスト誘導画像生成と操作のための統合フレームワークであるTextCLIPを提案する。
提案手法は,テキスト誘導型生成タスクと操作タスクの両方において,既存の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2023-09-21T09:34:20Z) - Towards Generic Image Manipulation Detection with Weakly-Supervised
Self-Consistency Learning [49.43362803584032]
本稿では,弱い教師付き画像操作検出を提案する。
このような設定は、より多くのトレーニングイメージを活用することができ、新しい操作テクニックに迅速に適応する可能性がある。
マルチソース整合性(MSC)とパッチ整合性(IPC)の2つの一貫性特性が学習される。
論文 参考訳(メタデータ) (2023-09-03T19:19:56Z) - Shatter and Gather: Learning Referring Image Segmentation with Text
Supervision [52.46081425504072]
入力画像中の意味的エンティティを検出し,テキストクエリに関連するエンティティを組み合わせて参照者のマスクを予測するモデルを提案する。
提案手法は,イメージセグメンテーションを参照するための4つの公開ベンチマークで評価され,既存のタスクと最近の全てのベンチマークにおけるオープン語彙セグメンテーションモデルよりも明らかに優れていた。
論文 参考訳(メタデータ) (2023-08-29T15:39:15Z) - CgT-GAN: CLIP-guided Text GAN for Image Captioning [48.276753091051035]
本稿では,CLIP-Guided text GAN (CgT-GAN) を提案する。
我々は,外部テキストコーパスのフレーズを模倣するために,CgT-GANの教育に逆行訓練を用いる。
CgT-GANは、すべてのメトリクスで最先端のメソッドを著しく上回る。
論文 参考訳(メタデータ) (2023-08-23T10:25:37Z) - ImageBrush: Learning Visual In-Context Instructions for Exemplar-Based
Image Manipulation [49.07254928141495]
我々は、より正確な画像編集のための視覚的指示を学習する、ImageBrushと呼ばれる新しい操作手法を提案する。
私たちのキーとなるアイデアは、人間の意図を正確に捉えた2つの変換画像を視覚的指示として使うことです。
提案モデルでは,ポーズ伝達,画像翻訳,映像インパインティングなどの下流タスクに対して,ロバストな一般化機能を示す。
論文 参考訳(メタデータ) (2023-08-02T01:57:11Z) - iEdit: Localised Text-guided Image Editing with Weak Supervision [53.082196061014734]
テキスト誘導画像編集のための新しい学習法を提案する。
ソースイメージに条件付けされた画像とテキスト編集プロンプトを生成する。
画像の忠実度、CLIPアライメントスコア、および生成された画像と実際の画像の両方を定性的に編集する点において、画像に対して好ましい結果を示す。
論文 参考訳(メタデータ) (2023-05-10T07:39:14Z) - CLIP-PAE: Projection-Augmentation Embedding to Extract Relevant Features
for a Disentangled, Interpretable, and Controllable Text-Guided Face
Manipulation [2.7685408681770247]
テキスト誘導画像操作の性能向上のための最適化ターゲットとして,CLIPプロジェクション拡張埋め込み(PAE)を導入する。
提案手法は,任意のCLIPに基づく画像操作アルゴリズムに容易に計算,適応し,スムーズに組み込むことができる,シンプルで汎用的なパラダイムである。
論文 参考訳(メタデータ) (2022-10-08T05:12:25Z) - Learning by Planning: Language-Guided Global Image Editing [53.72807421111136]
あいまいな編集言語要求を一連の編集操作にマッピングするテキスト・ツー・オペレーティング・モデルを開発した。
タスクの唯一の監督はターゲットイメージであり、シーケンシャルな決定の安定したトレーニングには不十分である。
本研究では,対象画像から可能な編集シーケンスを疑似基底真理として生成する,新たな操作計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-06-24T16:30:03Z) - StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery [71.1862388442953]
StyleGAN画像操作のためのテキストベースのインターフェースを開発しています。
まず,ユーザが提案するテキストプロンプトに応答して,CLIPに基づく損失を利用して入力潜時ベクトルを変更する最適化手法を提案する。
次に、与えられた入力画像に対してテキスト誘導の潜時操作ステップを推論し、より高速で安定したテキストベースの操作を可能にする潜時マッパーについて述べる。
論文 参考訳(メタデータ) (2021-03-31T17:51:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。