論文の概要: Target-Free Text-guided Image Manipulation
- arxiv url: http://arxiv.org/abs/2211.14544v1
- Date: Sat, 26 Nov 2022 11:45:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-29 14:44:02.451135
- Title: Target-Free Text-guided Image Manipulation
- Title(参考訳): ターゲットフリーテキスト誘導画像マニピュレーション
- Authors: Wan-Cyuan Fan, Cheng-Fu Yang, Chiao-An Yang, Yu-Chiang Frank Wang
- Abstract要約: そこで我々は,興味のある画像領域の編集方法と場所を実現するために,循環操作型GAN(cManiGAN)を提案する。
具体的には、cManiGANの画像エディタは、入力画像の識別と完了を学習する。
出力画像の意味的正当性を検証するために、クロスモーダルインタプリタと推論器が配置される。
- 参考スコア(独自算出の注目度): 30.3884508895415
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We tackle the problem of target-free text-guided image manipulation, which
requires one to modify the input reference image based on the given text
instruction, while no ground truth target image is observed during training. To
address this challenging task, we propose a Cyclic-Manipulation GAN (cManiGAN)
in this paper, which is able to realize where and how to edit the image regions
of interest. Specifically, the image editor in cManiGAN learns to identify and
complete the input image, while cross-modal interpreter and reasoner are
deployed to verify the semantic correctness of the output image based on the
input instruction. While the former utilizes factual/counterfactual description
learning for authenticating the image semantics, the latter predicts the "undo"
instruction and provides pixel-level supervision for the training of cManiGAN.
With such operational cycle-consistency, our cManiGAN can be trained in the
above weakly supervised setting. We conduct extensive experiments on the
datasets of CLEVR and COCO, and the effectiveness and generalizability of our
proposed method can be successfully verified. Project page:
https://sites.google.com/view/wancyuanfan/projects/cmanigan.
- Abstract(参考訳): 与えられたテキスト命令に基づいて入力基準画像を変更する必要があるが、訓練中は真理目標画像は観測されない、目標フリーなテキストガイド画像操作の問題に取り組む。
この課題に対処するため,本論文では,興味のある画像領域の編集方法と場所を認識可能な循環制御型GAN(cManiGAN)を提案する。
具体的には、cManiGANの画像エディタが入力画像の識別と完了を学習し、クロスモーダルインタプリタと推論器が配置され、入力命令に基づいて出力画像の意味的正当性を検証する。
前者はイメージセマンティクスの認証に事実/事実記述学習を利用するが、後者は"undo"命令を予測し、cManiGANの訓練にピクセルレベルの監督を提供する。
このような運用サイクル整合性では、上記の弱教師付き環境でcManiGANをトレーニングすることができます。
我々はCLEVRとCOCOのデータセットに関する広範な実験を行い、提案手法の有効性と一般化性を検証した。
プロジェクトページ: https://sites.google.com/view/wancyuanfan/projects/cmanigan
関連論文リスト
- Decoder Pre-Training with only Text for Scene Text Recognition [54.93037783663204]
シーンテキスト認識(STR)事前学習法は,主に合成データセットに依存し,顕著な進歩を遂げている。
STR(DPTR)用テキストのみを用いたDecoder Pre-trainingという新しい手法を提案する。
DPTRはCLIPテキストエンコーダが生成したテキスト埋め込みを擬似視覚埋め込みとして扱い、デコーダの事前訓練に使用する。
論文 参考訳(メタデータ) (2024-08-11T06:36:42Z) - Pre-trained Text-to-Image Diffusion Models Are Versatile Representation Learners for Control [73.6361029556484]
身体的なAIエージェントは、視覚的および言語入力を介して、物理的な世界を詳細に理解する必要がある。
テキストプロンプトから画像を生成するために明示的に最適化された事前学習されたテキスト画像拡散モデルについて検討する。
安定度制御表現により,OVMM上での最先端性能を示す学習ポリシーが実現可能であることを示す。
論文 参考訳(メタデータ) (2024-05-09T15:39:54Z) - TextCLIP: Text-Guided Face Image Generation And Manipulation Without
Adversarial Training [5.239585892767183]
本研究では,テキスト誘導画像生成と操作のための統合フレームワークであるTextCLIPを提案する。
提案手法は,テキスト誘導型生成タスクと操作タスクの両方において,既存の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2023-09-21T09:34:20Z) - Towards Generic Image Manipulation Detection with Weakly-Supervised
Self-Consistency Learning [49.43362803584032]
本稿では,弱い教師付き画像操作検出を提案する。
このような設定は、より多くのトレーニングイメージを活用することができ、新しい操作テクニックに迅速に適応する可能性がある。
マルチソース整合性(MSC)とパッチ整合性(IPC)の2つの一貫性特性が学習される。
論文 参考訳(メタデータ) (2023-09-03T19:19:56Z) - CgT-GAN: CLIP-guided Text GAN for Image Captioning [48.276753091051035]
本稿では,CLIP-Guided text GAN (CgT-GAN) を提案する。
我々は,外部テキストコーパスのフレーズを模倣するために,CgT-GANの教育に逆行訓練を用いる。
CgT-GANは、すべてのメトリクスで最先端のメソッドを著しく上回る。
論文 参考訳(メタデータ) (2023-08-23T10:25:37Z) - ImageBrush: Learning Visual In-Context Instructions for Exemplar-Based
Image Manipulation [49.07254928141495]
我々は、より正確な画像編集のための視覚的指示を学習する、ImageBrushと呼ばれる新しい操作手法を提案する。
私たちのキーとなるアイデアは、人間の意図を正確に捉えた2つの変換画像を視覚的指示として使うことです。
提案モデルでは,ポーズ伝達,画像翻訳,映像インパインティングなどの下流タスクに対して,ロバストな一般化機能を示す。
論文 参考訳(メタデータ) (2023-08-02T01:57:11Z) - iEdit: Localised Text-guided Image Editing with Weak Supervision [53.082196061014734]
テキスト誘導画像編集のための新しい学習法を提案する。
ソースイメージに条件付けされた画像とテキスト編集プロンプトを生成する。
画像の忠実度、CLIPアライメントスコア、および生成された画像と実際の画像の両方を定性的に編集する点において、画像に対して好ましい結果を示す。
論文 参考訳(メタデータ) (2023-05-10T07:39:14Z) - CLIP-PAE: Projection-Augmentation Embedding to Extract Relevant Features for a Disentangled, Interpretable, and Controllable Text-Guided Face Manipulation [4.078926358349661]
対照的に、CLIP(Contrastive Language- Image Pre-Training)は、画像とテキストを共同の潜在空間に埋め込むことでブリッジする。
共同空間における画像とテキストの埋め込みの相違により、最適化対象としてテキストの埋め込みを用いることで、結果の画像に望ましくないアーティファクトがしばしば導入される。
テキスト誘導画像操作の性能向上のための最適化ターゲットとして,CLIPプロジェクション拡張埋め込み(PAE)を導入する。
論文 参考訳(メタデータ) (2022-10-08T05:12:25Z) - StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery [71.1862388442953]
StyleGAN画像操作のためのテキストベースのインターフェースを開発しています。
まず,ユーザが提案するテキストプロンプトに応答して,CLIPに基づく損失を利用して入力潜時ベクトルを変更する最適化手法を提案する。
次に、与えられた入力画像に対してテキスト誘導の潜時操作ステップを推論し、より高速で安定したテキストベースの操作を可能にする潜時マッパーについて述べる。
論文 参考訳(メタデータ) (2021-03-31T17:51:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。