論文の概要: Open-Edit: Open-Domain Image Manipulation with Open-Vocabulary
Instructions
- arxiv url: http://arxiv.org/abs/2008.01576v2
- Date: Wed, 21 Apr 2021 13:31:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-03 00:41:46.672681
- Title: Open-Edit: Open-Domain Image Manipulation with Open-Vocabulary
Instructions
- Title(参考訳): open-edit: ボキャブラリー命令によるオープンドメインイメージ操作
- Authors: Xihui Liu, Zhe Lin, Jianming Zhang, Handong Zhao, Quan Tran, Xiaogang
Wang, Hongsheng Li
- Abstract要約: そこで我々は,オープンドメイン画像操作のための新しいアルゴリズムOpen-Editを提案する。
本手法は、一般的な画像キャプチャーデータセット上で事前訓練された、統合されたビジュアル・セマンティックな埋め込み空間を利用する。
オープンドメイン画像の様々なシナリオに対して,オープンボキャブラリ色,テクスチャ,高レベル属性の操作に有望な結果を示す。
- 参考スコア(独自算出の注目度): 66.82547612097194
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a novel algorithm, named Open-Edit, which is the first attempt on
open-domain image manipulation with open-vocabulary instructions. It is a
challenging task considering the large variation of image domains and the lack
of training supervision. Our approach takes advantage of the unified
visual-semantic embedding space pretrained on a general image-caption dataset,
and manipulates the embedded visual features by applying text-guided vector
arithmetic on the image feature maps. A structure-preserving image decoder then
generates the manipulated images from the manipulated feature maps. We further
propose an on-the-fly sample-specific optimization approach with
cycle-consistency constraints to regularize the manipulated images and force
them to preserve details of the source images. Our approach shows promising
results in manipulating open-vocabulary color, texture, and high-level
attributes for various scenarios of open-domain images.
- Abstract(参考訳): 我々は,open-editという新しいアルゴリズムを提案し,open-vocabulary命令によるオープンドメイン画像操作を初めて試みた。
画像領域の多様さと訓練監督の欠如を考えると,これは困難な課題である。
本手法は,一般イメージキャプチャデータセットで事前学習した統一視覚意味埋め込み空間を利用し,画像特徴マップにテキスト誘導ベクトル演算を適用することで埋め込み視覚特徴量を操作する。
構造保存画像デコーダは、操作された特徴マップから操作された画像を生成する。
さらに,本手法では,実機で処理した画像の正規化と,画像の詳細な保存を強制するサイクル整合性制約を持つサンプル固有最適化手法を提案する。
提案手法は,オープンドメイン画像の様々なシナリオにおいて,オープンボキャブラリ色,テクスチャ,高レベル属性を操作できることを示す。
関連論文リスト
- Tuning-Free Image Customization with Image and Text Guidance [65.9504243633169]
テキスト画像の同時カスタマイズのためのチューニング不要なフレームワークを提案する。
提案手法は,テキスト記述に基づく詳細な属性の修正が可能でありながら,参照画像のセマンティックな特徴を保っている。
提案手法は,人的・定量的評価において,従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-03-19T11:48:35Z) - Zero-shot Inversion Process for Image Attribute Editing with Diffusion
Models [9.924851219904843]
本稿では,事前学習した拡散モデルのセマンティック潜在空間に生成した視覚参照とテキストガイダンスの融合を注入するフレームワークを提案する。
提案したZIPは、小さなニューラルネットワークのみを使用して、テキストプロンプトの直感的な制御の下で、多様なコンテンツや属性を生成する。
最先端の手法と比較して、ZIPはリアルな編集効果を提供しながら、同等の画質の画像を生成する。
論文 参考訳(メタデータ) (2023-08-30T08:40:15Z) - Improving Generalization of Image Captioning with Unsupervised Prompt
Learning [63.26197177542422]
画像キャプションの一般化(GeneIC)は、アノテーション付きデータを必要とせずに、ターゲットドメインのドメイン固有のプロンプトベクトルを学習する。
GeneICは、学習済みのContrastive Language-Image Pre-Training (CLIP)モデルと視覚的および言語的モダリティを一致させる。
論文 参考訳(メタデータ) (2023-08-05T12:27:01Z) - iEdit: Localised Text-guided Image Editing with Weak Supervision [53.082196061014734]
テキスト誘導画像編集のための新しい学習法を提案する。
ソースイメージに条件付けされた画像とテキスト編集プロンプトを生成する。
画像の忠実度、CLIPアライメントスコア、および生成された画像と実際の画像の両方を定性的に編集する点において、画像に対して好ましい結果を示す。
論文 参考訳(メタデータ) (2023-05-10T07:39:14Z) - Prompt Tuning Inversion for Text-Driven Image Editing Using Diffusion
Models [6.34777393532937]
本稿では,テキスト駆動画像編集のための高精度かつ高速な変換手法であるPrompt Tuning Inversionを提案する。
提案手法は再構築段階と編集段階から構成される。
ImageNetの実験は、最先端のベースラインと比較して、我々の手法の編集性能が優れていることを実証している。
論文 参考訳(メタデータ) (2023-05-08T03:34:33Z) - LDEdit: Towards Generalized Text Guided Image Manipulation via Latent
Diffusion Models [12.06277444740134]
フレキシブルテキスト入力を持つ単一モデルを用いた汎用画像操作は非常に望ましい。
最近の研究は、事前学習された視覚言語エンコーダを用いて、ジェネリックイメージで訓練された生成モデルを導くことで、この課題に対処している。
本稿では,テキストプロンプトから画像の汎用的な操作を行うための最適化不要な手法を提案する。
論文 参考訳(メタデータ) (2022-10-05T13:26:15Z) - StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery [71.1862388442953]
StyleGAN画像操作のためのテキストベースのインターフェースを開発しています。
まず,ユーザが提案するテキストプロンプトに応答して,CLIPに基づく損失を利用して入力潜時ベクトルを変更する最適化手法を提案する。
次に、与えられた入力画像に対してテキスト誘導の潜時操作ステップを推論し、より高速で安定したテキストベースの操作を可能にする潜時マッパーについて述べる。
論文 参考訳(メタデータ) (2021-03-31T17:51:25Z) - Look here! A parametric learning based approach to redirect visual
attention [49.609412873346386]
画像領域を微妙な画像編集によってより注目度の高いものにするための自動手法を提案する。
我々のモデルは、前景および背景画像領域に適用可能な、異なるグローバルパラメトリック変換セットを予測する。
編集により、任意の画像サイズでインタラクティブなレートでの推論が可能になり、簡単に動画に一般化できる。
論文 参考訳(メタデータ) (2020-08-12T16:08:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。