論文の概要: Describe What to Change: A Text-guided Unsupervised Image-to-Image
Translation Approach
- arxiv url: http://arxiv.org/abs/2008.04200v1
- Date: Mon, 10 Aug 2020 15:40:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-31 22:09:43.409780
- Title: Describe What to Change: A Text-guided Unsupervised Image-to-Image
Translation Approach
- Title(参考訳): 変化すべきことを説明する: テキスト誘導による教師なし画像間翻訳アプローチ
- Authors: Yahui Liu, Marco De Nadai, Deng Cai, Huayang Li, Xavier
Alameda-Pineda, Nicu Sebe and Bruno Lepri
- Abstract要約: 本稿では,画像から画像への変換に基づく新しい教師なしの手法を提案する。
本モデルは視覚的属性から画像内容を切り離し,テキスト記述を用いて後者を変更することを学習する。
実験により,提案モデルが2つの大規模公開データセットに対して有望な性能を達成することを示す。
- 参考スコア(独自算出の注目度): 84.22327278486846
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Manipulating visual attributes of images through human-written text is a very
challenging task. On the one hand, models have to learn the manipulation
without the ground truth of the desired output. On the other hand, models have
to deal with the inherent ambiguity of natural language. Previous research
usually requires either the user to describe all the characteristics of the
desired image or to use richly-annotated image captioning datasets. In this
work, we propose a novel unsupervised approach, based on image-to-image
translation, that alters the attributes of a given image through a command-like
sentence such as "change the hair color to black". Contrarily to
state-of-the-art approaches, our model does not require a human-annotated
dataset nor a textual description of all the attributes of the desired image,
but only those that have to be modified. Our proposed model disentangles the
image content from the visual attributes, and it learns to modify the latter
using the textual description, before generating a new image from the content
and the modified attribute representation. Because text might be inherently
ambiguous (blond hair may refer to different shadows of blond, e.g. golden,
icy, sandy), our method generates multiple stochastic versions of the same
translation. Experiments show that the proposed model achieves promising
performances on two large-scale public datasets: CelebA and CUB. We believe our
approach will pave the way to new avenues of research combining textual and
speech commands with visual attributes.
- Abstract(参考訳): 人間によるテキストによる画像の視覚特性の操作は非常に難しい作業である。
一方、モデルは所望の出力の根本的真実なしに操作を学ばなければならない。
一方、モデルは自然言語の本質的なあいまいさに対処しなければならない。
従来の研究では、ユーザーは所望の画像の全ての特徴を記述するか、豊富な注釈付き画像キャプションデータセットを使用する必要がある。
本研究では「髪の色を黒に変更する」というコマンドのような文を通して、与えられた画像の属性を変更するイメージ・ツー・イメージ翻訳に基づく、新しい教師なしアプローチを提案する。
最先端のアプローチとは対照的に、我々のモデルは人間の注釈付きデータセットや、望まれる画像のすべての属性のテキスト記述を必要としない。
提案モデルでは,画像内容が視覚的属性から切り離され,テキスト記述を用いて画像の修正を学習し,その内容から新たな画像を生成し,属性表現を修正した。
テキストは本質的に曖昧である(ブロンドの髪は金色、氷色、砂色などの異なるブロンドの影を指すこともある)ため、我々の方法は同じ翻訳の複数の確率的なバージョンを生成する。
実験により,提案モデルがCelebAとCUBの2つの大規模公開データセット上で有望な性能を達成することが示された。
われわれのアプローチは、テキストと音声のコマンドと視覚的属性を組み合わせた新しい研究の道を開くものだと信じている。
関連論文リスト
- Composed Image Retrieval for Remote Sensing [24.107610091033997]
この研究は、合成画像検索をリモートセンシングに導入する。
テキスト記述で交互に画像例によって大きな画像アーカイブをクエリできる。
イメージ・ツー・イメージとテキスト・ツー・イメージの類似性を融合させる新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-24T14:18:31Z) - DM-Align: Leveraging the Power of Natural Language Instructions to Make Changes to Images [55.546024767130994]
本稿では,画像のどの部分を変更するか,保存するかを明確に推論することで,画像エディタのテキストベースの制御を強化する新しいモデルを提案する。
元のソースイメージの記述と必要な更新を反映する命令と入力イメージとの間の単語アライメントに依存する。
Bisonデータセットのサブセットと、Dreamと呼ばれる自己定義データセットで評価される。
論文 参考訳(メタデータ) (2024-04-27T22:45:47Z) - ITI-GEN: Inclusive Text-to-Image Generation [56.72212367905351]
本研究では,人書きプロンプトに基づいて画像を生成する包括的テキスト・画像生成モデルについて検討する。
いくつかの属性に対して、画像はテキストよりも概念を表現的に表現できることを示す。
Inclusive Text-to- Image GENeration に容易に利用可能な参照画像を活用する新しいアプローチ ITI-GEN を提案する。
論文 参考訳(メタデータ) (2023-09-11T15:54:30Z) - ProSpect: Prompt Spectrum for Attribute-Aware Personalization of
Diffusion Models [77.03361270726944]
現在のパーソナライズ手法は、オブジェクトや概念をテキスト条件空間に反転させ、テキストから画像への拡散モデルのための新しい自然文を構成することができる。
本稿では,低周波情報から高周波画像を生成する拡散モデルのステップバイステップ生成プロセスを活用する新しい手法を提案する。
ProSpectは、画像誘導やテキスト駆動による材料、スタイル、レイアウトの操作など、パーソナライズされた属性認識画像生成アプリケーションに適用する。
論文 参考訳(メタデータ) (2023-05-25T16:32:01Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z) - CIGLI: Conditional Image Generation from Language & Image [5.159265382427163]
我々はCIGLI: Conditional Image Generation from Language and Imageを提案する。
テキスト画像生成のようにテキストに基づいて画像を生成する代わりに、このタスクでは、テキスト記述と画像プロンプトから画像を生成する必要がある。
論文 参考訳(メタデータ) (2021-08-20T00:58:42Z) - Text as Neural Operator: Image Manipulation by Text Instruction [68.53181621741632]
本稿では、複雑なテキスト命令を用いて複数のオブジェクトで画像を編集し、オブジェクトの追加、削除、変更を可能にする設定について検討する。
タスクの入力は、(1)参照画像を含むマルチモーダルであり、(2)所望の修正を記述した自然言語の命令である。
提案モデルは,最近の3つの公開データセットの強いベースラインに対して良好に動作することを示す。
論文 参考訳(メタデータ) (2020-08-11T07:07:10Z) - Text-Guided Neural Image Inpainting [20.551488941041256]
塗装作業では、劣化した画像をコンテキストに整合した内容で埋める必要がある。
本論文の目的は, 提供される記述文に従って, 劣化画像中の意味情報を埋めることである。
テキストガイドデュアルアテンション・インパインティング・ネットワーク(TDANet)という新しいインパインティング・モデルを提案する。
論文 参考訳(メタデータ) (2020-04-07T09:04:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。