論文の概要: Transferring Visual Attributes from Natural Language to Verified Image
Generation
- arxiv url: http://arxiv.org/abs/2305.15026v1
- Date: Wed, 24 May 2023 11:08:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 16:35:29.910921
- Title: Transferring Visual Attributes from Natural Language to Verified Image
Generation
- Title(参考訳): 自然言語から検証画像生成への視覚属性の伝達
- Authors: Rodrigo Valerio, Joao Bordalo, Michal Yarom, Yonattan Bitton, Idan
Szpektor, Joao Magalhaes
- Abstract要約: 本稿では,自然なプロンプトを視覚的プロンプトに変換する自然言語・検証画像生成手法(NL2VI)を提案する。
T2Iモデルは視覚的プロンプトのための画像を生成し、VQAアルゴリズムで検証する。
実験により、自然なプロンプトと画像生成を一致させることで、生成した画像の一貫性を最大11%向上させることができることが示された。
- 参考スコア(独自算出の注目度): 3.3421547654018973
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text to image generation methods (T2I) are widely popular in generating art
and other creative artifacts. While visual hallucinations can be a positive
factor in scenarios where creativity is appreciated, such artifacts are poorly
suited for cases where the generated image needs to be grounded in complex
natural language without explicit visual elements. In this paper, we propose to
strengthen the consistency property of T2I methods in the presence of natural
complex language, which often breaks the limits of T2I methods by including
non-visual information, and textual elements that require knowledge for
accurate generation. To address these phenomena, we propose a Natural Language
to Verified Image generation approach (NL2VI) that converts a natural prompt
into a visual prompt, which is more suitable for image generation. A T2I model
then generates an image for the visual prompt, which is then verified with VQA
algorithms. Experimentally, aligning natural prompts with image generation can
improve the consistency of the generated images by up to 11% over the state of
the art. Moreover, improvements can generalize to challenging domains like
cooking and DIY tasks, where the correctness of the generated image is crucial
to illustrate actions.
- Abstract(参考訳): text to image generation methods (t2i) は、アートやその他の創造的なアーティファクトの生成に広く使われている。
視覚幻覚は創造性が評価されるシナリオにおいて肯定的な要因となりうるが、そのような人工物は、生成した画像が明示的な視覚要素なしで複雑な自然言語でグラウンドドする必要がある場合にはあまり適していない。
本稿では,非視覚情報を含むt2i法や正確な生成に知識を必要とするテキスト要素の限界をしばしば破る自然複合言語の存在下で,t2i法の一貫性を強化することを提案する。
これらの現象に対処するために,自然なプロンプトを視覚的プロンプトに変換する自然言語・検証画像生成手法 (NL2VI) を提案する。
T2Iモデルは視覚的プロンプトのための画像を生成し、VQAアルゴリズムで検証する。
実験的に、自然なプロンプトと画像生成を一致させることで、生成した画像の一貫性を11%向上させることができる。
さらに、改善は料理やdiyタスクのような困難な領域に一般化され、生成された画像の正確さがアクションを説明する上で重要である。
関連論文リスト
- Image Regeneration: Evaluating Text-to-Image Model via Generating Identical Image with Multimodal Large Language Models [54.052963634384945]
画像再生タスクを導入し,テキスト・ツー・イメージ・モデルの評価を行う。
我々はGPT4Vを用いて参照画像とT2Iモデルのテキスト入力のギャップを埋める。
また、生成した画像の品質を高めるために、ImageRepainterフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-14T13:52:43Z) - Text Image Generation for Low-Resource Languages with Dual Translation Learning [0.0]
本研究では,高リソース言語からの実際のテキスト画像のスタイルをエミュレートすることで,低リソース言語でテキスト画像を生成する手法を提案する。
このモデルのトレーニングには、2つの翻訳タスクが含まれており、平易なテキストイメージを合成または実際のテキストイメージに変換する。
生成したテキスト画像の精度と多様性を高めるために,2つのガイダンス手法を導入する。
論文 参考訳(メタデータ) (2024-09-26T11:23:59Z) - Visual Text Generation in the Wild [67.37458807253064]
野生で高品質なテキスト画像を生成する視覚テキスト生成装置(SceneVTG)を提案する。
提案したSceneVTGは、従来のレンダリングに基づく手法と最近の拡散に基づく手法を、忠実さと理性の観点から大きく上回っている。
生成された画像は、テキスト検出とテキスト認識を含むタスクに優れたユーティリティを提供する。
論文 参考訳(メタデータ) (2024-07-19T09:08:20Z) - Mini-DALLE3: Interactive Text to Image by Prompting Large Language
Models [71.49054220807983]
一般的な制限は、自然言語記述を用いた安定拡散のようなT2Iモデルとの効果的な通信に持続する。
最近リリースされたDALLE3に触発されて、人間の意図を一致させ、新しいタスク、インタラクティブテキスト・トゥ・イメージ(iT2I)を導入すべく、既存のT2Iシステムを再考した。
我々は,iT2I の LLM を補助的手法と既製の T2I モデルで拡張する簡単な手法を提案する。
論文 参考訳(メタデータ) (2023-10-11T16:53:40Z) - GlyphDiffusion: Text Generation as Image Generation [100.98428068214736]
テキスト誘導画像生成によるテキスト生成のための新しい拡散手法であるGlyphDiffusionを提案する。
私たちのキーとなるアイデアは、ターゲットのテキストを視覚言語コンテンツを含むグリフイメージとしてレンダリングすることです。
また,本モデルでは,近年の拡散モデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-04-25T02:14:44Z) - Plug-and-Play Diffusion Features for Text-Driven Image-to-Image
Translation [10.39028769374367]
本稿では,画像間翻訳の領域にテキスト・ツー・イメージ合成を取り入れた新しいフレームワークを提案する。
本手法は,事前学習したテキスト・画像拡散モデルのパワーを利用して,対象のテキストに適合する新たな画像を生成する。
論文 参考訳(メタデータ) (2022-11-22T20:39:18Z) - Re-Imagen: Retrieval-Augmented Text-to-Image Generator [58.60472701831404]
検索用テキスト・ツー・イメージ・ジェネレータ(再画像)
検索用テキスト・ツー・イメージ・ジェネレータ(再画像)
論文 参考訳(メタデータ) (2022-09-29T00:57:28Z) - Text-to-Face Generation with StyleGAN2 [0.0]
入力記述に整合した顔画像を生成するための新しい枠組みを提案する。
本フレームワークでは,高分解能顔生成器であるStyleGAN2を用いて,T2Fでの利用の可能性を探る。
生成された画像は、地上の真理画像と57%の類似性を示し、顔のセマンティック距離は0.92であり、最先端技術よりも優れていた。
論文 参考訳(メタデータ) (2022-05-25T06:02:01Z) - Text to Image Generation with Semantic-Spatial Aware GAN [41.73685713621705]
テキストから画像生成(T2I)モデルは、テキスト記述と意味的に一致するフォトリアリズム画像を生成することを目的としている。
本稿では,テキストエンコーダがより良いテキスト情報を活用できるように,エンドツーエンドで訓練された新しいフレームワークSemantic-Spatial Aware GANを提案する。
論文 参考訳(メタデータ) (2021-04-01T15:48:01Z) - Text as Neural Operator: Image Manipulation by Text Instruction [68.53181621741632]
本稿では、複雑なテキスト命令を用いて複数のオブジェクトで画像を編集し、オブジェクトの追加、削除、変更を可能にする設定について検討する。
タスクの入力は、(1)参照画像を含むマルチモーダルであり、(2)所望の修正を記述した自然言語の命令である。
提案モデルは,最近の3つの公開データセットの強いベースラインに対して良好に動作することを示す。
論文 参考訳(メタデータ) (2020-08-11T07:07:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。