論文の概要: AI Illustrator: Translating Raw Descriptions into Images by Prompt-based
Cross-Modal Generation
- arxiv url: http://arxiv.org/abs/2209.03160v2
- Date: Thu, 8 Sep 2022 04:24:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-09 09:14:57.960909
- Title: AI Illustrator: Translating Raw Descriptions into Images by Prompt-based
Cross-Modal Generation
- Title(参考訳): AI Illustrator: Promptベースのクロスモーダルジェネレーションによる生記述を画像に変換する
- Authors: Yiyang Ma, Huan Yang, Bei Liu, Jianlong Fu, Jiaying Liu
- Abstract要約: 本稿では,複雑な意味論による生の記述を意味的に対応する画像に翻訳するフレームワークを提案する。
本フレームワークは,テキスト埋め込みから画像埋め込みへのプロンプトに基づくプロジェクションモジュールと,StyleGAN上に構築された適応画像生成モジュールの2つのコンポーネントから構成される。
本手法は,事前学習モデルに適合し,複雑な記述を処理でき,外部のペアデータを必要としない。
- 参考スコア(独自算出の注目度): 61.77946020543875
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: AI illustrator aims to automatically design visually appealing images for
books to provoke rich thoughts and emotions. To achieve this goal, we propose a
framework for translating raw descriptions with complex semantics into
semantically corresponding images. The main challenge lies in the complexity of
the semantics of raw descriptions, which may be hard to be visualized (e.g.,
"gloomy" or "Asian"). It usually poses challenges for existing methods to
handle such descriptions. To address this issue, we propose a Prompt-based
Cross-Modal Generation Framework (PCM-Frame) to leverage two powerful
pre-trained models, including CLIP and StyleGAN. Our framework consists of two
components: a projection module from Text Embeddings to Image Embeddings based
on prompts, and an adapted image generation module built on StyleGAN which
takes Image Embeddings as inputs and is trained by combined semantic
consistency losses. To bridge the gap between realistic images and illustration
designs, we further adopt a stylization model as post-processing in our
framework for better visual effects. Benefiting from the pre-trained models,
our method can handle complex descriptions and does not require external paired
data for training. Furthermore, we have built a benchmark that consists of 200
raw descriptions. We conduct a user study to demonstrate our superiority over
the competing methods with complicated texts. We release our code at
https://github.com/researchmm/AI_Illustrator.
- Abstract(参考訳): AIイラストレーターは、書籍の視覚的に魅力的なイメージを自動的に設計し、豊かな思考や感情を引き起こすことを目的としている。
この目的を達成するために,複雑な意味論を持つ生記述を意味的に対応する画像に変換するフレームワークを提案する。
主な課題は、生の記述の意味論の複雑さであり、視覚化が難しい(例えば「グロオミー」や「アシアン」など)。
通常、そのような記述を扱う既存のメソッドには課題が生じる。
この問題に対処するため、我々はCLIPとStyleGANを含む2つの強力な事前学習モデルを活用するために、Promptベースのクロスモーダル生成フレームワーク(PCM-Frame)を提案する。
本フレームワークは,テキスト埋め込みから画像埋め込みへのプロンプトに基づくプロジェクションモジュールと,画像埋め込みを入力とし,セマンティック一貫性の喪失によってトレーニングするStyleGAN上に構築された適応画像生成モジュールの2つのコンポーネントから構成される。
リアルなイメージとイラストデザインのギャップを埋めるため、視覚効果を改善するためのフレームワークでは、ポストプロセッシングとしてスタイライゼーションモデルも採用しています。
本手法は,事前学習モデルに適合し,複雑な記述を処理でき,外部のペアデータを必要としない。
さらに、200の生の記述からなるベンチマークを構築しました。
複雑なテキストの競合手法よりも優れていることを示すために,ユーザ調査を実施している。
コードはhttps://github.com/researchmm/ai_illustratorでリリースします。
関連論文リスト
- A Survey of Multimodal-Guided Image Editing with Text-to-Image Diffusion Models [117.77807994397784]
画像編集は、ユーザーが特定の要求を満たすために、与えられた合成画像または実際の画像を編集することを目的としている。
この分野での最近の顕著な進歩は、テキスト・ツー・イメージ(T2I)拡散モデルの開発に基づいている。
T2Iベースの画像編集手法は、編集性能を大幅に向上させ、マルチモーダル入力でガイドされたコンテンツを修正するためのユーザフレンドリーなインタフェースを提供する。
論文 参考訳(メタデータ) (2024-06-20T17:58:52Z) - VLLMs Provide Better Context for Emotion Understanding Through Common Sense Reasoning [66.23296689828152]
我々は、視覚・言語モデルの機能を活用し、文脈内感情分類を強化する。
第1段階では、VLLMが対象者の明らかな感情の自然言語で記述を生成できるように促すことを提案する。
第2段階では、記述を文脈情報として使用し、画像入力とともに、トランスフォーマーベースのアーキテクチャのトレーニングに使用する。
論文 参考訳(メタデータ) (2024-04-10T15:09:15Z) - DiffMorph: Text-less Image Morphing with Diffusion Models [0.0]
verb|DiffMorph|は、テキストプロンプトを使わずに概念を混ぜたイメージを合成する。
verb|DiffMorph|は、アーティストが描いたスケッチを条件付けして初期画像を取得し、モルヒネ画像を生成する。
トレーニング済みのテキスト・ツー・イメージ拡散モデルを用いて、各画像を忠実に再構成する。
論文 参考訳(メタデータ) (2024-01-01T12:42:32Z) - LayoutLLM-T2I: Eliciting Layout Guidance from LLM for Text-to-Image
Generation [121.45667242282721]
レイアウト計画と画像生成を実現するための粗大なパラダイムを提案する。
提案手法は,フォトリアリスティックなレイアウトと画像生成の観点から,最先端のモデルよりも優れている。
論文 参考訳(メタデータ) (2023-08-09T17:45:04Z) - Paste, Inpaint and Harmonize via Denoising: Subject-Driven Image Editing
with Pre-Trained Diffusion Model [22.975965453227477]
textitPaste, Inpaint, Harmonize と呼ばれる新しいフレームワークをDenoising (PhD) を通じて導入する。
本実験では,主観的画像編集作業にPhDを適用し,参照対象のテキスト駆動シーン生成を探索する。
論文 参考訳(メタデータ) (2023-06-13T07:43:10Z) - FICE: Text-Conditioned Fashion Image Editing With Guided GAN Inversion [16.583537785874604]
本研究では,多種多様なテキスト記述を扱える新しいテキスト条件編集モデルFICEを提案する。
FICEは、非常にリアルなファッションイメージを生成し、既存の競合するアプローチよりも強力な編集性能をもたらす。
論文 参考訳(メタデータ) (2023-01-05T15:33:23Z) - Towards Open-World Text-Guided Face Image Generation and Manipulation [52.83401421019309]
顔画像生成と操作の両方に統一的なフレームワークを提案する。
本手法は,画像とテキストの両方を含むオープンワールドシナリオをサポートし,再トレーニングや微調整,後処理は行わない。
論文 参考訳(メタデータ) (2021-04-18T16:56:07Z) - Text to Image Generation with Semantic-Spatial Aware GAN [41.73685713621705]
テキストから画像生成(T2I)モデルは、テキスト記述と意味的に一致するフォトリアリズム画像を生成することを目的としている。
本稿では,テキストエンコーダがより良いテキスト情報を活用できるように,エンドツーエンドで訓練された新しいフレームワークSemantic-Spatial Aware GANを提案する。
論文 参考訳(メタデータ) (2021-04-01T15:48:01Z) - TediGAN: Text-Guided Diverse Face Image Generation and Manipulation [52.83401421019309]
TediGANはマルチモーダル画像生成とテキスト記述による操作のためのフレームワークである。
StyleGANインバージョンモジュールは、よく訓練されたStyleGANの潜在空間に実際の画像をマッピングする。
視覚言語的類似性は、画像とテキストを共通の埋め込み空間にマッピングすることで、テキスト画像マッチングを学ぶ。
インスタンスレベルの最適化は、操作におけるID保存のためのものだ。
論文 参考訳(メタデータ) (2020-12-06T16:20:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。