論文の概要: ComicGAN: Text-to-Comic Generative Adversarial Network
- arxiv url: http://arxiv.org/abs/2109.09120v1
- Date: Sun, 19 Sep 2021 13:31:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-21 16:49:50.561020
- Title: ComicGAN: Text-to-Comic Generative Adversarial Network
- Title(参考訳): ComicGAN: テキストからコミュニティブ・ジェネレーティブ・アドバイサル・ネットワーク
- Authors: Ben Proven-Bessel, Zilong Zhao, Lydia Chen
- Abstract要約: テキスト記述に基づいて漫画を合成する新しいテキスト・ツー・イメージGANであるComicGANを実装した。
我々は,提案するComicGANについて,記述からの画像生成と対話からの画像生成という2つのシナリオで広く評価する。
- 参考スコア(独自算出の注目度): 1.4824891788575418
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Drawing and annotating comic illustrations is a complex and difficult
process. No existing machine learning algorithms have been developed to create
comic illustrations based on descriptions of illustrations, or the dialogue in
comics. Moreover, it is not known if a generative adversarial network (GAN) can
generate original comics that correspond to the dialogue and/or descriptions.
GANs are successful in producing photo-realistic images, but this technology
does not necessarily translate to generation of flawless comics. What is more,
comic evaluation is a prominent challenge as common metrics such as Inception
Score will not perform comparably, as they are designed to work on photos. In
this paper: 1. We implement ComicGAN, a novel text-to-comic pipeline based on a
text-to-image GAN that synthesizes comics according to text descriptions. 2. We
describe an in-depth empirical study of the technical difficulties of comic
generation using GAN's. ComicGAN has two novel features: (i) text description
creation from labels via permutation and augmentation, and (ii) custom image
encoding with Convolutional Neural Networks. We extensively evaluate the
proposed ComicGAN in two scenarios, namely image generation from descriptions,
and image generation from dialogue. Our results on 1000 Dilbert comic panels
and 6000 descriptions show synthetic comic panels from text inputs resemble
original Dilbert panels. Novel methods for text description creation and custom
image encoding brought improvements to Frechet Inception Distance, detail, and
overall image quality over baseline algorithms. Generating illustrations from
descriptions provided clear comics including characters and colours that were
specified in the descriptions.
- Abstract(参考訳): 漫画の挿絵や注釈は複雑で難しい過程である。
イラストの描写やコミックの対話に基づいて漫画イラストを作成するために、既存の機械学習アルゴリズムは開発されていない。
さらに、gan(generative adversarial network)が、対話や記述に対応するオリジナルコミックを生成できるかどうかも不明である。
GANはフォトリアリスティックな画像を作るのに成功しているが、この技術は必ずしも欠陥のない漫画を生み出すわけではない。
さらに、コミックの評価は、インセプションスコアのような一般的な指標は、写真を扱うようにデザインされているため、比較がつかないため、顕著な課題である。
この論文では
1. テキスト記述に基づいて漫画を合成するテキスト・ツー・イメージGANに基づく新しいテキスト・ツー・コミック・パイプラインであるComicGANを実装した。
2) GANを用いた漫画生成の技術的困難に関する詳細な実証研究について述べる。
ComicGANには2つの新しい特徴がある。
(i)順列及び増補によるラベルからのテキスト記述の作成及び
(II)畳み込みニューラルネットワークを用いたカスタム画像符号化
提案するComicGANは,記述からの画像生成と対話からの画像生成という2つのシナリオで広く評価する。
1000のDilbertのコミックパネルと6000の記述は、テキスト入力から合成されたコミックパネルがオリジナルのDilbertパネルに似ていることを示している。
テキスト記述作成とカスタム画像エンコーディングの新しい手法は、ベースラインアルゴリズムよりもfrechetインセプション距離、詳細、全体的な画像品質を改善した。
説明から挿絵を生成することは、記述に規定された文字や色を含む明確な漫画を提供した。
関連論文リスト
- Collaborative Comic Generation: Integrating Visual Narrative Theories with AI Models for Enhanced Creativity [1.1181151748260076]
本研究は,概念的原理-共通オーサリング・イディオムと生成的・言語モデルを統合し,漫画作成プロセスを強化する理論に着想を得たビジュアル・ナラティブ・ジェネレーションシステムを提案する。
主な貢献は、機械学習モデルを人間-AI協調コミック生成プロセスに統合すること、抽象的な物語理論をAI駆動コミック作成に展開すること、物語駆動画像シーケンスのカスタマイズ可能なツールである。
論文 参考訳(メタデータ) (2024-09-25T18:21:01Z) - Multimodal Transformer for Comics Text-Cloze [8.616858272810084]
テキストクローズ(Text-cloze)とは、隣接するパネルから漫画パネルで使用する正しいテキストを選択するタスクである。
リカレントニューラルネットワークに基づく従来の手法は、OCR精度の制限と固有のモデル制限のために、このタスクに苦労してきた。
テキストクローズに特化して設計された新しいマルチモーダル大規模言語モデル(Multimodal-LLM)を導入する。
論文 参考訳(メタデータ) (2024-03-06T14:11:45Z) - Comics for Everyone: Generating Accessible Text Descriptions for Comic
Strips [0.0]
我々は、視覚障害者のコミュニティにアクセス可能なコミックストリップの自然言語記述を作成します。
まず、コンピュータビジョン技術を用いて、コミック画像のパネル、文字、テキストに関する情報を抽出する。
我々は,人間の専門家が注釈付けした漫画のコレクション上で本手法を試行し,定量的および定性的な指標を用いてその性能を計測する。
論文 参考訳(メタデータ) (2023-10-01T15:13:48Z) - Dense Multitask Learning to Reconfigure Comics [63.367664789203936]
漫画パネルの密集予測を実現するために,MultiTask Learning (MTL) モデルを開発した。
本手法は,漫画パネルにおける意味単位と3D概念の同定に有効である。
論文 参考訳(メタデータ) (2023-07-16T15:10:34Z) - Intelligent Grimm -- Open-ended Visual Storytelling via Latent Diffusion
Models [70.86603627188519]
我々は,オープンエンドなビジュアルストーリーテリングとして表現された,与えられたストーリーラインに基づいてコヒーレントな画像列を生成するという,斬新で挑戦的な課題に焦点をあてる。
本稿では,新しい視覚言語コンテキストモジュールを用いた学習に基づく自動回帰画像生成モデル(StoryGen)を提案する。
StoryGenは最適化なしに文字を一般化することができ、一貫性のあるコンテンツと一貫した文字で画像列を生成する。
論文 参考訳(メタデータ) (2023-06-01T17:58:50Z) - AI Illustrator: Translating Raw Descriptions into Images by Prompt-based
Cross-Modal Generation [61.77946020543875]
本稿では,複雑な意味論による生の記述を意味的に対応する画像に翻訳するフレームワークを提案する。
本フレームワークは,テキスト埋め込みから画像埋め込みへのプロンプトに基づくプロジェクションモジュールと,StyleGAN上に構築された適応画像生成モジュールの2つのコンポーネントから構成される。
本手法は,事前学習モデルに適合し,複雑な記述を処理でき,外部のペアデータを必要としない。
論文 参考訳(メタデータ) (2022-09-07T13:53:54Z) - DT2I: Dense Text-to-Image Generation from Region Descriptions [3.883984493622102]
我々は、より直感的な画像生成への道を開くための新しいタスクとして、高密度テキスト・ツー・イメージ(DT2I)合成を導入する。
また,意味豊かな領域記述から画像を生成する新しい手法であるDTC-GANを提案する。
論文 参考訳(メタデータ) (2022-04-05T07:57:11Z) - Automatic Comic Generation with Stylistic Multi-page Layouts and
Emotion-driven Text Balloon Generation [57.10363557465713]
本稿では,人間の介入なしにビデオから漫画を自動生成するシステムを提案する。
サブタイトルとともに入力ビデオが与えられると,まずサブタイトルを解析して情報抽出を行う。
そこで,複数のページにまたがる画像の割り当てが可能な,新しい自動マルチページフレームワークレイアウトを提案する。
論文 参考訳(メタデータ) (2021-01-26T22:15:15Z) - DF-GAN: A Simple and Effective Baseline for Text-to-Image Synthesis [80.54273334640285]
本稿では,異なる生成装置間の絡み合わずに高解像度画像を直接合成する,新しい1段階のテキスト・ツー・イメージバックボーンを提案する。
また,Matching-Aware Gradient Penalty と One-Way Output を組み合わせた新たなターゲット認識識別器を提案する。
現在の最先端手法と比較して,提案するDF-GANはよりシンプルだが,現実的およびテキストマッチング画像の合成には効率的である。
論文 参考訳(メタデータ) (2020-08-13T12:51:17Z) - Text-Guided Neural Image Inpainting [20.551488941041256]
塗装作業では、劣化した画像をコンテキストに整合した内容で埋める必要がある。
本論文の目的は, 提供される記述文に従って, 劣化画像中の意味情報を埋めることである。
テキストガイドデュアルアテンション・インパインティング・ネットワーク(TDANet)という新しいインパインティング・モデルを提案する。
論文 参考訳(メタデータ) (2020-04-07T09:04:43Z) - Structural-analogy from a Single Image Pair [118.61885732829117]
本稿では,1対の画像A,Bのみを用いて,ニューラルネットワークによる画像構造理解能力について検討する。
我々は、B の外観とスタイルを保持するが、A に対応する構造的配置を持つ画像を生成する。
提案手法は,画像AとBのみを利用した条件生成タスクにおいて,高品質な画像を生成するために利用できる。
論文 参考訳(メタデータ) (2020-04-05T14:51:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。