論文の概要: Automatic Comic Generation with Stylistic Multi-page Layouts and
Emotion-driven Text Balloon Generation
- arxiv url: http://arxiv.org/abs/2101.11111v1
- Date: Tue, 26 Jan 2021 22:15:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-13 19:50:14.221752
- Title: Automatic Comic Generation with Stylistic Multi-page Layouts and
Emotion-driven Text Balloon Generation
- Title(参考訳): スティリスティックなマルチページレイアウトと感情駆動テキストバルーン生成による自動コミック生成
- Authors: Xin Yang, Zongliang Ma, Letian Yu, Ying Cao, Baocai Yin, Xiaopeng Wei,
Qiang Zhang, Rynson W.H. Lau
- Abstract要約: 本稿では,人間の介入なしにビデオから漫画を自動生成するシステムを提案する。
サブタイトルとともに入力ビデオが与えられると,まずサブタイトルを解析して情報抽出を行う。
そこで,複数のページにまたがる画像の割り当てが可能な,新しい自動マルチページフレームワークレイアウトを提案する。
- 参考スコア(独自算出の注目度): 57.10363557465713
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a fully automatic system for generating comic books
from videos without any human intervention. Given an input video along with its
subtitles, our approach first extracts informative keyframes by analyzing the
subtitles, and stylizes keyframes into comic-style images. Then, we propose a
novel automatic multi-page layout framework, which can allocate the images
across multiple pages and synthesize visually interesting layouts based on the
rich semantics of the images (e.g., importance and inter-image relation).
Finally, as opposed to using the same type of balloon as in previous works, we
propose an emotion-aware balloon generation method to create different types of
word balloons by analyzing the emotion of subtitles and audios. Our method is
able to vary balloon shapes and word sizes in balloons in response to different
emotions, leading to more enriched reading experience. Once the balloons are
generated, they are placed adjacent to their corresponding speakers via speaker
detection. Our results show that our method, without requiring any user inputs,
can generate high-quality comic pages with visually rich layouts and balloons.
Our user studies also demonstrate that users prefer our generated results over
those by state-of-the-art comic generation systems.
- Abstract(参考訳): 本稿では,人間の介入なしに動画から漫画本を自動生成するシステムを提案する。
字幕とともに入力ビデオが与えられると、まず字幕を分析して情報的なキーフレームを抽出し、キーフレームをコミック風の画像にスタイライゼーションする。
そこで我々は,複数のページにまたがって画像を割り当て,画像のリッチなセマンティクス(重要度と画像間関係)に基づいて視覚的に興味深いレイアウトを合成する,新しい多ページレイアウトフレームワークを提案する。
最後に,前作と同じタイプのバルーンを使用するのではなく,字幕や音声の感情を分析して,異なる種類の単語バルーンを生成する感情認識バルーン生成手法を提案する。
本手法は,異なる感情に反応してバルーン形状や単語サイズを変化させることができ,読書体験がより豊かになる。
気球が生成されると、スピーカー検出によって対応するスピーカーに隣接して配置される。
その結果,本手法はユーザ入力を必要とせず,視覚的にリッチなレイアウトとバルーンで高品質な漫画ページを生成できることが示された。
また,本研究では,現状の漫画生成システムよりも,ユーザが生成した結果の方が好ましいことを示す。
関連論文リスト
- Conditional Text-to-Image Generation with Reference Guidance [81.99538302576302]
本稿では,拡散モデルを生成するために,特定の対象の視覚的ガイダンスを提供する画像の追加条件を用いて検討する。
我々は、異なる参照を取る能力を持つ安定拡散モデルを効率的に支持する、小規模のエキスパートプラグインを複数開発する。
専門的なプラグインは、すべてのタスクにおいて既存のメソッドよりも優れた結果を示し、それぞれ28.55Mのトレーニング可能なパラメータしか含まない。
論文 参考訳(メタデータ) (2024-11-22T21:38:51Z) - Imagining from Images with an AI Storytelling Tool [0.27309692684728604]
提案手法は,GPT-4oの視覚的コンテンツを解釈し,エンゲージメントなストーリーを作成するためのマルチモーダル機能について検討する。
この方法はImageTellerと呼ばれる完全に実装されたツールでサポートされており、様々なソースからのイメージを入力として受け入れる。
論文 参考訳(メタデータ) (2024-08-21T10:49:15Z) - Toward accessible comics for blind and low vision readers [0.059584784039407875]
我々は,既存のコンピュータビジョンと光学的文字認識技術を用いて,漫画のストリップ画像コンテンツから接地コンテキストを構築することを提案する。
我々は,文字の出現,姿勢,気分,対話など,文脈対応のパネル記述による漫画の脚本を生成する。
論文 参考訳(メタデータ) (2024-07-11T07:50:25Z) - MagicScroll: Nontypical Aspect-Ratio Image Generation for Visual
Storytelling via Multi-Layered Semantic-Aware Denoising [42.20750912837316]
MagicScrollはプログレッシブ拡散に基づく画像生成フレームワークであり、新しいセマンティック・アウェア・デノナイジング・プロセスを備えている。
オブジェクト、シーン、背景のレベルで生成された画像を、テキスト、画像、レイアウト条件できめ細かく制御できる。
物語のテキストの整合性、視覚的コヒーレンスの改善、オーディエンスへのエンゲージメントなど、有望な成果が紹介されている。
論文 参考訳(メタデータ) (2023-12-18T03:09:05Z) - Comics for Everyone: Generating Accessible Text Descriptions for Comic
Strips [0.0]
我々は、視覚障害者のコミュニティにアクセス可能なコミックストリップの自然言語記述を作成します。
まず、コンピュータビジョン技術を用いて、コミック画像のパネル、文字、テキストに関する情報を抽出する。
我々は,人間の専門家が注釈付けした漫画のコレクション上で本手法を試行し,定量的および定性的な指標を用いてその性能を計測する。
論文 参考訳(メタデータ) (2023-10-01T15:13:48Z) - MovieFactory: Automatic Movie Creation from Text using Large Generative
Models for Language and Images [92.13079696503803]
映画制作のためのフレームワークであるMovieFactory(3072$times$1280)、映画スタイル(マルチシーン)、マルチモーダル(サウンド)映画について紹介する。
本手法は,簡単なテキスト入力を用いて,スムーズなトランジションでキャプティベーション映画を制作することを可能にする。
論文 参考訳(メタデータ) (2023-06-12T17:31:23Z) - Unified Multi-Modal Latent Diffusion for Joint Subject and Text
Conditional Image Generation [63.061871048769596]
本稿では, 特定対象を含む画像と共同テキストを入力シーケンスとして用いた, Unified Multi-Modal Latent Diffusion (UMM-Diffusion) を提案する。
より具体的には、入力テキストと画像の両方を1つの統一マルチモーダル潜在空間に符号化する。
入力テキストと画像の両面から複雑な意味を持つ高品質な画像を生成することができる。
論文 参考訳(メタデータ) (2023-03-16T13:50:20Z) - SpaText: Spatio-Textual Representation for Controllable Image Generation [61.89548017729586]
SpaTextはオープン語彙シーン制御を用いたテキスト・ツー・イメージ生成の新しい手法である。
シーン全体を記述したグローバルテキストプロンプトに加えて、ユーザはセグメンテーションマップを提供する。
現状拡散モデルである画素ベースと潜在条件ベースでの有効性を示す。
論文 参考訳(メタデータ) (2022-11-25T18:59:10Z) - VScript: Controllable Script Generation with Audio-Visual Presentation [56.17400243061659]
VScriptは、対話やシーン記述を含む完全なスクリプトを生成するコントロール可能なパイプラインである。
我々は階層構造を採用し、プロットを生成し、次にスクリプトとその音声視覚提示を行う。
実験の結果,本手法は,自動評価と人的評価の両方において,ベースラインよりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-03-01T09:43:02Z) - Similar Scenes arouse Similar Emotions: Parallel Data Augmentation for
Stylized Image Captioning [3.0415487485299373]
スティル化画像キャプションシステムは、所定のスタイル記述と整合したキャプションを生成することを目的としている。
多くの研究は、データ拡張の観点から考慮することなく、教師なしのアプローチに焦点を当てている。
本稿では,小型の文からスタイル句を抽出する抽出検索生成データ拡張フレームワークを提案する。
論文 参考訳(メタデータ) (2021-08-26T17:08:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。