論文の概要: MagicScroll: Nontypical Aspect-Ratio Image Generation for Visual
Storytelling via Multi-Layered Semantic-Aware Denoising
- arxiv url: http://arxiv.org/abs/2312.10899v1
- Date: Mon, 18 Dec 2023 03:09:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-20 21:41:30.004554
- Title: MagicScroll: Nontypical Aspect-Ratio Image Generation for Visual
Storytelling via Multi-Layered Semantic-Aware Denoising
- Title(参考訳): MagicScroll:多層セマンティック認識によるビジュアルストーリーテリングのための非定型アスペクト比画像生成
- Authors: Bingyuan Wang, Hengyu Meng, Zeyu Cai, Lanjiong Li, Yue Ma, Qifeng
Chen, Zeyu Wang
- Abstract要約: MagicScrollはプログレッシブ拡散に基づく画像生成フレームワークであり、新しいセマンティック・アウェア・デノナイジング・プロセスを備えている。
オブジェクト、シーン、背景のレベルで生成された画像を、テキスト、画像、レイアウト条件できめ細かく制御できる。
物語のテキストの整合性、視覚的コヒーレンスの改善、オーディエンスへのエンゲージメントなど、有望な成果が紹介されている。
- 参考スコア(独自算出の注目度): 42.20750912837316
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual storytelling often uses nontypical aspect-ratio images like scroll
paintings, comic strips, and panoramas to create an expressive and compelling
narrative. While generative AI has achieved great success and shown the
potential to reshape the creative industry, it remains a challenge to generate
coherent and engaging content with arbitrary size and controllable style,
concept, and layout, all of which are essential for visual storytelling. To
overcome the shortcomings of previous methods including repetitive content,
style inconsistency, and lack of controllability, we propose MagicScroll, a
multi-layered, progressive diffusion-based image generation framework with a
novel semantic-aware denoising process. The model enables fine-grained control
over the generated image on object, scene, and background levels with text,
image, and layout conditions. We also establish the first benchmark for
nontypical aspect-ratio image generation for visual storytelling including
mediums like paintings, comics, and cinematic panoramas, with customized
metrics for systematic evaluation. Through comparative and ablation studies,
MagicScroll showcases promising results in aligning with the narrative text,
improving visual coherence, and engaging the audience. We plan to release the
code and benchmark in the hope of a better collaboration between AI researchers
and creative practitioners involving visual storytelling.
- Abstract(参考訳): ビジュアルなストーリーテリングは、スクロール絵画、コミックストリップ、パノラマのような非典型的なアスペクト比のイメージを使って表現的で魅力的な物語を作成する。
生成AIは大きな成功を収め、クリエイティブ産業を再形成する可能性を示しているが、任意のサイズとコントロール可能なスタイル、コンセプト、レイアウトを備えた一貫性とエンゲージメントのあるコンテンツを生成することは、視覚的なストーリーテリングに不可欠な課題である。
繰り返しコンテンツやスタイルの不整合,制御性の欠如など,従来の手法の欠点を克服するために,新しい意味認識記述プロセスを備えた多層・プログレッシブ拡散ベース画像生成フレームワークMagicScrollを提案する。
このモデルは、オブジェクト、シーン、背景レベルの生成された画像をテキスト、画像、レイアウト条件できめ細かい制御を可能にする。
また,絵,漫画,映画パノラマなどを含むビジュアルストーリーテリングのための非定型的なアスペクト比画像生成のための最初のベンチマークを,体系的評価のためにカスタマイズしたメトリクスで確立した。
比較とアブレーションの研究を通じて、MagicScrollは物語のテキストと整合し、視覚的コヒーレンスを改善し、観客を惹きつけるという有望な結果を示した。
私たちは、ビジュアルストーリーテリングに関わるai研究者と創造的な実践者とのコラボレーションを改善するために、コードとベンチマークをリリースする予定です。
関連論文リスト
- Imagining from Images with an AI Storytelling Tool [0.27309692684728604]
提案手法は,GPT-4oの視覚的コンテンツを解釈し,エンゲージメントなストーリーを作成するためのマルチモーダル機能について検討する。
この方法はImageTellerと呼ばれる完全に実装されたツールでサポートされており、様々なソースからのイメージを入力として受け入れる。
論文 参考訳(メタデータ) (2024-08-21T10:49:15Z) - TARN-VIST: Topic Aware Reinforcement Network for Visual Storytelling [14.15543866199545]
クロスモーダルなタスクとして、視覚的なストーリーテリングは、順序付けられた画像シーケンスのためのストーリーを自動的に生成することを目的としている。
視覚的ストーリーテリングのための新しい手法,Topic Aware Reinforcement Network(TARN-VIST)を提案する。
特に,視覚的,言語的両面から,物語の話題情報を事前に抽出した。
論文 参考訳(メタデータ) (2024-03-18T08:01:23Z) - AutoStory: Generating Diverse Storytelling Images with Minimal Human
Effort [55.83007338095763]
本稿では,多種多様で高品質で一貫したストーリーイメージを効果的に生成できる自動ストーリー可視化システムを提案する。
本研究では,大規模言語モデルの理解と計画能力をレイアウト計画に利用し,大規模テキスト・画像モデルを用いて高度なストーリー画像を生成する。
論文 参考訳(メタデータ) (2023-11-19T06:07:37Z) - Visual Storytelling with Question-Answer Plans [70.89011289754863]
本稿では、事前訓練された言語モデルと計画に視覚表現を統合する新しいフレームワークを提案する。
我々のモデルは、画像列を視覚的な接頭辞、つまり言語モデルで解釈できる連続的な埋め込みの列に変換する。
また、一連の質問と回答のペアを青写真プランとして利用して、健全な視覚概念を選択し、物語にどのように組み立てるべきかを決定する。
論文 参考訳(メタデータ) (2023-10-08T21:45:34Z) - Intelligent Grimm -- Open-ended Visual Storytelling via Latent Diffusion
Models [70.86603627188519]
我々は,オープンエンドなビジュアルストーリーテリングとして表現された,与えられたストーリーラインに基づいてコヒーレントな画像列を生成するという,斬新で挑戦的な課題に焦点をあてる。
本稿では,新しい視覚言語コンテキストモジュールを用いた学習に基づく自動回帰画像生成モデル(StoryGen)を提案する。
StoryGenは最適化なしに文字を一般化することができ、一貫性のあるコンテンツと一貫した文字で画像列を生成する。
論文 参考訳(メタデータ) (2023-06-01T17:58:50Z) - Make-A-Story: Visual Memory Conditioned Consistent Story Generation [57.691064030235985]
本稿では,アクタと背景コンテキストを暗黙的にキャプチャするビジュアルメモリモジュールを備えた,自己回帰拡散に基づく新しいフレームワークを提案する。
本手法は,視覚的品質の高いフレーム生成において,先行技術よりも優れていた。
MUGEN, PororoSV, FlintstonesSVデータセット上でのストーリー生成実験により, この手法は, 視覚的品質の高いフレーム生成において, 先行技術よりも優れるだけでなく, キャラクタと背景との適切な対応をモデル化した。
論文 参考訳(メタデータ) (2022-11-23T21:38:51Z) - Improving Generation and Evaluation of Visual Stories via Semantic
Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。
それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。
従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文 参考訳(メタデータ) (2021-05-20T20:42:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。