論文の概要: DreamingComics: A Story Visualization Pipeline via Subject and Layout Customized Generation using Video Models
- arxiv url: http://arxiv.org/abs/2512.01686v1
- Date: Mon, 01 Dec 2025 13:51:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.880075
- Title: DreamingComics: A Story Visualization Pipeline via Subject and Layout Customized Generation using Video Models
- Title(参考訳): DreamingComics:ビデオモデルを用いた主題とレイアウトのカスタマイズ生成によるストーリー可視化パイプライン
- Authors: Patrick Kwon, Chen Chen,
- Abstract要約: Dreamingsはレイアウト対応のストーリービジュアライゼーションフレームワークである。
文字の一貫性は29.2%向上し,スタイルの類似性も36.2%向上した。
- 参考スコア(独自算出の注目度): 6.1625435030904745
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current story visualization methods tend to position subjects solely by text and face challenges in maintaining artistic consistency. To address these limitations, we introduce DreamingComics, a layout-aware story visualization framework. We build upon a pretrained video diffusion-transformer (DiT) model, leveraging its spatiotemporal priors to enhance identity and style consistency. For layout-based position control, we propose RegionalRoPE, a region-aware positional encoding scheme that re-indexes embeddings based on the target layout. Additionally, we introduce a masked condition loss to further constrain each subject's visual features to their designated region. To infer layouts from natural language scripts, we integrate an LLM-based layout generator trained to produce comic-style layouts, enabling flexible and controllable layout conditioning. We present a comprehensive evaluation of our approach, showing a 29.2% increase in character consistency and a 36.2% increase in style similarity compared to previous methods, while displaying high spatial accuracy. Our project page is available at https://yj7082126.github.io/dreamingcomics/
- Abstract(参考訳): 現在のストーリービジュアライゼーション手法では、対象をテキストのみで配置する傾向があり、芸術的一貫性を維持する上での課題に直面している。
これらの制限に対処するため、レイアウト対応のストーリー視覚化フレームワークであるDreamingComicsを紹介します。
事前訓練されたビデオ拡散変換器(DiT)モデルを構築し,その時空間的事前性を活用し,アイデンティティとスタイルの整合性を高める。
レイアウトに基づく位置制御のために,対象レイアウトに基づいて埋め込みをインデクシングする地域対応位置符号化方式であるRegionalRoPEを提案する。
さらに,各被験者の視覚的特徴を指定領域に制限するために,マスク付き条件損失を導入する。
自然言語スクリプトからレイアウトを推論するために,コミックスタイルのレイアウトを生成するために訓練されたLLMベースのレイアウト生成器を統合し,柔軟かつ制御可能なレイアウト条件付けを可能にする。
提案手法は,従来の手法に比べて29.2%の文字整合性,36.2%のスタイル類似性を示すとともに,空間的精度も高い。
私たちのプロジェクトページはhttps://yj7082126.github.io/dreamingcomics/で公開されています。
関連論文リスト
- LayoutAgent: A Vision-Language Agent Guided Compositional Diffusion for Spatial Layout Planning [18.207887244259897]
現実的な多目的シーンを設計するには、意味的関係と物理的妥当性を尊重する空間的レイアウトを計画する必要がある。
レイアウト生成のための構成拡散を伴う視覚言語推論を統一するエージェントフレームワークであるLayoutAgentを提案する。
提案手法はまず視覚言語モデルを用いて,セグメント化,オブジェクトサイズ推定,シーングラフ構築,即時書き換えによる入力の事前処理を行う。
最後に、前景条件の画像生成装置は、設計されたプロンプトで案内された計画されたレイアウトにオブジェクトをレンダリングすることで、完全なシーンを構成する。
論文 参考訳(メタデータ) (2025-09-24T20:41:04Z) - A Parse-Then-Place Approach for Generating Graphic Layouts from Textual
Descriptions [50.469491454128246]
我々は、図形レイアウト、すなわちテキストからラベルへのレイアウトを作成するためのガイダンスとしてテキストを使用し、設計障壁を低くすることを目的としています。
テキストからラベルへの変換は、テキストからの暗黙的、複合的、不完全な制約を考慮する必要があるため、難しい作業である。
この問題に対処するための2段階のアプローチとして,パース・セイン・プレース(parse-then-place)を提案する。
論文 参考訳(メタデータ) (2023-08-24T10:37:00Z) - LayoutGPT: Compositional Visual Planning and Generation with Large
Language Models [98.81962282674151]
大規模言語モデル(LLM)は、テキスト条件からレイアウトを生成することで視覚的なプランナーとして機能する。
本稿では,スタイルシート言語におけるコンテキスト内視覚的デモンストレーションを構成する手法であるLayoutGPTを提案する。
論文 参考訳(メタデータ) (2023-05-24T17:56:16Z) - PosterLayout: A New Benchmark and Approach for Content-aware
Visual-Textual Presentation Layout [62.12447593298437]
コンテンツ対応視覚テキスト提示レイアウトは,所定のキャンバス上の空間空間を予め定義された要素にアレンジすることを目的としている。
本稿では,設計過程を模倣するためにレイアウトの要素を再編成する設計シーケンス形成(DSF)を提案する。
CNN-LSTMに基づく新しい条件生成対向ネットワーク(GAN)を提示し、適切なレイアウトを生成する。
論文 参考訳(メタデータ) (2023-03-28T12:48:36Z) - LayoutDETR: Detection Transformer Is a Good Multimodal Layout Designer [80.61492265221817]
グラフィックレイアウトデザインは視覚コミュニケーションにおいて重要な役割を担っている。
しかし、手作りのレイアウトデザインは、スキルを要求し、時間がかかり、バッチプロダクションではスケールできない。
ジェネレーティブモデルは、設計自動化をスケーラブルにするために出現するが、デザイナの欲求に沿うデザインを作成することは、未だに容易ではない。
論文 参考訳(メタデータ) (2022-12-19T21:57:35Z) - LayoutTransformer: Layout Generation and Completion with Self-attention [105.21138914859804]
画像やモバイルアプリケーション,ドキュメント,3Dオブジェクトなど,さまざまな領域におけるシーンレイアウト生成の問題に対処する。
レイアウト要素間のコンテキスト的関係を学習するために,自己意識を活用する新しいフレームワークであるLayoutTransformerを提案する。
私たちのフレームワークでは、空のセットから、あるいはプリミティブの最初のシードセットから、新しいレイアウトを生成することができ、レイアウト毎に任意のプリミティブをサポートするために簡単にスケールすることができます。
論文 参考訳(メタデータ) (2020-06-25T17:56:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。