論文の概要: A Customizable Generator for Comic-Style Visual Narrative
- arxiv url: http://arxiv.org/abs/2401.02863v1
- Date: Thu, 14 Dec 2023 03:46:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-15 09:44:21.707160
- Title: A Customizable Generator for Comic-Style Visual Narrative
- Title(参考訳): コミックスタイルのビジュアルナラティブのためのカスタマイズ可能なジェネレータ
- Authors: Yi-Chun Chen, Arnav Jhala
- Abstract要約: 本稿では,漫画作者のイディオムを取り入れた理論にインスパイアされたビジュアル・ナラティブ・ジェネレータを提案する。
ジェネレータは、パネル構成、オブジェクト位置、パネル遷移、物語要素から階層間のシーケンシャルな意思決定を通じてコミックを生成する。
- 参考スコア(独自算出の注目度): 1.320904960556043
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a theory-inspired visual narrative generator that incorporates
comic-authoring idioms, which transfers the conceptual principles of comics
into system layers that integrate the theories to create comic content. The
generator creates comics through sequential decision-making across layers from
panel composition, object positions, panel transitions, and narrative elements.
Each layer's decisions are based on narrative goals and follow the respective
layer idioms of the medium. Cohn's narrative grammar provides the overall story
arc. Photographic compositions inspired by the rule of thirds is used to
provide panel compositions. McCloud's proposed panel transitions based on focus
shifts between scene, character, and temporal changes are encoded in the
transition layer. Finally, common overlay symbols (such as the exclamation) are
added based on analyzing action verbs using an action-verb ontology. We
demonstrate the variety of generated comics through various settings with
example outputs. The generator and associated modules could be a useful system
for visual narrative authoring and for further research into computational
models of visual narrative understanding.
- Abstract(参考訳): 本稿では,漫画の原理を,理論を融合して漫画コンテンツを作成するシステム層に伝達する,漫画作者のイディオムを取り入れた理論に着想を得たビジュアル・ナラティブ・ジェネレータを提案する。
ジェネレータは、パネル構成、オブジェクト位置、パネル遷移、物語要素から階層間のシーケンシャルな意思決定を通じてコミックを生成する。
それぞれの層の決定は物語の目標に基づいており、媒体の各層イディオムに従う。
コーンの物語文法は物語全体の弧を与える。
3番目の規則に触発された写真組成物は、パネル組成物を提供するために使用される。
McCloudの提案するパネル遷移は、シーン、キャラクタ、時間的変化のフォーカスシフトに基づいて、トランジション層にエンコードされる。
最後に、アクションバーブオントロジーを用いたアクション動詞の分析に基づいて、共通のオーバーレイシンボル(例えば、宣言)を追加する。
様々な設定で生成された漫画の多様性を実例で示す。
ジェネレータと関連するモジュールは、ビジュアルナラティブのオーサリングや、ビジュアルナラティブ理解の計算モデルの研究に有用なシステムとなるかもしれない。
関連論文リスト
- Collaborative Comic Generation: Integrating Visual Narrative Theories with AI Models for Enhanced Creativity [1.1181151748260076]
本研究は,概念的原理-共通オーサリング・イディオムと生成的・言語モデルを統合し,漫画作成プロセスを強化する理論に着想を得たビジュアル・ナラティブ・ジェネレーションシステムを提案する。
主な貢献は、機械学習モデルを人間-AI協調コミック生成プロセスに統合すること、抽象的な物語理論をAI駆動コミック作成に展開すること、物語駆動画像シーケンスのカスタマイズ可能なツールである。
論文 参考訳(メタデータ) (2024-09-25T18:21:01Z) - One missing piece in Vision and Language: A Survey on Comics Understanding [13.766672321462435]
この調査は、コミックインテリジェンスのためのタスク指向フレームワークを提案する最初のものである。
データ可用性とタスク定義における重要なギャップに対処することで、将来の研究を導くことを目的としている。
論文 参考訳(メタデータ) (2024-09-14T18:26:26Z) - Imagining from Images with an AI Storytelling Tool [0.27309692684728604]
提案手法は,GPT-4oの視覚的コンテンツを解釈し,エンゲージメントなストーリーを作成するためのマルチモーダル機能について検討する。
この方法はImageTellerと呼ばれる完全に実装されたツールでサポートされており、様々なソースからのイメージを入力として受け入れる。
論文 参考訳(メタデータ) (2024-08-21T10:49:15Z) - StoryDiffusion: Consistent Self-Attention for Long-Range Image and Video Generation [117.13475564834458]
本稿では,一貫性自己注意という新たな自己注意計算手法を提案する。
提案手法を長距離ビデオ生成に拡張するために,新しい意味空間時間運動予測モジュールを導入する。
これら2つの新しいコンポーネントを統合することで、StoryDiffusionと呼ばれるフレームワークは、一貫した画像やビデオでテキストベースのストーリーを記述することができます。
論文 参考訳(メタデータ) (2024-05-02T16:25:16Z) - Dynamic Typography: Bringing Text to Life via Video Diffusion Prior [73.72522617586593]
動的タイポグラフィー(Dynamic Typography)と呼ばれる自動テキストアニメーション方式を提案する。
意味的意味を伝えるために文字を変形させ、ユーザプロンプトに基づいて活気ある動きを注入する。
本手法は,ベクトルグラフィックス表現とエンドツーエンド最適化に基づくフレームワークを利用する。
論文 参考訳(メタデータ) (2024-04-17T17:59:55Z) - CPST: Comprehension-Preserving Style Transfer for Multi-Modal Narratives [1.320904960556043]
漫画や漫画などの静的な視覚的物語の中で、提示の面では異なる視覚的スタイルが存在する。
テキスト要素とメディア要素の両方のレイアウトは、物語コミュニケーションにおいても重要である。
このようなマルチモーダルドメインにおける理解保存スタイル転送(CPST)の概念を導入する。
論文 参考訳(メタデータ) (2023-12-14T07:26:18Z) - Make-A-Storyboard: A General Framework for Storyboard with Disentangled
and Merged Control [131.1446077627191]
本稿では,映画制作に触発されたストーリーボード(Storyboard)という,ストーリービジュアライゼーションのための新しいプレゼンテーション形式を提案する。
ストーリーボードの各シーンの中で、キャラクターは同じ場所で活動し、視覚的に一貫したシーンとキャラクターの両方を必要とする。
当社の手法は,主流のイメージカスタマイズ手法にシームレスに統合され,ストーリービジュアライゼーションの能力を活用できる。
論文 参考訳(メタデータ) (2023-12-06T12:16:23Z) - TextPSG: Panoptic Scene Graph Generation from Textual Descriptions [78.1140391134517]
我々は、純文記述(Caption-to-PSG)によるパノプティカルシーングラフ生成の新たな課題について検討する。
鍵となるアイデアは、Web上の大量の無料画像キャプチャーデータを活用して、パノラマシーングラフを生成することである。
本研究では,4つのモジュール,すなわちリージョングルーパー,エンティティグルーパー,セグメントマージ,ラベルジェネレータからなる新しいフレームワークであるTextPSGを提案する。
論文 参考訳(メタデータ) (2023-10-10T22:36:15Z) - Visual Storytelling with Question-Answer Plans [70.89011289754863]
本稿では、事前訓練された言語モデルと計画に視覚表現を統合する新しいフレームワークを提案する。
我々のモデルは、画像列を視覚的な接頭辞、つまり言語モデルで解釈できる連続的な埋め込みの列に変換する。
また、一連の質問と回答のペアを青写真プランとして利用して、健全な視覚概念を選択し、物語にどのように組み立てるべきかを決定する。
論文 参考訳(メタデータ) (2023-10-08T21:45:34Z) - Integrating Visuospatial, Linguistic and Commonsense Structure into
Story Visualization [81.26077816854449]
まず、構造的入力を符号化するための選挙区解析木の利用について検討する。
第二に、構造化されたインプットをコモンセンス情報で強化し、この外部知識が視覚的ストーリーの生成に与える影響について検討する。
第3に、境界ボックスと高密度キャプションによって視覚構造を組み込んで、生成された画像の文字やオブジェクトに関するフィードバックを提供する。
論文 参考訳(メタデータ) (2021-10-21T00:16:02Z) - ComicGAN: Text-to-Comic Generative Adversarial Network [1.4824891788575418]
テキスト記述に基づいて漫画を合成する新しいテキスト・ツー・イメージGANであるComicGANを実装した。
我々は,提案するComicGANについて,記述からの画像生成と対話からの画像生成という2つのシナリオで広く評価する。
論文 参考訳(メタデータ) (2021-09-19T13:31:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。