論文の概要: Story2Board: A Training-Free Approach for Expressive Storyboard Generation
- arxiv url: http://arxiv.org/abs/2508.09983v1
- Date: Wed, 13 Aug 2025 17:56:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 20:42:00.989917
- Title: Story2Board: A Training-Free Approach for Expressive Storyboard Generation
- Title(参考訳): Story2Board: 表現力のあるストーリーボード生成のためのトレーニング不要のアプローチ
- Authors: David Dinkevich, Matan Levy, Omri Avrahami, Dvir Samuel, Dani Lischinski,
- Abstract要約: Story2Boardは、自然言語から表現力のあるストーリーボードを生成するためのトレーニング不要のフレームワークである。
これを解決するために、Latent Panel AnchoringとReciprocal Attention Value Mixingという2つのコンポーネントからなる軽量な一貫性フレームワークを導入しました。
質的で定量的な結果とユーザスタディは、Story2Boardが既存のベースラインよりもダイナミックで一貫性があり、物語的に魅力的なストーリーボードを生み出していることを示している。
- 参考スコア(独自算出の注目度): 22.951592048825763
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Story2Board, a training-free framework for expressive storyboard generation from natural language. Existing methods narrowly focus on subject identity, overlooking key aspects of visual storytelling such as spatial composition, background evolution, and narrative pacing. To address this, we introduce a lightweight consistency framework composed of two components: Latent Panel Anchoring, which preserves a shared character reference across panels, and Reciprocal Attention Value Mixing, which softly blends visual features between token pairs with strong reciprocal attention. Together, these mechanisms enhance coherence without architectural changes or fine-tuning, enabling state-of-the-art diffusion models to generate visually diverse yet consistent storyboards. To structure generation, we use an off-the-shelf language model to convert free-form stories into grounded panel-level prompts. To evaluate, we propose the Rich Storyboard Benchmark, a suite of open-domain narratives designed to assess layout diversity and background-grounded storytelling, in addition to consistency. We also introduce a new Scene Diversity metric that quantifies spatial and pose variation across storyboards. Our qualitative and quantitative results, as well as a user study, show that Story2Board produces more dynamic, coherent, and narratively engaging storyboards than existing baselines.
- Abstract(参考訳): Story2Boardは、自然言語から表現力のあるストーリーボードを生成するためのトレーニング不要のフレームワークである。
既存の手法は、空間的構成、背景の進化、物語のペーシングといった視覚的ストーリーテリングの重要な側面を見越して、主題のアイデンティティに焦点を絞っている。
これを解決するために,パネル間の共通文字参照を保持するLatent Panel Anchoringと,トークンペア間の視覚的特徴と強い相互注意をソフトにブレンドするReciprocal Attention Value Mixingという,2つのコンポーネントからなる軽量な一貫性フレームワークを導入する。
これらのメカニズムは、アーキテクチャの変更や微調整なしにコヒーレンスを高め、最先端の拡散モデルによって視覚的に多様だが一貫したストーリーボードを生成する。
生成を構造化するために、既製の言語モデルを用いて、自由形式の物語を接地パネルレベルのプロンプトに変換する。
整合性に加えて,レイアウトの多様性と背景のストーリーテリングを評価するために設計された,オープンドメインの物語集であるRich Storyboard Benchmarkを提案する。
また、ストーリーボード間の空間的およびポーズ的変動を定量化する新しいシーン多様性指標も導入する。
質的で定量的な結果とユーザスタディは、Story2Boardが既存のベースラインよりもダイナミックで一貫性があり、物語的に魅力的なストーリーボードを生み出していることを示している。
関連論文リスト
- ViStoryBench: Comprehensive Benchmark Suite for Story Visualization [23.274981415638837]
ViStoryBenchは、さまざまな物語構造、視覚スタイル、キャラクター設定にわたるストーリービジュアライゼーションモデルを評価するために設計された包括的なベンチマークである。
ベンチマークでは、文学、映画、民俗学にまたがるキュレートされたストーリーから派生した、豊富な注釈付きマルチショットスクリプトが特徴である。
徹底的な評価を可能にするために、ViStoryBenchは、文字の一貫性、スタイルの類似性、迅速な順守、美的品質、生成アーティファクトを評価する一連の自動メトリクスを導入した。
論文 参考訳(メタデータ) (2025-05-30T17:58:21Z) - STORYANCHORS: Generating Consistent Multi-Scene Story Frames for Long-Form Narratives [82.19488717416351]
本稿では,高品質でマルチシーンなストーリーフレームを生成するための統合フレームワークであるStoryAnchorsを紹介する。
StoryAnchorsは、時間的一貫性を確保するために、過去と将来の両方のコンテキストを統合する双方向のストーリージェネレータを使用している。
また、マルチイベントストーリーフレームラベリングとプログレッシブストーリーフレームトレーニングを統合し、モデルが包括的な物語の流れとイベントレベルのダイナミクスの両方をキャプチャできるようにする。
論文 参考訳(メタデータ) (2025-05-13T08:48:10Z) - Structured Graph Representations for Visual Narrative Reasoning: A Hierarchical Framework for Comics [1.320904960556043]
本稿では,漫画に焦点をあて,視覚的物語の構造的理解のための階層的知識グラフフレームワークを提案する。
それは、意味的、空間的、時間的関係をキャプチャする統合知識グラフを通してそれらを表現する。
パネルレベルでは、文字、オブジェクト、アクションなどの視覚要素と、対話やキャプションを含む対応するテキストコンポーネントをリンクするマルチモーダルグラフを構築する。
論文 参考訳(メタデータ) (2025-04-14T14:42:19Z) - TARN-VIST: Topic Aware Reinforcement Network for Visual Storytelling [14.15543866199545]
クロスモーダルなタスクとして、視覚的なストーリーテリングは、順序付けられた画像シーケンスのためのストーリーを自動的に生成することを目的としている。
視覚的ストーリーテリングのための新しい手法,Topic Aware Reinforcement Network(TARN-VIST)を提案する。
特に,視覚的,言語的両面から,物語の話題情報を事前に抽出した。
論文 参考訳(メタデータ) (2024-03-18T08:01:23Z) - Make-A-Storyboard: A General Framework for Storyboard with Disentangled
and Merged Control [131.1446077627191]
本稿では,映画制作に触発されたストーリーボード(Storyboard)という,ストーリービジュアライゼーションのための新しいプレゼンテーション形式を提案する。
ストーリーボードの各シーンの中で、キャラクターは同じ場所で活動し、視覚的に一貫したシーンとキャラクターの両方を必要とする。
当社の手法は,主流のイメージカスタマイズ手法にシームレスに統合され,ストーリービジュアライゼーションの能力を活用できる。
論文 参考訳(メタデータ) (2023-12-06T12:16:23Z) - TaleCrafter: Interactive Story Visualization with Multiple Characters [49.14122401339003]
本稿では,ジェネリック・インタラクティブ・ストーリー・ビジュアライゼーションシステムを提案する。
複数の新しい文字を扱うことができ、レイアウトと局所構造の編集をサポートする。
システムは、ストーリー・ツー・プロンプト・ジェネレーション(S2P)、テキスト・ツー・ジェネレーション(T2L)、制御可能なテキスト・ツー・イメージ・ジェネレーション(C-T2I)、画像・トゥ・ビデオ・アニメーション(I2V)の4つの相互接続コンポーネントからなる。
論文 参考訳(メタデータ) (2023-05-29T17:11:39Z) - Make-A-Story: Visual Memory Conditioned Consistent Story Generation [57.691064030235985]
本稿では,アクタと背景コンテキストを暗黙的にキャプチャするビジュアルメモリモジュールを備えた,自己回帰拡散に基づく新しいフレームワークを提案する。
本手法は,視覚的品質の高いフレーム生成において,先行技術よりも優れていた。
MUGEN, PororoSV, FlintstonesSVデータセット上でのストーリー生成実験により, この手法は, 視覚的品質の高いフレーム生成において, 先行技術よりも優れるだけでなく, キャラクタと背景との適切な対応をモデル化した。
論文 参考訳(メタデータ) (2022-11-23T21:38:51Z) - Integrating Visuospatial, Linguistic and Commonsense Structure into
Story Visualization [81.26077816854449]
まず、構造的入力を符号化するための選挙区解析木の利用について検討する。
第二に、構造化されたインプットをコモンセンス情報で強化し、この外部知識が視覚的ストーリーの生成に与える影響について検討する。
第3に、境界ボックスと高密度キャプションによって視覚構造を組み込んで、生成された画像の文字やオブジェクトに関するフィードバックを提供する。
論文 参考訳(メタデータ) (2021-10-21T00:16:02Z) - PlotThread: Creating Expressive Storyline Visualizations using
Reinforcement Learning [27.129882090324422]
本稿では,デザイン空間を効率的に探索し,最適なストーリーラインを生成するAIエージェントを訓練するための強化学習フレームワークを提案する。
このフレームワークをベースとしたPlotThreadは、フレキシブルなインタラクションのセットを統合し、ストーリーラインの視覚化を簡単にカスタマイズできるオーサリングツールである。
論文 参考訳(メタデータ) (2020-09-01T06:01:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。