論文の概要: StoryState: Agent-Based State Control for Consistent and Editable Storybooks
- arxiv url: http://arxiv.org/abs/2602.01305v1
- Date: Sun, 01 Feb 2026 16:06:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.70598
- Title: StoryState: Agent-Based State Control for Consistent and Editable Storybooks
- Title(参考訳): StoryState: 一貫性と編集可能なストーリーブックのためのエージェントベースの状態制御
- Authors: Ayushman Sarkar, Zhenyu Yu, Wei Tang, Chu Chen, Kangning Cui, Mohd Yamani Idna Idris,
- Abstract要約: 私たちは、明示的で編集可能なストーリーステートを導入したエージェントベースのオーケストレーション層であるStoryStateを紹介します。
StoryStateは、各ストーリーを、文字シート、グローバル設定、ページ単位のシーン制約からなる構造化されたオブジェクトとして表現する。
StoryStateはモデルに依存しず、さまざまな世代のバックエンドと互換性がある。
- 参考スコア(独自算出の注目度): 6.4611000755192585
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large multimodal models have enabled one-click storybook generation, where users provide a short description and receive a multi-page illustrated story. However, the underlying story state, such as characters, world settings, and page-level objects, remains implicit, making edits coarse-grained and often breaking visual consistency. We present StoryState, an agent-based orchestration layer that introduces an explicit and editable story state on top of training-free text-to-image generation. StoryState represents each story as a structured object composed of a character sheet, global settings, and per-page scene constraints, and employs a small set of LLM agents to maintain this state and derive 1Prompt1Story-style prompts for generation and editing. Operating purely through prompts, StoryState is model-agnostic and compatible with diverse generation backends. System-level experiments on multi-page editing tasks show that StoryState enables localized page edits, improves cross-page consistency, and reduces unintended changes, interaction turns, and editing time compared to 1Prompt1Story, while approaching the one-shot consistency of Gemini Storybook. Code is available at https://github.com/YuZhenyuLindy/StoryState
- Abstract(参考訳): 大規模なマルチモーダルモデルはワンクリックのストーリーブック生成を可能にしており、ユーザーは短い説明を提供し、マルチページのイラスト入りストーリーを受け取ることができる。
しかし、文字や世界設定、ページレベルのオブジェクトといった基本的なストーリー状態は暗黙的なままであり、編集が粗く、しばしば視覚的な一貫性を損なう。
StoryStateは、トレーニング不要のテキスト・ツー・イメージ生成の上に、明示的で編集可能なストーリー状態を導入するエージェントベースのオーケストレーション層です。
StoryStateは、各ストーリーを、文字シート、グローバル設定、ページ単位のシーン制約からなる構造化されたオブジェクトとして表現し、小さなLCMエージェントを使用して、この状態を維持し、1Prompt1Storyスタイルのプロンプトを生成し、編集する。
StoryStateは純粋にプロンプトを通じて動作し、モデルに依存しず、さまざまな世代のバックエンドと互換性がある。
マルチページ編集タスクにおけるシステムレベルの実験は、StoryStateがローカライズされたページ編集を可能にし、ページ間の一貫性を改善し、意図しない変更、インタラクションの切り替え、編集時間を1Prompt1Storyと比較し、Gemini Storybookのワンショット一貫性に迫っていることを示している。
コードはhttps://github.com/YuZhenyuLindy/StoryStateで入手できる。
関連論文リスト
- StoryWriter: A Multi-Agent Framework for Long Story Generation [53.80343104003837]
長いストーリー生成は、既存の大きな言語モデルにとって依然として課題である。
本稿では,3つの主要モジュールから構成されるマルチエージェント・ストーリー生成フレームワークであるStoryWriterを提案する。
StoryWriterは、ストーリーの品質と長さの両方において、既存のストーリー生成ベースラインを大幅に上回る。
論文 参考訳(メタデータ) (2025-06-19T16:26:58Z) - STORYANCHORS: Generating Consistent Multi-Scene Story Frames for Long-Form Narratives [82.19488717416351]
本稿では,高品質でマルチシーンなストーリーフレームを生成するための統合フレームワークであるStoryAnchorsを紹介する。
StoryAnchorsは、時間的一貫性を確保するために、過去と将来の両方のコンテキストを統合する双方向のストーリージェネレータを使用している。
また、マルチイベントストーリーフレームラベリングとプログレッシブストーリーフレームトレーニングを統合し、モデルが包括的な物語の流れとイベントレベルのダイナミクスの両方をキャプチャできるようにする。
論文 参考訳(メタデータ) (2025-05-13T08:48:10Z) - ContextualStory: Consistent Visual Storytelling with Spatially-Enhanced and Storyline Context [50.572907418430155]
ContextualStoryは、コヒーレントなストーリーフレームを生成し、ビジュアルなストーリーテリングのためにフレームを拡張するように設計されたフレームワークである。
ストーリーライン埋め込みにおけるコンテキストを豊かにするストーリーラインコンテクストアライザと、フレーム間のシーン変化を測定するストーリーフローアダプタを導入する。
PororoSVとFlintstonesSVデータセットの実験では、ContextualStoryはストーリーの可視化と継続の両方で既存のSOTAメソッドよりも大幅に優れています。
論文 参考訳(メタデータ) (2024-07-13T05:02:42Z) - StoryImager: A Unified and Efficient Framework for Coherent Story Visualization and Completion [78.1014542102578]
ストーリービジュアライゼーションは、ストーリーラインに基づいて現実的で一貫性のある画像を生成することを目的としている。
現在のモデルは、事前訓練されたテキストから画像へのモデルを自動回帰的な方法で変換することで、フレーム・バイ・フレームアーキテクチャを採用している。
双方向で統一的で効率的なフレームワーク,すなわちStoryImagerを提案する。
論文 参考訳(メタデータ) (2024-04-09T03:22:36Z) - Make-A-Storyboard: A General Framework for Storyboard with Disentangled
and Merged Control [131.1446077627191]
本稿では,映画制作に触発されたストーリーボード(Storyboard)という,ストーリービジュアライゼーションのための新しいプレゼンテーション形式を提案する。
ストーリーボードの各シーンの中で、キャラクターは同じ場所で活動し、視覚的に一貫したシーンとキャラクターの両方を必要とする。
当社の手法は,主流のイメージカスタマイズ手法にシームレスに統合され,ストーリービジュアライゼーションの能力を活用できる。
論文 参考訳(メタデータ) (2023-12-06T12:16:23Z) - Outline to Story: Fine-grained Controllable Story Generation from
Cascaded Events [39.577220559911055]
長文のきめ細かい制御が可能な生成のためのテストベッドとして,"Outline to Story" (O2S) という新しいタスクを提案する。
次に、最新のキーワード抽出技術で構築された将来のベンチマーク用のデータセットを作成します。
論文 参考訳(メタデータ) (2021-01-04T08:16:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。