論文の概要: LogiStory: A Logic-Aware Framework for Multi-Image Story Visualization
- arxiv url: http://arxiv.org/abs/2603.28082v1
- Date: Mon, 30 Mar 2026 06:37:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.261153
- Title: LogiStory: A Logic-Aware Framework for Multi-Image Story Visualization
- Title(参考訳): LogiStory:マルチイメージストーリー可視化のためのロジック対応フレームワーク
- Authors: Chutian Meng, Fan Ma, Chi Zhang, Jiaxu Miao, Yi Yang, Yueting Zhuang,
- Abstract要約: 論理を意識したマルチイメージストーリー可視化フレームワークLogiStoryを提案する。
このフレームワークは、ストーリービジュアライゼーションにおけるビジュアルロジックを明示的にモデル化する中心的なイノベーションに基づいて構築されている。
この研究は、一般的な画像シーケンスおよびビデオ生成タスクにおける視覚ロジックのモデリングと強化に向けた基礎的なステップを提供する。
- 参考スコア(独自算出の注目度): 59.35938978648807
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generating coherent and communicative visual sequences, such as image sequences and videos, remains a significant challenge for current multimodal systems. Despite advances in visual quality and the integration of world knowledge, existing models still struggle to maintain logical flow, often resulting in disjointed actions, fragmented narratives, and unclear storylines. We attribute these issues to the lack of attention to visual logic, a critical yet underexplored dimension of visual sequence generation that we define as the perceptual and causal coherence among characters, actions, and scenes over time. To bridge this gap, we propose a logic-aware multi-image story visualization framework, LogiStory. The framework is built around the central innovation of explicitly modeling visual logic in story visualization. To realize this idea, we design a multi-agent system that grounds roles, extracts causal chains, and verifies story-level consistency, transforming narrative coherence from an implicit byproduct of image generation into an explicit modeling objective. This design effectively bridges structured story planning with visual generation, enhancing both narrative clarity and visual quality in story visualization. Furthermore, to evaluate the generation capacity, we construct LogicTale, a benchmark comprising richly annotated stories, emphasizing causal reasoning, and visual logic interpretability. We establish comprehensive automatic and human evaluation protocols designed to measure both visual logic and perceptual quality. Experiments demonstrate that our approach significantly improves the narrative logic of generated visual stories. This work provides a foundational step towards modeling and enforcing visual logic in general image sequence and video generation tasks.
- Abstract(参考訳): 画像シーケンスやビデオなどのコヒーレントでコミュニケートな視覚シーケンスを生成することは、現在のマルチモーダルシステムにとって重要な課題である。
視覚的品質の進歩と世界知識の統合にもかかわらず、既存のモデルは論理フローの維持に苦慮し、しばしば不合理な行動、断片化された物語、不明瞭なストーリーラインをもたらす。
これらの問題は、時間とともに文字、行動、シーン間の知覚的および因果的コヒーレンスとして定義する、視覚的論理に注意が払われていないことによる。
このギャップを埋めるため、ロジック対応のマルチイメージ・ストーリー可視化フレームワークLogiStoryを提案する。
このフレームワークは、ストーリービジュアライゼーションにおけるビジュアルロジックを明示的にモデル化する中心的なイノベーションに基づいて構築されている。
このアイデアを実現するために、私たちは、役割を基盤として因果連鎖を抽出し、ストーリーレベルの一貫性を検証し、物語の一貫性を画像生成の暗黙的な副産物から明示的なモデリング対象へと変換するマルチエージェントシステムを設計する。
このデザインは、構造化されたストーリープランニングとビジュアルジェネレーションを効果的に橋渡しし、ストーリービジュアライゼーションにおける物語の明瞭さと視覚的品質を両立させる。
さらに、生成能力を評価するために、リッチな注釈付きストーリー、因果推論、視覚論理の解釈性を重視したベンチマークであるLogicTaleを構築した。
視覚ロジックと知覚品質の両方を測定するために設計された総合的自動評価プロトコルを確立する。
実験により,本手法は生成したビジュアルストーリーの物語論理を大幅に改善することが示された。
この研究は、一般的な画像シーケンスおよびビデオ生成タスクにおける視覚ロジックのモデリングと強化に向けた基礎的なステップを提供する。
関連論文リスト
- Beyond Pixels: Visual Metaphor Transfer via Schema-Driven Agentic Reasoning [56.24016465596292]
視覚的メタファーは、抽象概念をインパクトのある視覚的レトリックに変換するために、クロスドメインなセマンティックフュージョンを用いて、人間の創造性の高階形式を構成する。
本稿では,参照画像から「創造的本質」を自律的に分離し,その抽象論理をユーザ特定対象に再物質化する,視覚メタファー伝達(VMT)の課題を紹介する。
提案手法は, メタファーの整合性, アナロジーの適切性, 視覚的創造性においてSOTAのベースラインを著しく上回り, 広告・メディアにおける高度にインパクトのある創造的アプリケーションを自動化するための道を開いた。
論文 参考訳(メタデータ) (2026-02-01T17:01:36Z) - Generating Storytelling Images with Rich Chains-of-Reasoning [38.363486512993816]
セマンティックにリッチなイメージに焦点を合わせ、それらをストーリーテリングイメージと定義する。
ストーリーテリング・イメージはイラスト作成や認知スクリーニング以外にも様々な応用がある。
本稿では,このような画像を生成するために生成AIモデルをどのように活用できるかを探求するストーリーテリング画像生成タスクを紹介する。
論文 参考訳(メタデータ) (2025-12-08T06:18:44Z) - StoryImager: A Unified and Efficient Framework for Coherent Story Visualization and Completion [78.1014542102578]
ストーリービジュアライゼーションは、ストーリーラインに基づいて現実的で一貫性のある画像を生成することを目的としている。
現在のモデルは、事前訓練されたテキストから画像へのモデルを自動回帰的な方法で変換することで、フレーム・バイ・フレームアーキテクチャを採用している。
双方向で統一的で効率的なフレームワーク,すなわちStoryImagerを提案する。
論文 参考訳(メタデータ) (2024-04-09T03:22:36Z) - SCO-VIST: Social Interaction Commonsense Knowledge-based Visual
Storytelling [12.560014305032437]
本稿では、画像シーケンスをオブジェクトと関係を持つグラフとして表現するフレームワークであるSCO-VISTを紹介する。
SCO-VIST はこのグラフをプロットポイントを表し、意味的および発生に基づくエッジウェイトを持つプロットポイント間のブリッジを生成する。
この重み付きストーリーグラフは、Floyd-Warshallのアルゴリズムを用いて一連のイベントでストーリーラインを生成する。
論文 参考訳(メタデータ) (2024-02-01T04:09:17Z) - Visual Storytelling with Question-Answer Plans [70.89011289754863]
本稿では、事前訓練された言語モデルと計画に視覚表現を統合する新しいフレームワークを提案する。
我々のモデルは、画像列を視覚的な接頭辞、つまり言語モデルで解釈できる連続的な埋め込みの列に変換する。
また、一連の質問と回答のペアを青写真プランとして利用して、健全な視覚概念を選択し、物語にどのように組み立てるべきかを決定する。
論文 参考訳(メタデータ) (2023-10-08T21:45:34Z) - Envisioning Narrative Intelligence: A Creative Visual Storytelling
Anthology [7.962160810367763]
この創造的なビジュアルなストーリーテリングプロセスで見られるバリエーションを特徴付ける5つのテーマを提示する。
我々は、計算的なビジュアルストーリーテリングのための物語知能基準を、創造的で、信頼性があり、表現力があり、基礎があり、責任があるものとして想定する。
論文 参考訳(メタデータ) (2023-10-06T18:47:20Z) - Improving Generation and Evaluation of Visual Stories via Semantic
Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。
それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。
従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文 参考訳(メタデータ) (2021-05-20T20:42:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。