論文の概要: Generating Storytelling Images with Rich Chains-of-Reasoning
- arxiv url: http://arxiv.org/abs/2512.07198v1
- Date: Mon, 08 Dec 2025 06:18:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.735809
- Title: Generating Storytelling Images with Rich Chains-of-Reasoning
- Title(参考訳): リッチチェイン・オブ・推論によるストーリーテリング画像の生成
- Authors: Xiujie Song, Qi Jia, Shota Watanabe, Xiaoyi Pang, Ruijie Chen, Mengyue Wu, Kenny Q. Zhu,
- Abstract要約: セマンティックにリッチなイメージに焦点を合わせ、それらをストーリーテリングイメージと定義する。
ストーリーテリング・イメージはイラスト作成や認知スクリーニング以外にも様々な応用がある。
本稿では,このような画像を生成するために生成AIモデルをどのように活用できるかを探求するストーリーテリング画像生成タスクを紹介する。
- 参考スコア(独自算出の注目度): 38.363486512993816
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: An image can convey a compelling story by presenting rich, logically connected visual clues. These connections form Chains-of-Reasoning (CoRs) within the image, enabling viewers to infer events, causal relationships, and other information, thereby understanding the underlying story. In this paper, we focus on these semantically rich images and define them as Storytelling Images. Such images have diverse applications beyond illustration creation and cognitive screening, leveraging their ability to convey multi-layered information visually and inspire active interpretation. However, due to their complex semantic nature, Storytelling Images are inherently challenging to create, and thus remain relatively scarce. To address this challenge, we introduce the Storytelling Image Generation task, which explores how generative AI models can be leveraged to create such images. Specifically, we propose a two-stage pipeline, StorytellingPainter, which combines the creative reasoning abilities of Large Language Models (LLMs) with the visual synthesis capabilities of Text-to-Image (T2I) models to generate Storytelling Images. Alongside this pipeline, we develop a dedicated evaluation framework comprising three main evaluators: a Semantic Complexity Evaluator, a KNN-based Diversity Evaluator and a Story-Image Alignment Evaluator. Given the critical role of story generation in the Storytelling Image Generation task and the performance disparity between open-source and proprietary LLMs, we further explore tailored training strategies to reduce this gap, resulting in a series of lightweight yet effective models named Mini-Storytellers. Experimental results demonstrate the feasibility and effectiveness of our approaches. The code is available at https://github.com/xiujiesong/StorytellingImageGeneration.
- Abstract(参考訳): 画像はリッチで論理的に結びついた視覚的手がかりを提示することで説得力のある物語を伝えることができる。
これらの接続は画像内のチェーン・オブ・推論(CoR)を形成し、視聴者がイベント、因果関係、その他の情報を推測し、基礎となるストーリーを理解することを可能にする。
本稿では,これらのセマンティックなリッチなイメージに注目し,ストーリーテリングイメージとして定義する。
このような画像は、イラスト作成や認知スクリーニング以外にも様々な応用があり、多層的な情報を視覚的に伝達し、アクティブな解釈を刺激する能力を活用している。
しかし、複雑なセマンティックな性質のため、ストーリーテリング・イメージは本質的に作成が困難であり、そのため比較的少ないままである。
この課題に対処するために、我々は、生成AIモデルをどのように活用してそのような画像を作成するかを探求するストーリーテリング画像生成タスクを導入する。
具体的には、大規模言語モデル(LLM)の創造的推論能力とテキスト・ツー・イメージ(T2I)モデルの視覚的合成能力を組み合わせてストーリーテリング画像を生成する2段階パイプラインであるStorytellingPainterを提案する。
このパイプラインの他に、セマンティック複雑度評価器(Semantic Complexity Evaluator)、KNNベースの多様性評価器(Diversity Evaluator)、ストーリーイメージアライメント評価器(Story-Image Alignment Evaluator)の3つの主要な評価器からなる専用評価フレームワークを開発する。
ストーリーテリング画像生成タスクにおけるストーリー生成の重要な役割と,オープンソースとプロプライエタリなLCM間の性能格差を考慮し,このギャップを減らすための調整されたトレーニング戦略をさらに検討し,ミニストリーテラーと呼ばれる軽量で効果的なモデルを生み出した。
実験により,本手法の有効性と有効性を示した。
コードはhttps://github.com/xiujiesong/StorytellingImageGeneration.comで公開されている。
関連論文リスト
- LLMs Behind the Scenes: Enabling Narrative Scene Illustration [16.01007495951529]
本研究では、物語のシーンを描写した画像を自動的に生成するストーリーシーンイラストアのタスクに焦点を当てる。
近年のテキスト・ツー・イメージ・モデルの発展により,LLMをテキスト・ツー・イメージ・モデルを促進するインタフェースとして利用するパイプラインが検討されている。
このパイプラインのバリエーションを顕著なストーリーコーパスに適用し、これらのストーリーのシーンのイラストを合成する。
論文 参考訳(メタデータ) (2025-09-26T21:15:18Z) - From Image Captioning to Visual Storytelling [2.0333131475480917]
この作業の目的は、ビジュアルストーリーテリングをイメージキャプションのスーパーセットとして扱うことで、これらの側面のバランスをとることである。
これは、まず、入力画像のキャプションを取得するために視覚-言語モデルを使用し、その後、これらのキャプションを言語-言語手法を用いてコヒーレントな物語に変換することを意味する。
本評価は,キャプションとストーリーテリングを統合した枠組みで統合することで,生成したストーリーの品質に肯定的な影響を与えることを示す。
論文 参考訳(メタデータ) (2025-07-31T16:44:23Z) - StoryImager: A Unified and Efficient Framework for Coherent Story Visualization and Completion [78.1014542102578]
ストーリービジュアライゼーションは、ストーリーラインに基づいて現実的で一貫性のある画像を生成することを目的としている。
現在のモデルは、事前訓練されたテキストから画像へのモデルを自動回帰的な方法で変換することで、フレーム・バイ・フレームアーキテクチャを採用している。
双方向で統一的で効率的なフレームワーク,すなわちStoryImagerを提案する。
論文 参考訳(メタデータ) (2024-04-09T03:22:36Z) - TARN-VIST: Topic Aware Reinforcement Network for Visual Storytelling [14.15543866199545]
クロスモーダルなタスクとして、視覚的なストーリーテリングは、順序付けられた画像シーケンスのためのストーリーを自動的に生成することを目的としている。
視覚的ストーリーテリングのための新しい手法,Topic Aware Reinforcement Network(TARN-VIST)を提案する。
特に,視覚的,言語的両面から,物語の話題情報を事前に抽出した。
論文 参考訳(メタデータ) (2024-03-18T08:01:23Z) - Intelligent Grimm -- Open-ended Visual Storytelling via Latent Diffusion
Models [70.86603627188519]
我々は,オープンエンドなビジュアルストーリーテリングとして表現された,与えられたストーリーラインに基づいてコヒーレントな画像列を生成するという,斬新で挑戦的な課題に焦点をあてる。
本稿では,新しい視覚言語コンテキストモジュールを用いた学習に基づく自動回帰画像生成モデル(StoryGen)を提案する。
StoryGenは最適化なしに文字を一般化することができ、一貫性のあるコンテンツと一貫した文字で画像列を生成する。
論文 参考訳(メタデータ) (2023-06-01T17:58:50Z) - Improving Generation and Evaluation of Visual Stories via Semantic
Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。
それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。
従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文 参考訳(メタデータ) (2021-05-20T20:42:42Z) - Hide-and-Tell: Learning to Bridge Photo Streams for Visual Storytelling [86.42719129731907]
視覚的ギャップを埋めるストーリーラインを明示的に学習することを提案する。
私たちは、欠落した写真であっても、ネットワークをトレーニングして、完全なプラウティブルなストーリーを作り出す。
実験では,本手法とネットワーク設計がストーリーテリングに有効であることを示す。
論文 参考訳(メタデータ) (2020-02-03T14:22:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。