論文の概要: ViStoryBench: Comprehensive Benchmark Suite for Story Visualization
- arxiv url: http://arxiv.org/abs/2505.24862v3
- Date: Tue, 12 Aug 2025 17:42:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-13 18:56:18.590276
- Title: ViStoryBench: Comprehensive Benchmark Suite for Story Visualization
- Title(参考訳): ViStoryBench: ストーリービジュアライゼーションのための総合ベンチマークスイート
- Authors: Cailin Zhuang, Ailin Huang, Wei Cheng, Jingwei Wu, Yaoqi Hu, Jiaqi Liao, Hongyuan Wang, Xinyao Liao, Weiwei Cai, Hengyuan Xu, Xuanyang Zhang, Xianfang Zeng, Zhewei Huang, Gang Yu, Chi Zhang,
- Abstract要約: ViStoryBenchは、さまざまな物語構造、視覚スタイル、キャラクター設定にわたるストーリービジュアライゼーションモデルを評価するために設計された包括的なベンチマークである。
ベンチマークでは、文学、映画、民俗学にまたがるキュレートされたストーリーから派生した、豊富な注釈付きマルチショットスクリプトが特徴である。
徹底的な評価を可能にするために、ViStoryBenchは、文字の一貫性、スタイルの類似性、迅速な順守、美的品質、生成アーティファクトを評価する一連の自動メトリクスを導入した。
- 参考スコア(独自算出の注目度): 23.274981415638837
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Story visualization aims to generate coherent image sequences that faithfully depict a narrative and align with character references. Despite progress in generative models, existing benchmarks are narrow in scope, often limited to short prompts, no character reference, or single-image cases, and fall short of real-world storytelling complexity. This hinders a nuanced understanding of model capabilities and limitations. We present ViStoryBench, a comprehensive benchmark designed to evaluate story visualization models across diverse narrative structures, visual styles, and character settings. The benchmark features richly annotated multi-shot scripts derived from curated stories spanning literature, film, and folklore. Large language models assist in story summarization and script generation, with all outputs verified by humans to ensure coherence and fidelity. Character references are carefully curated to maintain intra-story consistency across varying artistic styles. To enable thorough evaluation, ViStoryBench introduces a set of automated metrics that assess character consistency, style similarity, prompt adherence, aesthetic quality, and generation artifacts such as copy-paste behavior. These metrics are validated through human studies, and used to benchmark a broad range of open-source and commercial models. ViStoryBench offers a high-fidelity, multi-dimensional evaluation suite that facilitates systematic analysis and fosters future progress in visual storytelling.
- Abstract(参考訳): ストーリービジュアライゼーションは、物語を忠実に描写し、キャラクタ参照と整合するコヒーレントなイメージシーケンスを生成することを目的としている。
生成モデルの進歩にもかかわらず、既存のベンチマークはスコープが狭く、しばしば短いプロンプトに制限され、文字参照やシングルイメージケースがなく、現実のストーリーテリングの複雑さに欠ける。
これにより、モデル機能と制限に関する微妙な理解が妨げられます。
ViStoryBenchは、様々な物語構造、視覚的スタイル、キャラクター設定にまたがるストーリービジュアライゼーションモデルを評価するために設計された総合的なベンチマークである。
ベンチマークでは、文学、映画、民俗学にまたがるキュレートされたストーリーから派生した、豊富な注釈付きマルチショットスクリプトが特徴である。
大規模な言語モデルはストーリーの要約とスクリプト生成を補助し、一貫性と忠実さを確保するために、人間によって検証されたすべてのアウトプットを提供する。
キャラクターの参照は、様々な芸術様式にまたがって、階層内の一貫性を維持するために慎重にキュレートされる。
徹底的な評価を可能にするため、ViStoryBenchでは、文字の一貫性、スタイルの類似性、迅速な付着性、美的品質、コピー・ペースト動作などの生成アーティファクトを評価する、一連の自動メトリクスを導入している。
これらのメトリクスは人間の研究を通じて検証され、幅広いオープンソースおよび商用モデルのベンチマークに使用される。
ViStoryBenchは、システマティック分析を促進し、ビジュアルストーリーテリングの今後の進歩を促進する、高忠実で多次元評価スイートを提供する。
関連論文リスト
- StoryReasoning Dataset: Using Chain-of-Thought for Scene Understanding and Grounded Story Generation [0.2455468619225742]
ビジュアルストーリーテリングシステムは、フレームをまたいだキャラクターのアイデンティティを維持し、適切な主題にアクションをリンクするのに苦労する。
52,016本の映画画像から得られた4,178個のストーリーを含むデータセットであるStoryReasoningを提案する。
Qwen Storytellerを作成し、ストーリー全体を通して一貫したオブジェクト参照を維持しながら、エンドツーエンドのオブジェクト検出、再識別、ランドマーク検出を行います。
論文 参考訳(メタデータ) (2025-05-15T13:42:14Z) - Generate Any Scene: Evaluating and Improving Text-to-Vision Generation with Scene Graph Programming [44.32980579195508]
シーングラフを列挙するフレームワークであるGenerate Any Sceneを紹介した。
Any Sceneを生成することで、各シーングラフをキャプションに変換し、テキスト・ツー・ビジョンモデルのスケーラブルな評価を可能にする。
我々は,テキスト・ツー・イメージ,テキスト・ツー・ビデオ,テキスト・ツー・3Dモデルに対して広範囲な評価を行い,モデル性能に関する重要な知見を提示する。
論文 参考訳(メタデータ) (2024-12-11T09:17:39Z) - What Makes a Scene ? Scene Graph-based Evaluation and Feedback for Controllable Generation [29.42202665594218]
Scene-Benchは、自然シーンの生成における現実的一貫性の評価と強化を目的とした総合的なベンチマークである。
Scene-Benchは、シーングラフに注釈を付けた100万の画像の大規模なデータセットであるMegaSGと、新しい評価指標であるSGScoreで構成されている。
本研究では,シーングラフと画像間の不一致を識別・補正することにより,生成した画像を反復的に洗練するシーングラフフィードバックパイプラインを開発する。
論文 参考訳(メタデータ) (2024-11-23T03:40:25Z) - KITTEN: A Knowledge-Intensive Evaluation of Image Generation on Visual Entities [93.74881034001312]
テキスト・画像生成モデルにおける実体の忠実度に関する系統的研究を行う。
我々はランドマークの建物、航空機、植物、動物など、幅広い現実世界の視覚的実体を生成する能力に焦点をあてる。
その結果、最も高度なテキスト・画像モデルでさえ、正確な視覚的詳細を持つエンティティを生成できないことが判明した。
論文 参考訳(メタデータ) (2024-10-15T17:50:37Z) - StoryImager: A Unified and Efficient Framework for Coherent Story Visualization and Completion [78.1014542102578]
ストーリービジュアライゼーションは、ストーリーラインに基づいて現実的で一貫性のある画像を生成することを目的としている。
現在のモデルは、事前訓練されたテキストから画像へのモデルを自動回帰的な方法で変換することで、フレーム・バイ・フレームアーキテクチャを採用している。
双方向で統一的で効率的なフレームワーク,すなわちStoryImagerを提案する。
論文 参考訳(メタデータ) (2024-04-09T03:22:36Z) - TARN-VIST: Topic Aware Reinforcement Network for Visual Storytelling [14.15543866199545]
クロスモーダルなタスクとして、視覚的なストーリーテリングは、順序付けられた画像シーケンスのためのストーリーを自動的に生成することを目的としている。
視覚的ストーリーテリングのための新しい手法,Topic Aware Reinforcement Network(TARN-VIST)を提案する。
特に,視覚的,言語的両面から,物語の話題情報を事前に抽出した。
論文 参考訳(メタデータ) (2024-03-18T08:01:23Z) - Visual Storytelling with Question-Answer Plans [70.89011289754863]
本稿では、事前訓練された言語モデルと計画に視覚表現を統合する新しいフレームワークを提案する。
我々のモデルは、画像列を視覚的な接頭辞、つまり言語モデルで解釈できる連続的な埋め込みの列に変換する。
また、一連の質問と回答のペアを青写真プランとして利用して、健全な視覚概念を選択し、物語にどのように組み立てるべきかを決定する。
論文 参考訳(メタデータ) (2023-10-08T21:45:34Z) - StoryDALL-E: Adapting Pretrained Text-to-Image Transformers for Story
Continuation [76.44802273236081]
生成したビジュアルストーリーをソースイメージに条件付けしたストーリー継続のためのモデルであるStoryDALL-Eを開発した。
提案手法は, ストーリー継続のためのGANモデルよりも優れており, 画像からの視覚要素のコピーを容易にする。
全体として、本研究は、事前訓練されたテキスト-画像合成モデルがストーリー継続のような複雑で低リソースなタスクに適応できることを実証している。
論文 参考訳(メタデータ) (2022-09-13T17:47:39Z) - Word-Level Fine-Grained Story Visualization [58.16484259508973]
ストーリービジュアライゼーションは、動的シーンやキャラクターをまたいだグローバルな一貫性を備えた多文ストーリーで各文をナレーションする一連の画像を生成することを目的としている。
現在の作業は画像の品質と一貫性に苦慮しており、追加のセマンティック情報や補助的なキャプションネットワークに依存している。
まず,全ての物語文からの単語情報を取り入れた新しい文表現を導入し,不整合問題を緩和する。
そこで本稿では,画像の質とストーリーの整合性を改善するために,融合機能を備えた新たな識別器を提案する。
論文 参考訳(メタデータ) (2022-08-03T21:01:47Z) - Improving Generation and Evaluation of Visual Stories via Semantic
Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。
それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。
従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文 参考訳(メタデータ) (2021-05-20T20:42:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。