論文の概要: ViStoryBench: Comprehensive Benchmark Suite for Story Visualization
- arxiv url: http://arxiv.org/abs/2505.24862v1
- Date: Fri, 30 May 2025 17:58:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:53.121279
- Title: ViStoryBench: Comprehensive Benchmark Suite for Story Visualization
- Title(参考訳): ViStoryBench: ストーリービジュアライゼーションのための総合ベンチマークスイート
- Authors: Cailin Zhuang, Ailin Huang, Wei Cheng, Jingwei Wu, Yaoqi Hu, Jiaqi Liao, Zhewei Huang, Hongyuan Wang, Xinyao Liao, Weiwei Cai, Hengyuan Xu, Xuanyang Zhang, Xianfang Zeng, Gang Yu, Chi Zhang,
- Abstract要約: ViStoryBenchはストーリービジュアライゼーションモデルの評価ベンチマークである。
モデルがキャラクタ一貫性を維持する能力をテストするために、シングルとマルチの主人公によるストーリーが特徴である。
複雑なプロットと、正確な視覚を生成するモデルに挑戦する複雑な世界構築を含んでいる。
- 参考スコア(独自算出の注目度): 23.274981415638837
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Story visualization, which aims to generate a sequence of visually coherent images aligning with a given narrative and reference images, has seen significant progress with recent advancements in generative models. To further enhance the performance of story visualization frameworks in real-world scenarios, we introduce a comprehensive evaluation benchmark, ViStoryBench. We collect a diverse dataset encompassing various story types and artistic styles, ensuring models are evaluated across multiple dimensions such as different plots (e.g., comedy, horror) and visual aesthetics (e.g., anime, 3D renderings). ViStoryBench is carefully curated to balance narrative structures and visual elements, featuring stories with single and multiple protagonists to test models' ability to maintain character consistency. Additionally, it includes complex plots and intricate world-building to challenge models in generating accurate visuals. To ensure comprehensive comparisons, our benchmark incorporates a wide range of evaluation metrics assessing critical aspects. This structured and multifaceted framework enables researchers to thoroughly identify both the strengths and weaknesses of different models, fostering targeted improvements.
- Abstract(参考訳): ストーリービジュアライゼーションは、与えられた物語や参照画像と整合した、視覚的に整合した一連の画像を生成することを目的としており、最近の生成モデルの発展により大きな進歩を遂げている。
実世界のシナリオにおけるストーリービジュアライゼーションフレームワークの性能をさらに向上させるため、総合評価ベンチマークViStoryBenchを導入する。
様々なストーリータイプや芸術スタイルを含む多様なデータセットを収集し、異なるプロット(例えば、コメディー、ホラー)や視覚美学(例えば、アニメ、3Dレンダリング)など、複数の次元でモデルを評価する。
ViStoryBenchは、ストーリー構造と視覚要素のバランスをとるために慎重にキュレーションされており、ストーリーを1つと複数の主人公と組み合わせて、モデルのキャラクターの一貫性を維持する能力をテストする。
さらに、複雑なプロットと、正確な視覚を生成するモデルに挑戦する複雑な世界構築を含んでいる。
総合的な比較を確実にするために,我々のベンチマークでは,重要な側面を評価する幅広い評価指標を取り入れている。
この構造化された多面的フレームワークにより、研究者は異なるモデルの強みと弱みを徹底的に識別し、目標とする改善を促進することができる。
関連論文リスト
- Generate Any Scene: Evaluating and Improving Text-to-Vision Generation with Scene Graph Programming [44.32980579195508]
シーングラフを列挙するフレームワークであるGenerate Any Sceneを紹介した。
Any Sceneを生成することで、各シーングラフをキャプションに変換し、テキスト・ツー・ビジョンモデルのスケーラブルな評価を可能にする。
我々は,テキスト・ツー・イメージ,テキスト・ツー・ビデオ,テキスト・ツー・3Dモデルに対して広範囲な評価を行い,モデル性能に関する重要な知見を提示する。
論文 参考訳(メタデータ) (2024-12-11T09:17:39Z) - What Makes a Scene ? Scene Graph-based Evaluation and Feedback for Controllable Generation [29.42202665594218]
Scene-Benchは、自然シーンの生成における現実的一貫性の評価と強化を目的とした総合的なベンチマークである。
Scene-Benchは、シーングラフに注釈を付けた100万の画像の大規模なデータセットであるMegaSGと、新しい評価指標であるSGScoreで構成されている。
本研究では,シーングラフと画像間の不一致を識別・補正することにより,生成した画像を反復的に洗練するシーングラフフィードバックパイプラインを開発する。
論文 参考訳(メタデータ) (2024-11-23T03:40:25Z) - KITTEN: A Knowledge-Intensive Evaluation of Image Generation on Visual Entities [93.74881034001312]
テキスト・画像生成モデルにおける実体の忠実度に関する系統的研究を行う。
我々はランドマークの建物、航空機、植物、動物など、幅広い現実世界の視覚的実体を生成する能力に焦点をあてる。
その結果、最も高度なテキスト・画像モデルでさえ、正確な視覚的詳細を持つエンティティを生成できないことが判明した。
論文 参考訳(メタデータ) (2024-10-15T17:50:37Z) - Visual Storytelling with Question-Answer Plans [70.89011289754863]
本稿では、事前訓練された言語モデルと計画に視覚表現を統合する新しいフレームワークを提案する。
我々のモデルは、画像列を視覚的な接頭辞、つまり言語モデルで解釈できる連続的な埋め込みの列に変換する。
また、一連の質問と回答のペアを青写真プランとして利用して、健全な視覚概念を選択し、物語にどのように組み立てるべきかを決定する。
論文 参考訳(メタデータ) (2023-10-08T21:45:34Z) - StoryDALL-E: Adapting Pretrained Text-to-Image Transformers for Story
Continuation [76.44802273236081]
生成したビジュアルストーリーをソースイメージに条件付けしたストーリー継続のためのモデルであるStoryDALL-Eを開発した。
提案手法は, ストーリー継続のためのGANモデルよりも優れており, 画像からの視覚要素のコピーを容易にする。
全体として、本研究は、事前訓練されたテキスト-画像合成モデルがストーリー継続のような複雑で低リソースなタスクに適応できることを実証している。
論文 参考訳(メタデータ) (2022-09-13T17:47:39Z) - Word-Level Fine-Grained Story Visualization [58.16484259508973]
ストーリービジュアライゼーションは、動的シーンやキャラクターをまたいだグローバルな一貫性を備えた多文ストーリーで各文をナレーションする一連の画像を生成することを目的としている。
現在の作業は画像の品質と一貫性に苦慮しており、追加のセマンティック情報や補助的なキャプションネットワークに依存している。
まず,全ての物語文からの単語情報を取り入れた新しい文表現を導入し,不整合問題を緩和する。
そこで本稿では,画像の質とストーリーの整合性を改善するために,融合機能を備えた新たな識別器を提案する。
論文 参考訳(メタデータ) (2022-08-03T21:01:47Z) - Improving Generation and Evaluation of Visual Stories via Semantic
Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。
それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。
従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文 参考訳(メタデータ) (2021-05-20T20:42:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。