論文の概要: StoryBench: A Multifaceted Benchmark for Continuous Story Visualization
- arxiv url: http://arxiv.org/abs/2308.11606v2
- Date: Thu, 12 Oct 2023 17:50:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-14 15:03:52.008741
- Title: StoryBench: A Multifaceted Benchmark for Continuous Story Visualization
- Title(参考訳): storybench: 継続的ストーリー可視化のための多面ベンチマーク
- Authors: Emanuele Bugliarello, Hernan Moraldo, Ruben Villegas, Mohammad
Babaeizadeh, Mohammad Taghi Saffar, Han Zhang, Dumitru Erhan, Vittorio
Ferrari, Pieter-Jan Kindermans, Paul Voigtlaender
- Abstract要約: StoryBench: テキストとビデオのモデルを確実に評価する、新しい、挑戦的なマルチタスクベンチマーク。
我々のベンチマークには、アクション実行、ストーリー継続、ストーリー生成という難易度を高める3つのビデオ生成タスクが含まれている。
従来の動画キャプションから生成したストーリーライクなデータに基づくトレーニングの利点を,小型ながら強力なテキスト・ビデオベースラインで評価した。
- 参考スコア(独自算出の注目度): 42.439670922813434
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating video stories from text prompts is a complex task. In addition to
having high visual quality, videos need to realistically adhere to a sequence
of text prompts whilst being consistent throughout the frames. Creating a
benchmark for video generation requires data annotated over time, which
contrasts with the single caption used often in video datasets. To fill this
gap, we collect comprehensive human annotations on three existing datasets, and
introduce StoryBench: a new, challenging multi-task benchmark to reliably
evaluate forthcoming text-to-video models. Our benchmark includes three video
generation tasks of increasing difficulty: action execution, where the next
action must be generated starting from a conditioning video; story
continuation, where a sequence of actions must be executed starting from a
conditioning video; and story generation, where a video must be generated from
only text prompts. We evaluate small yet strong text-to-video baselines, and
show the benefits of training on story-like data algorithmically generated from
existing video captions. Finally, we establish guidelines for human evaluation
of video stories, and reaffirm the need of better automatic metrics for video
generation. StoryBench aims at encouraging future research efforts in this
exciting new area.
- Abstract(参考訳): テキストプロンプトからビデオストーリーを生成するのは複雑な作業です。
映像の品質の高さに加えて、ビデオはフレーム全体に一貫性を持ちながら、テキストプロンプトのシーケンスに現実的に固執する必要がある。
ビデオ生成のためのベンチマークを作成するには、時間とともに注釈付けされるデータが必要である。
このギャップを埋めるため、3つの既存のデータセットに包括的なヒューマンアノテーションを収集し、 storybench: 来るテキストからビデオモデルを確実に評価する、新しい挑戦的なマルチタスクベンチマークを紹介します。
私たちのベンチマークでは,難易度が高まる3つのビデオ生成タスク,つまり,次のアクションがコンディショニングビデオから生成されなければならないアクション実行,コンディショニングビデオから実行すべきアクションのシーケンスがコンディショニングビデオから実行されなければならないストーリー継続,テキストプロンプトのみからビデオを生成するストーリー生成の3つが含まれている。
従来の動画キャプションから生成したストーリーライクなデータに基づくトレーニングの利点を,小規模ながら強力に評価した。
最後に,映像の人的評価のためのガイドラインを確立し,映像生成のためのより良い自動メトリクスの必要性を再確認する。
StoryBenchは、このエキサイティングな新しい領域における将来の研究活動を促進することを目指している。
関連論文リスト
- ScreenWriter: Automatic Screenplay Generation and Movie Summarisation [55.20132267309382]
ビデオコンテンツは、ユーザーがキープロットポイントをリコールしたり、見ずに概要を見ることができるようなテキスト記述や要約の需要を駆り立ててきた。
本稿では,映像のみを操作し,対話,話者名,シーンブレーク,視覚的記述を含む出力を生成するScreenWriterを提案する。
ScreenWriterは、映像を視覚ベクトルのシーケンスに基づいてシーンに分割する新しいアルゴリズムを導入し、アクターの顔のデータベースに基づく文字名決定の難しい問題に対する新しい方法を提案する。
論文 参考訳(メタデータ) (2024-10-17T07:59:54Z) - In-Style: Bridging Text and Uncurated Videos with Style Transfer for
Text-Video Retrieval [72.98185525653504]
トレーニング中は、テキストクエリと未処理のWebビデオのみを併用する、未修正データによる新しい設定、テキストビデオ検索を提案する。
一般化を改善するために、複数のテキストスタイルで1つのモデルを訓練できることを示す。
提案手法の利点を実証するため,複数のデータセットを対象とした検索性能のモデルの評価を行った。
論文 参考訳(メタデータ) (2023-09-16T08:48:21Z) - Hierarchical Video-Moment Retrieval and Step-Captioning [68.4859260853096]
HiRESTは、インストラクショナルビデオデータセットから3.4Kのテキストビデオペアで構成されている。
我々の階層的ベンチマークは、ビデオ検索、モーメント検索、2つの新しいモーメントセグメンテーション、ステップキャプションタスクからなる。
論文 参考訳(メタデータ) (2023-03-29T02:33:54Z) - VideoXum: Cross-modal Visual and Textural Summarization of Videos [54.0985975755278]
我々は新しい共同ビデオとテキスト要約タスクを提案する。
目標は、短縮されたビデオクリップと、長いビデオから対応するテキスト要約の両方を生成することだ。
生成された短縮ビデオクリップとテキストナラティブは、セマンティックに適切に調整されるべきである。
論文 参考訳(メタデータ) (2023-03-21T17:51:23Z) - Text Synopsis Generation for Egocentric Videos [72.52130695707008]
我々は、長い自我中心の動画の中で最も重要な出来事を記述したいくつかの文からなるテキスト合成を生成することを提案する。
ユーザーは短いテキストを読んでビデオについての洞察を得ることができ、さらに重要なのは、大きなビデオデータベースのコンテンツを効率的に検索できることだ。
論文 参考訳(メタデータ) (2020-05-08T00:28:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。