論文の概要: ScreenWriter: Automatic Screenplay Generation and Movie Summarisation
- arxiv url: http://arxiv.org/abs/2410.19809v1
- Date: Thu, 17 Oct 2024 07:59:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-03 07:49:45.503424
- Title: ScreenWriter: Automatic Screenplay Generation and Movie Summarisation
- Title(参考訳): ScreenWriter: 自動脚本生成と映画の要約
- Authors: Louis Mahon, Mirella Lapata,
- Abstract要約: ビデオコンテンツは、ユーザーがキープロットポイントをリコールしたり、見ずに概要を見ることができるようなテキスト記述や要約の需要を駆り立ててきた。
本稿では,映像のみを操作し,対話,話者名,シーンブレーク,視覚的記述を含む出力を生成するScreenWriterを提案する。
ScreenWriterは、映像を視覚ベクトルのシーケンスに基づいてシーンに分割する新しいアルゴリズムを導入し、アクターの顔のデータベースに基づく文字名決定の難しい問題に対する新しい方法を提案する。
- 参考スコア(独自算出の注目度): 55.20132267309382
- License:
- Abstract: The proliferation of creative video content has driven demand for textual descriptions or summaries that allow users to recall key plot points or get an overview without watching. The volume of movie content and speed of turnover motivates automatic summarisation, which is nevertheless challenging, requiring identifying character intentions and very long-range temporal dependencies. The few existing methods attempting this task rely heavily on textual screenplays as input, greatly limiting their applicability. In this work, we propose the task of automatic screenplay generation, and a method, ScreenWriter, that operates only on video and produces output which includes dialogue, speaker names, scene breaks, and visual descriptions. ScreenWriter introduces a novel algorithm to segment the video into scenes based on the sequence of visual vectors, and a novel method for the challenging problem of determining character names, based on a database of actors' faces. We further demonstrate how these automatic screenplays can be used to generate plot synopses with a hierarchical summarisation method based on scene breaks. We test the quality of the final summaries on the recent MovieSum dataset, which we augment with videos, and show that they are superior to a number of comparison models which assume access to goldstandard screenplays.
- Abstract(参考訳): クリエイティブなビデオコンテンツの普及は、ユーザーがキープロットポイントを思い出したり、見ずに概要を見ることができるような、テキスト記述や要約の需要を駆り立ててきた。
映画の内容量とターンオーバーのスピードは自動要約を動機付けており、文字の意図と非常に長い時間的依存関係を識別する必要がある。
このタスクを試みている数少ない既存の手法は、入力としてテキストのスクリーンプレイに大きく依存しており、適用性を大幅に制限している。
本研究では,映像のみを操作し,対話,話者名,シーンブレーク,視覚的記述を含むアウトプットを生成するScreenWriterを提案する。
ScreenWriterは、映像を視覚ベクトルのシーケンスに基づいてシーンに分割する新しいアルゴリズムを導入し、アクターの顔のデータベースに基づく文字名決定の難しい問題に対する新しい方法を提案する。
さらに、シーンブレークに基づく階層的な要約手法を用いて、これらの自動脚本を用いてプロット合成を生成する方法を示す。
我々は、最近のMovieSumデータセットの最終的なサマリーの品質をテストし、ビデオで強化し、ゴールドスタンダードのスクリーンプレイを前提とした多くの比較モデルよりも優れていることを示す。
関連論文リスト
- DiscoGraMS: Enhancing Movie Screen-Play Summarization using Movie Character-Aware Discourse Graph [6.980991481207376]
映画脚本を映画キャラクタ対応の談話グラフ(CaD Graph)として表現する新しいリソースであるDiscoGraMSを紹介する。
このモデルは、スクリーンプレイの内容をより包括的で忠実に表現することで、すべての健全な情報を保存することを目的としている。
論文 参考訳(メタデータ) (2024-10-18T17:56:11Z) - MovieSum: An Abstractive Summarization Dataset for Movie Screenplays [11.318175666743656]
映画脚本の抽象的な要約のための新しいデータセットであるMovieSumを提示する。
このデータセットはウィキペディアのプロットサマリーを伴って2200の映画脚本で構成されている。
論文 参考訳(メタデータ) (2024-08-12T16:43:09Z) - Movie101v2: Improved Movie Narration Benchmark [53.54176725112229]
映像の自動ナレーションは、視覚障害者を支援するために、映像に合わせたプロット記述を生成することを目的としている。
映画ナレーションに特化して設計されたデータ品質を向上した大規模バイリンガルデータセットであるMovie101v2を紹介する。
新しいベンチマークに基づいて,GPT-4Vを含む多数の視覚言語モデルをベースライン化し,ナレーション生成における課題の詳細な分析を行う。
論文 参考訳(メタデータ) (2024-04-20T13:15:27Z) - Select and Summarize: Scene Saliency for Movie Script Summarization [11.318175666743656]
そこで本研究では,100本の映画に対して,人間による注釈付きサリエントシーンからなるシーン・サリエンシ・データセットを提案する。
そこで本研究では,まずスクリプト中の健全なシーンを識別し,そのシーンのみを用いて要約を生成する2段階の抽象要約手法を提案する。
論文 参考訳(メタデータ) (2024-04-04T16:16:53Z) - StoryBench: A Multifaceted Benchmark for Continuous Story Visualization [42.439670922813434]
StoryBench: テキストとビデオのモデルを確実に評価する、新しい、挑戦的なマルチタスクベンチマーク。
我々のベンチマークには、アクション実行、ストーリー継続、ストーリー生成という難易度を高める3つのビデオ生成タスクが含まれている。
従来の動画キャプションから生成したストーリーライクなデータに基づくトレーニングの利点を,小型ながら強力なテキスト・ビデオベースラインで評価した。
論文 参考訳(メタデータ) (2023-08-22T17:53:55Z) - Movie101: A New Movie Understanding Benchmark [47.24519006577205]
大規模な中国の映画ベンチマーク「Movie101」を構築した。
映画ナレーション評価のためのMNScore(Movie Narration Score)と呼ばれる新しい指標を提案する。
両タスクにおいて,提案手法は外部知識をうまく活用し,慎重に設計したベースラインよりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-05-20T08:43:51Z) - Temporal Perceiving Video-Language Pre-training [112.1790287726804]
本研究は、時間的・意味的な微粒なアライメントを可能にする、新しいテキスト-ビデオのローカライゼーション・プレテキストタスクを導入する。
具体的には、テキスト-ビデオのローカライゼーションは、テキスト記述が与えられたビデオの開始と終了の境界を予測するモーメント検索から成っている。
提案手法は,細粒度フレーム表現と単語表現を結合し,単一モードにおける異なるインスタンスの表現を暗黙的に区別する。
論文 参考訳(メタデータ) (2023-01-18T12:15:47Z) - Screenplay Quality Assessment: Can We Predict Who Gets Nominated? [53.9153892362629]
本稿では,言語的手がかりに基づく脚本の品質評価手法を提案する。
産業の意見やナラトロジーに基づいて、ドメイン固有の特徴を共通分類技法に抽出し、統合する。
論文 参考訳(メタデータ) (2020-05-13T02:39:56Z) - Text Synopsis Generation for Egocentric Videos [72.52130695707008]
我々は、長い自我中心の動画の中で最も重要な出来事を記述したいくつかの文からなるテキスト合成を生成することを提案する。
ユーザーは短いテキストを読んでビデオについての洞察を得ることができ、さらに重要なのは、大きなビデオデータベースのコンテンツを効率的に検索できることだ。
論文 参考訳(メタデータ) (2020-05-08T00:28:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。