論文の概要: Movie101: A New Movie Understanding Benchmark
- arxiv url: http://arxiv.org/abs/2305.12140v2
- Date: Tue, 27 Jun 2023 11:42:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-28 16:46:01.307137
- Title: Movie101: A New Movie Understanding Benchmark
- Title(参考訳): Movie101: 新しい映画理解ベンチマーク
- Authors: Zihao Yue, Qi Zhang, Anwen Hu, Liang Zhang, Ziheng Wang and Qin Jin
- Abstract要約: 大規模な中国の映画ベンチマーク「Movie101」を構築した。
映画ナレーション評価のためのMNScore(Movie Narration Score)と呼ばれる新しい指標を提案する。
両タスクにおいて,提案手法は外部知識をうまく活用し,慎重に設計したベースラインよりも優れた性能を発揮する。
- 参考スコア(独自算出の注目度): 47.24519006577205
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To help the visually impaired enjoy movies, automatic movie narrating systems
are expected to narrate accurate, coherent, and role-aware plots when there are
no speaking lines of actors. Existing works benchmark this challenge as a
normal video captioning task via some simplifications, such as removing role
names and evaluating narrations with ngram-based metrics, which makes it
difficult for automatic systems to meet the needs of real application
scenarios. To narrow this gap, we construct a large-scale Chinese movie
benchmark, named Movie101. Closer to real scenarios, the Movie Clip Narrating
(MCN) task in our benchmark asks models to generate role-aware narration
paragraphs for complete movie clips where no actors are speaking. External
knowledge, such as role information and movie genres, is also provided for
better movie understanding. Besides, we propose a new metric called Movie
Narration Score (MNScore) for movie narrating evaluation, which achieves the
best correlation with human evaluation. Our benchmark also supports the
Temporal Narration Grounding (TNG) task to investigate clip localization given
text descriptions. For both two tasks, our proposed methods well leverage
external knowledge and outperform carefully designed baselines. The dataset and
codes are released at https://github.com/yuezih/Movie101.
- Abstract(参考訳): 視覚障害者が映画を楽しむのを助けるために、俳優の話し言葉がない場合には、映画の自動ナレーションシステムが正確で一貫性があり、役割認識に富むプロットをナレーションすることが期待されている。
既存のワークスでは、ロール名の削除やngramベースのメトリクスによるナレーションの評価など、いくつかの単純化によって、この課題を通常のビデオキャプションタスクとしてベンチマークしている。
このギャップを狭めるために,大規模な中国の映画ベンチマークMovie101を構築した。
実際のシナリオに近く、我々のベンチマークのMCN(Movie Clip Narrating)タスクは、俳優が話していない映画クリップのロールアウェアなナレーション文を生成するようモデルに求める。
ロール情報や映画ジャンルといった外部知識も、より優れた映画理解のために提供される。
また,映画ナレーション評価のためのMNSスコア(Movie Narration Score)という新しい指標を提案し,人間の評価と最適な相関性を実現する。
また,テキスト記述によるクリップの局所化を調べるためのtng(temporal narration grounding)タスクもサポートする。
両タスクにおいて,提案手法は外部知識をうまく活用し,慎重に設計したベースラインよりも優れている。
データセットとコードはhttps://github.com/yuezih/movie101でリリースされる。
関連論文リスト
- ScreenWriter: Automatic Screenplay Generation and Movie Summarisation [55.20132267309382]
ビデオコンテンツは、ユーザーがキープロットポイントをリコールしたり、見ずに概要を見ることができるようなテキスト記述や要約の需要を駆り立ててきた。
本稿では,映像のみを操作し,対話,話者名,シーンブレーク,視覚的記述を含む出力を生成するScreenWriterを提案する。
ScreenWriterは、映像を視覚ベクトルのシーケンスに基づいてシーンに分割する新しいアルゴリズムを導入し、アクターの顔のデータベースに基づく文字名決定の難しい問題に対する新しい方法を提案する。
論文 参考訳(メタデータ) (2024-10-17T07:59:54Z) - MovieSum: An Abstractive Summarization Dataset for Movie Screenplays [11.318175666743656]
映画脚本の抽象的な要約のための新しいデータセットであるMovieSumを提示する。
このデータセットはウィキペディアのプロットサマリーを伴って2200の映画脚本で構成されている。
論文 参考訳(メタデータ) (2024-08-12T16:43:09Z) - Movie101v2: Improved Movie Narration Benchmark [53.54176725112229]
映像の自動ナレーションは、視覚障害者を支援するために、映像に合わせたプロット記述を生成することを目的としている。
映画ナレーションに特化して設計されたデータ品質を向上した大規模バイリンガルデータセットであるMovie101v2を紹介する。
新しいベンチマークに基づいて,GPT-4Vを含む多数の視覚言語モデルをベースライン化し,ナレーション生成における課題の詳細な分析を行う。
論文 参考訳(メタデータ) (2024-04-20T13:15:27Z) - Select and Summarize: Scene Saliency for Movie Script Summarization [11.318175666743656]
そこで本研究では,100本の映画に対して,人間による注釈付きサリエントシーンからなるシーン・サリエンシ・データセットを提案する。
そこで本研究では,まずスクリプト中の健全なシーンを識別し,そのシーンのみを用いて要約を生成する2段階の抽象要約手法を提案する。
論文 参考訳(メタデータ) (2024-04-04T16:16:53Z) - HowToCaption: Prompting LLMs to Transform Video Annotations at Scale [72.69268311756082]
本稿では,大言語モデル(LLM)の能力を活用して,大規模ビデオに対応する高品質な映像記述を実現することを提案する。
本稿では,より長い字幕テキストを考慮に入れたプロンプト手法を提案する。
我々は、HowTo100Mデータセットの字幕にメソッドを適用し、新しい大規模データセット、HowToCaptionを作成します。
論文 参考訳(メタデータ) (2023-10-07T19:32:55Z) - Multilevel profiling of situation and dialogue-based deep networks for
movie genre classification using movie trailers [7.904790547594697]
我々は、状況、対話、メタデータに基づく映画ジャンル分類フレームワークという、新しいマルチモダリティを提案する。
我々は,5つのジャンルに属する2000本のハリウッド映画トレーラーを含むイギリス映画トレーラーデータセット(EMTD)を開発した。
論文 参考訳(メタデータ) (2021-09-14T07:33:56Z) - Movie Summarization via Sparse Graph Construction [65.16768855902268]
マルチモーダル情報を用いて構築された,シーン間の関係を表すスパースなムービーグラフを構築することで,TPシーンを識別するモデルを提案する。
人間の判断によれば、我々のアプローチによって作成された要約は、シーケンスベースモデルや汎用的な要約アルゴリズムの出力よりも、より情報的で完全であり、より高い評価を受けている。
論文 参考訳(メタデータ) (2020-12-14T13:54:34Z) - Condensed Movies: Story Based Retrieval with Contextual Embeddings [83.73479493450009]
我々は3K映画の主要シーンからなるコンデンサド映画データセット(CMD)を作成する。
データセットはスケーラブルで、YouTubeから自動的に取得され、誰でもダウンロードして利用できる。
我々は、文字、音声、視覚的手がかりを1つのビデオ埋め込みに組み合わせ、データセット上でテキストからビデオまでを検索するためのディープネットワークベースラインを提供する。
論文 参考訳(メタデータ) (2020-05-08T17:55:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。