論文の概要: Movie101v2: Improved Movie Narration Benchmark
- arxiv url: http://arxiv.org/abs/2404.13370v1
- Date: Sat, 20 Apr 2024 13:15:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-23 19:19:56.956220
- Title: Movie101v2: Improved Movie Narration Benchmark
- Title(参考訳): Movie101v2: 映画ナレーションベンチマークの改善
- Authors: Zihao Yue, Yepeng Zhang, Ziheng Wang, Qin Jin,
- Abstract要約: 大規模なバイリンガル映画ナレーションデータセットMovie101v2を開発した。
映画ナレーションの達成に欠かせない課題を考慮し、長期的な目標を3段階に分けた。
以上の結果から,映画ナレーション生成の達成は,徹底的な研究を必要とする魅力的な目標であることが示唆された。
- 参考スコア(独自算出の注目度): 53.54176725112229
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic movie narration targets at creating video-aligned plot descriptions to assist visually impaired audiences. It differs from standard video captioning in that it requires not only describing key visual details but also inferring the plots developed across multiple movie shots, thus posing unique and ongoing challenges. To advance the development of automatic movie narrating systems, we first revisit the limitations of existing datasets and develop a large-scale, bilingual movie narration dataset, Movie101v2. Second, taking into account the essential difficulties in achieving applicable movie narration, we break the long-term goal into three progressive stages and tentatively focus on the initial stages featuring understanding within individual clips. We also introduce a new narration assessment to align with our staged task goals. Third, using our new dataset, we baseline several leading large vision-language models, including GPT-4V, and conduct in-depth investigations into the challenges current models face for movie narration generation. Our findings reveal that achieving applicable movie narration generation is a fascinating goal that requires thorough research.
- Abstract(参考訳): 視覚障害者を支援するために、映像に合わせたプロット記述を作成することを目的とした自動映画ナレーション。
標準的なビデオキャプションとは異なり、重要な視覚的詳細を記述するだけでなく、複数の映画撮影で展開されたプロットを推測する必要があるため、独特で進行中の課題が生じる。
自動映画ナレーションシステムの開発を進めるため,既存のデータセットの限界を再考し,大規模なバイリンガル映画ナレーションデータセットであるMovie101v2を開発した。
第2に,映画ナレーションの達成に欠かせない課題を考慮し,長期的目標を3段階に分割し,個別クリップ内での理解をめざした初期段階に着目した。
また、段階的な課題目標に合わせて、新たなナレーションアセスメントも導入します。
第3に、我々の新しいデータセットを用いて、GPT-4Vを含むいくつかの主要な視覚言語モデルをベースライン化し、現在のモデルが映画ナレーション生成に直面する課題について、詳細な調査を行う。
以上の結果から,映画ナレーション生成の達成は,徹底的な研究を必要とする魅力的な目標であることが示唆された。
関連論文リスト
- StoryTeller: Improving Long Video Description through Global Audio-Visual Character Identification [6.762705315042178]
ロングビデオ記述では、記述間のプロットレベルの一貫性など、新しい課題が導入されている。
我々は,低レベルな視覚概念と高レベルなプロット情報の両方を取り入れた,長いビデオの濃密な記述を生成するシステムであるStoryTellerを提案する。
論文 参考訳(メタデータ) (2024-11-11T15:51:48Z) - DiscoGraMS: Enhancing Movie Screen-Play Summarization using Movie Character-Aware Discourse Graph [6.980991481207376]
映画脚本を映画キャラクタ対応の談話グラフ(CaD Graph)として表現する新しいリソースであるDiscoGraMSを紹介する。
このモデルは、スクリーンプレイの内容をより包括的で忠実に表現することで、すべての健全な情報を保存することを目的としている。
論文 参考訳(メタデータ) (2024-10-18T17:56:11Z) - ScreenWriter: Automatic Screenplay Generation and Movie Summarisation [55.20132267309382]
ビデオコンテンツは、ユーザーがキープロットポイントをリコールしたり、見ずに概要を見ることができるようなテキスト記述や要約の需要を駆り立ててきた。
本稿では,映像のみを操作し,対話,話者名,シーンブレーク,視覚的記述を含む出力を生成するScreenWriterを提案する。
ScreenWriterは、映像を視覚ベクトルのシーケンスに基づいてシーンに分割する新しいアルゴリズムを導入し、アクターの顔のデータベースに基づく文字名決定の難しい問題に対する新しい方法を提案する。
論文 参考訳(メタデータ) (2024-10-17T07:59:54Z) - MovieSum: An Abstractive Summarization Dataset for Movie Screenplays [11.318175666743656]
映画脚本の抽象的な要約のための新しいデータセットであるMovieSumを提示する。
このデータセットはウィキペディアのプロットサマリーを伴って2200の映画脚本で構成されている。
論文 参考訳(メタデータ) (2024-08-12T16:43:09Z) - MovieFactory: Automatic Movie Creation from Text using Large Generative
Models for Language and Images [92.13079696503803]
映画制作のためのフレームワークであるMovieFactory(3072$times$1280)、映画スタイル(マルチシーン)、マルチモーダル(サウンド)映画について紹介する。
本手法は,簡単なテキスト入力を用いて,スムーズなトランジションでキャプティベーション映画を制作することを可能にする。
論文 参考訳(メタデータ) (2023-06-12T17:31:23Z) - Movie101: A New Movie Understanding Benchmark [47.24519006577205]
大規模な中国の映画ベンチマーク「Movie101」を構築した。
映画ナレーション評価のためのMNScore(Movie Narration Score)と呼ばれる新しい指標を提案する。
両タスクにおいて,提案手法は外部知識をうまく活用し,慎重に設計したベースラインよりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-05-20T08:43:51Z) - Movie Summarization via Sparse Graph Construction [65.16768855902268]
マルチモーダル情報を用いて構築された,シーン間の関係を表すスパースなムービーグラフを構築することで,TPシーンを識別するモデルを提案する。
人間の判断によれば、我々のアプローチによって作成された要約は、シーケンスベースモデルや汎用的な要約アルゴリズムの出力よりも、より情報的で完全であり、より高い評価を受けている。
論文 参考訳(メタデータ) (2020-12-14T13:54:34Z) - Condensed Movies: Story Based Retrieval with Contextual Embeddings [83.73479493450009]
我々は3K映画の主要シーンからなるコンデンサド映画データセット(CMD)を作成する。
データセットはスケーラブルで、YouTubeから自動的に取得され、誰でもダウンロードして利用できる。
我々は、文字、音声、視覚的手がかりを1つのビデオ埋め込みに組み合わせ、データセット上でテキストからビデオまでを検索するためのディープネットワークベースラインを提供する。
論文 参考訳(メタデータ) (2020-05-08T17:55:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。