論文の概要: Condensed Movies: Story Based Retrieval with Contextual Embeddings
- arxiv url: http://arxiv.org/abs/2005.04208v2
- Date: Thu, 22 Oct 2020 23:42:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-05 12:52:39.305259
- Title: Condensed Movies: Story Based Retrieval with Contextual Embeddings
- Title(参考訳): 凝縮映画:文脈埋め込みによるストーリーベース検索
- Authors: Max Bain, Arsha Nagrani, Andrew Brown, Andrew Zisserman
- Abstract要約: 我々は3K映画の主要シーンからなるコンデンサド映画データセット(CMD)を作成する。
データセットはスケーラブルで、YouTubeから自動的に取得され、誰でもダウンロードして利用できる。
我々は、文字、音声、視覚的手がかりを1つのビデオ埋め込みに組み合わせ、データセット上でテキストからビデオまでを検索するためのディープネットワークベースラインを提供する。
- 参考スコア(独自算出の注目度): 83.73479493450009
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Our objective in this work is long range understanding of the narrative
structure of movies. Instead of considering the entire movie, we propose to
learn from the `key scenes' of the movie, providing a condensed look at the
full storyline. To this end, we make the following three contributions: (i) We
create the Condensed Movies Dataset (CMD) consisting of the key scenes from
over 3K movies: each key scene is accompanied by a high level semantic
description of the scene, character face-tracks, and metadata about the movie.
The dataset is scalable, obtained automatically from YouTube, and is freely
available for anybody to download and use. It is also an order of magnitude
larger than existing movie datasets in the number of movies; (ii) We provide a
deep network baseline for text-to-video retrieval on our dataset, combining
character, speech and visual cues into a single video embedding; and finally
(iii) We demonstrate how the addition of context from other video clips
improves retrieval performance.
- Abstract(参考訳): この作品の目標は、映画の物語構造を長距離に理解することである。
映画全体を考える代わりに、映画の「キーシーン」から学び、完全なストーリーラインを凝縮して見ることを提案する。
この目的のために、以下の3つの貢献をしている。
(i)各シーンには、シーンの高レベルな意味的記述、キャラクターの対面トラック、映画に関するメタデータが付随する、3k映画からの重要場面からなるコンデンス映画データセット(cmd)を作成する。
データセットはスケーラブルで、YouTubeから自動的に取得され、誰でもダウンロードして利用できる。
また、映画数において、既存の映画データセットよりも桁違いに大きい。
(ii) データセット上でのテキスト・ビデオ検索のためのディープネットワークベースラインを提供し、文字・音声・視覚的手がかりを1つのビデオ埋め込みに組み合わせ、そして最後に
(iii)他のビデオクリップからのコンテキストの追加により検索性能が向上することを示す。
関連論文リスト
- MovieBench: A Hierarchical Movie Level Dataset for Long Video Generation [62.85764872989189]
長いビデオ生成モデルの分析、評価、トレーニングに適したデータセットは公開されていない。
The MovieBench: A Hierarchical Movie-Level dataset for Long Video Generation。
データセットは公開され、継続的に維持され、長いビデオ生成の分野を前進させることを目的としている。
論文 参考訳(メタデータ) (2024-11-22T10:25:08Z) - ScreenWriter: Automatic Screenplay Generation and Movie Summarisation [55.20132267309382]
ビデオコンテンツは、ユーザーがキープロットポイントをリコールしたり、見ずに概要を見ることができるようなテキスト記述や要約の需要を駆り立ててきた。
本稿では,映像のみを操作し,対話,話者名,シーンブレーク,視覚的記述を含む出力を生成するScreenWriterを提案する。
ScreenWriterは、映像を視覚ベクトルのシーケンスに基づいてシーンに分割する新しいアルゴリズムを導入し、アクターの顔のデータベースに基づく文字名決定の難しい問題に対する新しい方法を提案する。
論文 参考訳(メタデータ) (2024-10-17T07:59:54Z) - MovieSum: An Abstractive Summarization Dataset for Movie Screenplays [11.318175666743656]
映画脚本の抽象的な要約のための新しいデータセットであるMovieSumを提示する。
このデータセットはウィキペディアのプロットサマリーを伴って2200の映画脚本で構成されている。
論文 参考訳(メタデータ) (2024-08-12T16:43:09Z) - Movie101v2: Improved Movie Narration Benchmark [53.54176725112229]
映像の自動ナレーションは、視覚障害者を支援するために、映像に合わせたプロット記述を生成することを目的としている。
映画ナレーションに特化して設計されたデータ品質を向上した大規模バイリンガルデータセットであるMovie101v2を紹介する。
新しいベンチマークに基づいて,GPT-4Vを含む多数の視覚言語モデルをベースライン化し,ナレーション生成における課題の詳細な分析を行う。
論文 参考訳(メタデータ) (2024-04-20T13:15:27Z) - Select and Summarize: Scene Saliency for Movie Script Summarization [11.318175666743656]
そこで本研究では,100本の映画に対して,人間による注釈付きサリエントシーンからなるシーン・サリエンシ・データセットを提案する。
そこで本研究では,まずスクリプト中の健全なシーンを識別し,そのシーンのみを用いて要約を生成する2段階の抽象要約手法を提案する。
論文 参考訳(メタデータ) (2024-04-04T16:16:53Z) - MovieCLIP: Visual Scene Recognition in Movies [38.90153620199725]
既存の映像シーンデータセットは制限されており、映像クリップ内のシーン遷移を考慮していない。
本研究では,映画における視覚的シーン認識の問題に対処するため,まず,映画中心の新たな分類を自動でキュレートする。
コストがかかる手動アノテーションの代わりに、CLIPを使用して、提案した分類に基づく32Kフィルムクリップから112万枚のショットを弱いラベル付けします。
論文 参考訳(メタデータ) (2022-10-20T07:38:56Z) - Movie Summarization via Sparse Graph Construction [65.16768855902268]
マルチモーダル情報を用いて構築された,シーン間の関係を表すスパースなムービーグラフを構築することで,TPシーンを識別するモデルを提案する。
人間の判断によれば、我々のアプローチによって作成された要約は、シーケンスベースモデルや汎用的な要約アルゴリズムの出力よりも、より情報的で完全であり、より高い評価を受けている。
論文 参考訳(メタデータ) (2020-12-14T13:54:34Z) - A Local-to-Global Approach to Multi-modal Movie Scene Segmentation [95.34033481442353]
我々は、150本の映画から21Kの注釈付きシーンセグメントを含む大規模なビデオデータセット、MovieScenesを構築した。
本稿では,クリップ,セグメント,映画の3段階にわたるマルチモーダル情報を統合するローカル・グローバルシーンセグメンテーションフレームワークを提案する。
実験の結果,提案するネットワークは,映画を高い精度でシーンに分割し,従来手法より一貫した性能を発揮することがわかった。
論文 参考訳(メタデータ) (2020-04-06T13:58:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。