論文の概要: MovieNet: A Holistic Dataset for Movie Understanding
- arxiv url: http://arxiv.org/abs/2007.10937v1
- Date: Tue, 21 Jul 2020 16:54:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-08 05:06:02.361107
- Title: MovieNet: A Holistic Dataset for Movie Understanding
- Title(参考訳): movienet:映画理解のための総合データセット
- Authors: Qingqiu Huang, Yu Xiong, Anyi Rao, Jiaze Wang, Dahua Lin
- Abstract要約: 映画理解のための総合的なデータセットであるMovieNetを紹介します。
MovieNetには、トレーラー、写真、プロット記述など、大量のマルチモーダルデータを持つ1,100本の映画が含まれている。
- 参考スコア(独自算出の注目度): 70.73097044730062
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent years have seen remarkable advances in visual understanding. However,
how to understand a story-based long video with artistic styles, e.g. movie,
remains challenging. In this paper, we introduce MovieNet -- a holistic dataset
for movie understanding. MovieNet contains 1,100 movies with a large amount of
multi-modal data, e.g. trailers, photos, plot descriptions, etc. Besides,
different aspects of manual annotations are provided in MovieNet, including
1.1M characters with bounding boxes and identities, 42K scene boundaries, 2.5K
aligned description sentences, 65K tags of place and action, and 92K tags of
cinematic style. To the best of our knowledge, MovieNet is the largest dataset
with richest annotations for comprehensive movie understanding. Based on
MovieNet, we set up several benchmarks for movie understanding from different
angles. Extensive experiments are executed on these benchmarks to show the
immeasurable value of MovieNet and the gap of current approaches towards
comprehensive movie understanding. We believe that such a holistic dataset
would promote the researches on story-based long video understanding and
beyond. MovieNet will be published in compliance with regulations at
https://movienet.github.io.
- Abstract(参考訳): 近年では視覚的理解が著しく進歩している。
しかし、例えば映画のような芸術的なスタイルでストーリーベースのロングビデオを理解する方法はまだ難しい。
本稿では,映画理解のための総合的データセットであるMovieNetを紹介する。
MovieNetには、トレーラー、写真、プロット記述など、大量のマルチモーダルデータを持つ1,100本の映画が含まれている。
また、MovieNetでは、1.1M文字のバウンディングボックスとID、42Kシーン境界、2.5K対応記述文、65Kタグの場所と行動、92Kタグなど、さまざまな手動アノテーションが提供されている。
私たちの知る限りでは、MovieNetは映画理解のための豊富なアノテーションを備えた最大のデータセットです。
MovieNetをベースとして,異なる角度からの映画理解のためのベンチマークを複数設定した。
これらのベンチマークを用いて、MovieNetの計測不可能な価値と、包括的な映画理解への現在のアプローチのギャップを示す。
このような総合的なデータセットが、ストーリーベースの長いビデオ理解などの研究を促進すると信じています。
MovieNetはhttps://movienet.github.ioで規則に従って公開される。
関連論文リスト
- MovieBench: A Hierarchical Movie Level Dataset for Long Video Generation [62.85764872989189]
長いビデオ生成モデルの分析、評価、トレーニングに適したデータセットは公開されていない。
The MovieBench: A Hierarchical Movie-Level dataset for Long Video Generation。
データセットは公開され、継続的に維持され、長いビデオ生成の分野を前進させることを目的としている。
論文 参考訳(メタデータ) (2024-11-22T10:25:08Z) - MovieSum: An Abstractive Summarization Dataset for Movie Screenplays [11.318175666743656]
映画脚本の抽象的な要約のための新しいデータセットであるMovieSumを提示する。
このデータセットはウィキペディアのプロットサマリーを伴って2200の映画脚本で構成されている。
論文 参考訳(メタデータ) (2024-08-12T16:43:09Z) - Multilingual Synopses of Movie Narratives: A Dataset for Vision-Language Story Understanding [19.544839928488972]
我々はM-SYMON(Multilingual Synopses of Movie Narratives)という大規模多言語ビデオストーリーデータセットを構築した。
M-SYMONには、7つの言語からの13,166本の映画要約ビデオと、101.5時間のビデオの詳細なビデオテキスト対応のマニュアルアノテーションが含まれている。
SyMoNからの注釈付きデータのトレーニングは、Clip AccuracyとSentence IoUのスコアでそれぞれ15.7と16.2でSOTA法を上回ります。
論文 参考訳(メタデータ) (2024-06-18T22:44:50Z) - Short Film Dataset (SFD): A Benchmark for Story-Level Video Understanding [30.06191555110948]
本研究では,1078本のアマチュア映画を公開するショートフィルムデータセットを提案する。
本実験は,SFD課題を解決するための長期的推論の必要性を強調した。
視覚データのみを使用する場合と比較して、現在のモデルの性能は大幅に低下する。
論文 参考訳(メタデータ) (2024-06-14T17:54:54Z) - MoviePuzzle: Visual Narrative Reasoning through Multimodal Order
Learning [54.73173491543553]
MoviePuzzleは、ビジュアルな物語の推論と全体論的映画理解をターゲットとする、新しい挑戦である。
本研究では,映像モデルの時間的特徴学習と構造学習を増幅するMoviePuzzleタスクを提案する。
提案手法はMoviePuzzleベンチマークの既存の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2023-06-04T03:51:54Z) - MovieCLIP: Visual Scene Recognition in Movies [38.90153620199725]
既存の映像シーンデータセットは制限されており、映像クリップ内のシーン遷移を考慮していない。
本研究では,映画における視覚的シーン認識の問題に対処するため,まず,映画中心の新たな分類を自動でキュレートする。
コストがかかる手動アノテーションの代わりに、CLIPを使用して、提案した分類に基づく32Kフィルムクリップから112万枚のショットを弱いラベル付けします。
論文 参考訳(メタデータ) (2022-10-20T07:38:56Z) - Unsupervised Temporal Video Grounding with Deep Semantic Clustering [58.95918952149763]
時間的ビデオグラウンドティングは、所定の文クエリに従って、ビデオ内のターゲットセグメントをローカライズすることを目的としている。
本稿では,ペアアノテーションを使わずにビデオグラウンドモデルが学べるかどうかを考察する。
ペア化された監視が存在しないことを考慮し,クエリ集合全体からすべての意味情報を活用するための新しいDeep Semantic Clustering Network (DSCNet)を提案する。
論文 参考訳(メタデータ) (2022-01-14T05:16:33Z) - Movie Summarization via Sparse Graph Construction [65.16768855902268]
マルチモーダル情報を用いて構築された,シーン間の関係を表すスパースなムービーグラフを構築することで,TPシーンを識別するモデルを提案する。
人間の判断によれば、我々のアプローチによって作成された要約は、シーケンスベースモデルや汎用的な要約アルゴリズムの出力よりも、より情報的で完全であり、より高い評価を受けている。
論文 参考訳(メタデータ) (2020-12-14T13:54:34Z) - Condensed Movies: Story Based Retrieval with Contextual Embeddings [83.73479493450009]
我々は3K映画の主要シーンからなるコンデンサド映画データセット(CMD)を作成する。
データセットはスケーラブルで、YouTubeから自動的に取得され、誰でもダウンロードして利用できる。
我々は、文字、音声、視覚的手がかりを1つのビデオ埋め込みに組み合わせ、データセット上でテキストからビデオまでを検索するためのディープネットワークベースラインを提供する。
論文 参考訳(メタデータ) (2020-05-08T17:55:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。