Fugu-MT 論文翻訳(概要): MovieNet: A Holistic Dataset for Movie Understanding

論文の概要: MovieNet: A Holistic Dataset for Movie Understanding

arxiv url: http://arxiv.org/abs/2007.10937v1
Date: Tue, 21 Jul 2020 16:54:33 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-08 05:06:02.361107
Title: MovieNet: A Holistic Dataset for Movie Understanding
Title（参考訳）: movienet:映画理解のための総合データセット
Authors: Qingqiu Huang, Yu Xiong, Anyi Rao, Jiaze Wang, Dahua Lin
Abstract要約: 映画理解のための総合的なデータセットであるMovieNetを紹介します。 MovieNetには、トレーラー、写真、プロット記述など、大量のマルチモーダルデータを持つ1,100本の映画が含まれている。
参考スコア（独自算出の注目度）: 70.73097044730062
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent years have seen remarkable advances in visual understanding. However, how to understand a story-based long video with artistic styles, e.g. movie, remains challenging. In this paper, we introduce MovieNet -- a holistic dataset for movie understanding. MovieNet contains 1,100 movies with a large amount of multi-modal data, e.g. trailers, photos, plot descriptions, etc. Besides, different aspects of manual annotations are provided in MovieNet, including 1.1M characters with bounding boxes and identities, 42K scene boundaries, 2.5K aligned description sentences, 65K tags of place and action, and 92K tags of cinematic style. To the best of our knowledge, MovieNet is the largest dataset with richest annotations for comprehensive movie understanding. Based on MovieNet, we set up several benchmarks for movie understanding from different angles. Extensive experiments are executed on these benchmarks to show the immeasurable value of MovieNet and the gap of current approaches towards comprehensive movie understanding. We believe that such a holistic dataset would promote the researches on story-based long video understanding and beyond. MovieNet will be published in compliance with regulations at https://movienet.github.io.
Abstract（参考訳）: 近年では視覚的理解が著しく進歩している。しかし、例えば映画のような芸術的なスタイルでストーリーベースのロングビデオを理解する方法はまだ難しい。本稿では,映画理解のための総合的データセットであるMovieNetを紹介する。 MovieNetには、トレーラー、写真、プロット記述など、大量のマルチモーダルデータを持つ1,100本の映画が含まれている。また、MovieNetでは、1.1M文字のバウンディングボックスとID、42Kシーン境界、2.5K対応記述文、65Kタグの場所と行動、92Kタグなど、さまざまな手動アノテーションが提供されている。私たちの知る限りでは、MovieNetは映画理解のための豊富なアノテーションを備えた最大のデータセットです。 MovieNetをベースとして,異なる角度からの映画理解のためのベンチマークを複数設定した。これらのベンチマークを用いて、MovieNetの計測不可能な価値と、包括的な映画理解への現在のアプローチのギャップを示す。このような総合的なデータセットが、ストーリーベースの長いビデオ理解などの研究を促進すると信じています。 MovieNetはhttps://movienet.github.ioで規則に従って公開される。

関連論文リスト

MovieBench: A Hierarchical Movie Level Dataset for Long Video Generation [62.85764872989189]
長いビデオ生成モデルの分析、評価、トレーニングに適したデータセットは公開されていない。 The MovieBench: A Hierarchical Movie-Level dataset for Long Video Generation。データセットは公開され、継続的に維持され、長いビデオ生成の分野を前進させることを目的としている。
論文参考訳（メタデータ） (2024-11-22T10:25:08Z)
MovieSum: An Abstractive Summarization Dataset for Movie Screenplays [11.318175666743656]
映画脚本の抽象的な要約のための新しいデータセットであるMovieSumを提示する。このデータセットはウィキペディアのプロットサマリーを伴って2200の映画脚本で構成されている。
論文参考訳（メタデータ） (2024-08-12T16:43:09Z)
Multilingual Synopses of Movie Narratives: A Dataset for Vision-Language Story Understanding [19.544839928488972]
我々はM-SYMON(Multilingual Synopses of Movie Narratives)という大規模多言語ビデオストーリーデータセットを構築した。 M-SYMONには、7つの言語からの13,166本の映画要約ビデオと、101.5時間のビデオの詳細なビデオテキスト対応のマニュアルアノテーションが含まれている。 SyMoNからの注釈付きデータのトレーニングは、Clip AccuracyとSentence IoUのスコアでそれぞれ15.7と16.2でSOTA法を上回ります。
論文参考訳（メタデータ） (2024-06-18T22:44:50Z)
Short Film Dataset (SFD): A Benchmark for Story-Level Video Understanding [30.06191555110948]
本研究では,1078本のアマチュア映画を公開するショートフィルムデータセットを提案する。本実験は,SFD課題を解決するための長期的推論の必要性を強調した。視覚データのみを使用する場合と比較して、現在のモデルの性能は大幅に低下する。
論文参考訳（メタデータ） (2024-06-14T17:54:54Z)
Vript: A Video Is Worth Thousands of Words [54.815686588378156]
Vriptは12Kの高解像度ビデオの注釈付きコーパスで、420Kのクリップで詳細な、密度の高い、スクリプトのようなキャプションを提供する。各クリップには145ワードのキャプションがあり、ほとんどのビデオテキストデータセットの10倍以上の長さである。 Vriptは、長いビデオのための高密度で詳細なキャプションをエンドツーエンドに生成できる強力なモデルである。
論文参考訳（メタデータ） (2024-06-10T06:17:55Z)
MoviePuzzle: Visual Narrative Reasoning through Multimodal Order Learning [54.73173491543553]
MoviePuzzleは、ビジュアルな物語の推論と全体論的映画理解をターゲットとする、新しい挑戦である。本研究では,映像モデルの時間的特徴学習と構造学習を増幅するMoviePuzzleタスクを提案する。提案手法はMoviePuzzleベンチマークの既存の最先端手法よりも優れている。
論文参考訳（メタデータ） (2023-06-04T03:51:54Z)
MovieCLIP: Visual Scene Recognition in Movies [38.90153620199725]
既存の映像シーンデータセットは制限されており、映像クリップ内のシーン遷移を考慮していない。本研究では,映画における視覚的シーン認識の問題に対処するため,まず,映画中心の新たな分類を自動でキュレートする。コストがかかる手動アノテーションの代わりに、CLIPを使用して、提案した分類に基づく32Kフィルムクリップから112万枚のショットを弱いラベル付けします。
論文参考訳（メタデータ） (2022-10-20T07:38:56Z)
Unsupervised Temporal Video Grounding with Deep Semantic Clustering [58.95918952149763]
時間的ビデオグラウンドティングは、所定の文クエリに従って、ビデオ内のターゲットセグメントをローカライズすることを目的としている。本稿では,ペアアノテーションを使わずにビデオグラウンドモデルが学べるかどうかを考察する。ペア化された監視が存在しないことを考慮し,クエリ集合全体からすべての意味情報を活用するための新しいDeep Semantic Clustering Network (DSCNet)を提案する。
論文参考訳（メタデータ） (2022-01-14T05:16:33Z)
Movie Summarization via Sparse Graph Construction [65.16768855902268]
マルチモーダル情報を用いて構築された,シーン間の関係を表すスパースなムービーグラフを構築することで,TPシーンを識別するモデルを提案する。人間の判断によれば、我々のアプローチによって作成された要約は、シーケンスベースモデルや汎用的な要約アルゴリズムの出力よりも、より情報的で完全であり、より高い評価を受けている。
論文参考訳（メタデータ） (2020-12-14T13:54:34Z)
Condensed Movies: Story Based Retrieval with Contextual Embeddings [83.73479493450009]
我々は3K映画の主要シーンからなるコンデンサド映画データセット(CMD)を作成する。データセットはスケーラブルで、YouTubeから自動的に取得され、誰でもダウンロードして利用できる。我々は、文字、音声、視覚的手がかりを1つのビデオ埋め込みに組み合わせ、データセット上でテキストからビデオまでを検索するためのディープネットワークベースラインを提供する。
論文参考訳（メタデータ） (2020-05-08T17:55:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。