論文の概要: MovieNet: A Holistic Dataset for Movie Understanding
- arxiv url: http://arxiv.org/abs/2007.10937v1
- Date: Tue, 21 Jul 2020 16:54:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-08 05:06:02.361107
- Title: MovieNet: A Holistic Dataset for Movie Understanding
- Title(参考訳): movienet:映画理解のための総合データセット
- Authors: Qingqiu Huang, Yu Xiong, Anyi Rao, Jiaze Wang, Dahua Lin
- Abstract要約: 映画理解のための総合的なデータセットであるMovieNetを紹介します。
MovieNetには、トレーラー、写真、プロット記述など、大量のマルチモーダルデータを持つ1,100本の映画が含まれている。
- 参考スコア(独自算出の注目度): 70.73097044730062
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent years have seen remarkable advances in visual understanding. However,
how to understand a story-based long video with artistic styles, e.g. movie,
remains challenging. In this paper, we introduce MovieNet -- a holistic dataset
for movie understanding. MovieNet contains 1,100 movies with a large amount of
multi-modal data, e.g. trailers, photos, plot descriptions, etc. Besides,
different aspects of manual annotations are provided in MovieNet, including
1.1M characters with bounding boxes and identities, 42K scene boundaries, 2.5K
aligned description sentences, 65K tags of place and action, and 92K tags of
cinematic style. To the best of our knowledge, MovieNet is the largest dataset
with richest annotations for comprehensive movie understanding. Based on
MovieNet, we set up several benchmarks for movie understanding from different
angles. Extensive experiments are executed on these benchmarks to show the
immeasurable value of MovieNet and the gap of current approaches towards
comprehensive movie understanding. We believe that such a holistic dataset
would promote the researches on story-based long video understanding and
beyond. MovieNet will be published in compliance with regulations at
https://movienet.github.io.
- Abstract(参考訳): 近年では視覚的理解が著しく進歩している。
しかし、例えば映画のような芸術的なスタイルでストーリーベースのロングビデオを理解する方法はまだ難しい。
本稿では,映画理解のための総合的データセットであるMovieNetを紹介する。
MovieNetには、トレーラー、写真、プロット記述など、大量のマルチモーダルデータを持つ1,100本の映画が含まれている。
また、MovieNetでは、1.1M文字のバウンディングボックスとID、42Kシーン境界、2.5K対応記述文、65Kタグの場所と行動、92Kタグなど、さまざまな手動アノテーションが提供されている。
私たちの知る限りでは、MovieNetは映画理解のための豊富なアノテーションを備えた最大のデータセットです。
MovieNetをベースとして,異なる角度からの映画理解のためのベンチマークを複数設定した。
これらのベンチマークを用いて、MovieNetの計測不可能な価値と、包括的な映画理解への現在のアプローチのギャップを示す。
このような総合的なデータセットが、ストーリーベースの長いビデオ理解などの研究を促進すると信じています。
MovieNetはhttps://movienet.github.ioで規則に従って公開される。
関連論文リスト
- MoviePuzzle: Visual Narrative Reasoning through Multimodal Order
Learning [54.73173491543553]
MoviePuzzleは、ビジュアルな物語の推論と全体論的映画理解をターゲットとする、新しい挑戦である。
本研究では,映像モデルの時間的特徴学習と構造学習を増幅するMoviePuzzleタスクを提案する。
提案手法はMoviePuzzleベンチマークの既存の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2023-06-04T03:51:54Z) - Movie101: A New Movie Understanding Benchmark [47.24519006577205]
大規模な中国の映画ベンチマーク「Movie101」を構築した。
映画ナレーション評価のためのMNScore(Movie Narration Score)と呼ばれる新しい指標を提案する。
両タスクにおいて,提案手法は外部知識をうまく活用し,慎重に設計したベースラインよりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-05-20T08:43:51Z) - Building Scalable Video Understanding Benchmarks through Sports [22.851883205547644]
自動化を導入します。
ビデオストリームアライメントパイプライン(略称ASAP)
我々は,4つのスポーツのラベル付きビデオと対応する濃密なWebアノテーションを連携させることにより,ASAPの汎用性を実証する。
次に、ASAPのスケーラビリティを活用して、大規模な長ビデオ理解ベンチマークであるLCricを作成します。
論文 参考訳(メタデータ) (2023-01-17T13:20:21Z) - MovieCLIP: Visual Scene Recognition in Movies [38.90153620199725]
既存の映像シーンデータセットは制限されており、映像クリップ内のシーン遷移を考慮していない。
本研究では,映画における視覚的シーン認識の問題に対処するため,まず,映画中心の新たな分類を自動でキュレートする。
コストがかかる手動アノテーションの代わりに、CLIPを使用して、提案した分類に基づく32Kフィルムクリップから112万枚のショットを弱いラベル付けします。
論文 参考訳(メタデータ) (2022-10-20T07:38:56Z) - Unsupervised Temporal Video Grounding with Deep Semantic Clustering [58.95918952149763]
時間的ビデオグラウンドティングは、所定の文クエリに従って、ビデオ内のターゲットセグメントをローカライズすることを目的としている。
本稿では,ペアアノテーションを使わずにビデオグラウンドモデルが学べるかどうかを考察する。
ペア化された監視が存在しないことを考慮し,クエリ集合全体からすべての意味情報を活用するための新しいDeep Semantic Clustering Network (DSCNet)を提案する。
論文 参考訳(メタデータ) (2022-01-14T05:16:33Z) - Visual Semantic Role Labeling for Video Understanding [46.02181466801726]
視覚的セマンティック・ロール・ラベリングを用いた映像中の関連イベントの理解と表現のための新しい枠組みを提案する。
ビデオは関連するイベントの集合として表現され、各イベントはそのイベントに関連する様々な役割を果たす動詞と複数のエンティティから構成される。
VidSituベンチマークは、大規模ビデオ理解データソースで、29K$10$-secondの動画クリップに動詞とセマンティックロールが2秒ごとにリッチに注釈付けされている。
論文 参考訳(メタデータ) (2021-04-02T11:23:22Z) - Movie Summarization via Sparse Graph Construction [65.16768855902268]
マルチモーダル情報を用いて構築された,シーン間の関係を表すスパースなムービーグラフを構築することで,TPシーンを識別するモデルを提案する。
人間の判断によれば、我々のアプローチによって作成された要約は、シーケンスベースモデルや汎用的な要約アルゴリズムの出力よりも、より情報的で完全であり、より高い評価を受けている。
論文 参考訳(メタデータ) (2020-12-14T13:54:34Z) - Condensed Movies: Story Based Retrieval with Contextual Embeddings [83.73479493450009]
我々は3K映画の主要シーンからなるコンデンサド映画データセット(CMD)を作成する。
データセットはスケーラブルで、YouTubeから自動的に取得され、誰でもダウンロードして利用できる。
我々は、文字、音声、視覚的手がかりを1つのビデオ埋め込みに組み合わせ、データセット上でテキストからビデオまでを検索するためのディープネットワークベースラインを提供する。
論文 参考訳(メタデータ) (2020-05-08T17:55:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。