論文の概要: Condensed Movies: Story Based Retrieval with Contextual Embeddings
- arxiv url: http://arxiv.org/abs/2005.04208v2
- Date: Thu, 22 Oct 2020 23:42:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-05 12:52:39.305259
- Title: Condensed Movies: Story Based Retrieval with Contextual Embeddings
- Title(参考訳): 凝縮映画:文脈埋め込みによるストーリーベース検索
- Authors: Max Bain, Arsha Nagrani, Andrew Brown, Andrew Zisserman
- Abstract要約: 我々は3K映画の主要シーンからなるコンデンサド映画データセット(CMD)を作成する。
データセットはスケーラブルで、YouTubeから自動的に取得され、誰でもダウンロードして利用できる。
我々は、文字、音声、視覚的手がかりを1つのビデオ埋め込みに組み合わせ、データセット上でテキストからビデオまでを検索するためのディープネットワークベースラインを提供する。
- 参考スコア(独自算出の注目度): 83.73479493450009
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Our objective in this work is long range understanding of the narrative
structure of movies. Instead of considering the entire movie, we propose to
learn from the `key scenes' of the movie, providing a condensed look at the
full storyline. To this end, we make the following three contributions: (i) We
create the Condensed Movies Dataset (CMD) consisting of the key scenes from
over 3K movies: each key scene is accompanied by a high level semantic
description of the scene, character face-tracks, and metadata about the movie.
The dataset is scalable, obtained automatically from YouTube, and is freely
available for anybody to download and use. It is also an order of magnitude
larger than existing movie datasets in the number of movies; (ii) We provide a
deep network baseline for text-to-video retrieval on our dataset, combining
character, speech and visual cues into a single video embedding; and finally
(iii) We demonstrate how the addition of context from other video clips
improves retrieval performance.
- Abstract(参考訳): この作品の目標は、映画の物語構造を長距離に理解することである。
映画全体を考える代わりに、映画の「キーシーン」から学び、完全なストーリーラインを凝縮して見ることを提案する。
この目的のために、以下の3つの貢献をしている。
(i)各シーンには、シーンの高レベルな意味的記述、キャラクターの対面トラック、映画に関するメタデータが付随する、3k映画からの重要場面からなるコンデンス映画データセット(cmd)を作成する。
データセットはスケーラブルで、YouTubeから自動的に取得され、誰でもダウンロードして利用できる。
また、映画数において、既存の映画データセットよりも桁違いに大きい。
(ii) データセット上でのテキスト・ビデオ検索のためのディープネットワークベースラインを提供し、文字・音声・視覚的手がかりを1つのビデオ埋め込みに組み合わせ、そして最後に
(iii)他のビデオクリップからのコンテキストの追加により検索性能が向上することを示す。
関連論文リスト
- Hierarchical Video-Moment Retrieval and Step-Captioning [68.4859260853096]
HiRESTは、インストラクショナルビデオデータセットから3.4Kのテキストビデオペアで構成されている。
我々の階層的ベンチマークは、ビデオ検索、モーメント検索、2つの新しいモーメントセグメンテーション、ステップキャプションタスクからなる。
論文 参考訳(メタデータ) (2023-03-29T02:33:54Z) - Cap4Video: What Can Auxiliary Captions Do for Text-Video Retrieval? [131.300931102986]
現実のシナリオでは、オンラインビデオにはタイトルやタグ、サブタイトルなど、関連するテキスト情報が添付されることが多い。
そこで本研究では,ゼロショットビデオキャプションを用いて動画から関連キャプションを直接生成する手法を提案する。
我々は,我々のアプローチの有効性を実証する包括的アブレーション研究を行っている。
論文 参考訳(メタデータ) (2022-12-31T11:50:32Z) - MovieCLIP: Visual Scene Recognition in Movies [38.90153620199725]
既存の映像シーンデータセットは制限されており、映像クリップ内のシーン遷移を考慮していない。
本研究では,映画における視覚的シーン認識の問題に対処するため,まず,映画中心の新たな分類を自動でキュレートする。
コストがかかる手動アノテーションの代わりに、CLIPを使用して、提案した分類に基づく32Kフィルムクリップから112万枚のショットを弱いラベル付けします。
論文 参考訳(メタデータ) (2022-10-20T07:38:56Z) - Movies2Scenes: Using Movie Metadata to Learn Scene Representation [8.708989357658501]
本稿では,映画メタデータを用いて汎用シーン表現を学習する新しいコントラスト学習手法を提案する。
具体的には、映画のメタデータを用いて、映画の類似度を定義し、対照的な学習中にそれを使って、ポジティブなシーンペアの検索を制限する。
学習シーンの表現は、複数のベンチマークデータセットを用いて評価されたタスクの多種多様なセットにおいて、既存の最先端メソッドよりも一貫して優れています。
論文 参考訳(メタデータ) (2022-02-22T03:31:33Z) - Movie Summarization via Sparse Graph Construction [65.16768855902268]
マルチモーダル情報を用いて構築された,シーン間の関係を表すスパースなムービーグラフを構築することで,TPシーンを識別するモデルを提案する。
人間の判断によれば、我々のアプローチによって作成された要約は、シーケンスベースモデルや汎用的な要約アルゴリズムの出力よりも、より情報的で完全であり、より高い評価を受けている。
論文 参考訳(メタデータ) (2020-12-14T13:54:34Z) - QuerYD: A video dataset with high-quality text and audio narrations [85.6468286746623]
ビデオの検索とイベントのローカライゼーションのための大規模データセットQuerYDを紹介する。
データセットのユニークな特徴は、ビデオ毎に2つのオーディオトラック(オリジナルオーディオと高品質な音声記述)が利用可能であることです。
YouDescribeは、既存のYouTubeビデオに音声ナレーションを付加することで視覚障害者を支援するボランティアプロジェクトだ。
論文 参考訳(メタデータ) (2020-11-22T17:33:44Z) - A Local-to-Global Approach to Multi-modal Movie Scene Segmentation [95.34033481442353]
我々は、150本の映画から21Kの注釈付きシーンセグメントを含む大規模なビデオデータセット、MovieScenesを構築した。
本稿では,クリップ,セグメント,映画の3段階にわたるマルチモーダル情報を統合するローカル・グローバルシーンセグメンテーションフレームワークを提案する。
実験の結果,提案するネットワークは,映画を高い精度でシーンに分割し,従来手法より一貫した性能を発揮することがわかった。
論文 参考訳(メタデータ) (2020-04-06T13:58:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。