論文の概要: Movies2Scenes: Using Movie Metadata to Learn Scene Representation
- arxiv url: http://arxiv.org/abs/2202.10650v3
- Date: Thu, 30 Mar 2023 00:51:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-31 18:38:29.171866
- Title: Movies2Scenes: Using Movie Metadata to Learn Scene Representation
- Title(参考訳): movies2scenes:映画メタデータを使ってシーン表現を学ぶ
- Authors: Shixing Chen, Chun-Hao Liu, Xiang Hao, Xiaohan Nie, Maxim Arap, Raffay
Hamid
- Abstract要約: 本稿では,映画メタデータを用いて汎用シーン表現を学習する新しいコントラスト学習手法を提案する。
具体的には、映画のメタデータを用いて、映画の類似度を定義し、対照的な学習中にそれを使って、ポジティブなシーンペアの検索を制限する。
学習シーンの表現は、複数のベンチマークデータセットを用いて評価されたタスクの多種多様なセットにおいて、既存の最先端メソッドよりも一貫して優れています。
- 参考スコア(独自算出の注目度): 8.708989357658501
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Understanding scenes in movies is crucial for a variety of applications such
as video moderation, search, and recommendation. However, labeling individual
scenes is a time-consuming process. In contrast, movie level metadata (e.g.,
genre, synopsis, etc.) regularly gets produced as part of the film production
process, and is therefore significantly more commonly available. In this work,
we propose a novel contrastive learning approach that uses movie metadata to
learn a general-purpose scene representation. Specifically, we use movie
metadata to define a measure of movie similarity, and use it during contrastive
learning to limit our search for positive scene-pairs to only the movies that
are considered similar to each other. Our learned scene representation
consistently outperforms existing state-of-the-art methods on a diverse set of
tasks evaluated using multiple benchmark datasets. Notably, our learned
representation offers an average improvement of 7.9% on the seven
classification tasks and 9.7% improvement on the two regression tasks in LVU
dataset. Furthermore, using a newly collected movie dataset, we present
comparative results of our scene representation on a set of video moderation
tasks to demonstrate its generalizability on previously less explored tasks.
- Abstract(参考訳): 映画のシーンを理解することは、ビデオモデレーション、検索、レコメンデーションなど、さまざまなアプリケーションにとって不可欠である。
しかし、個々のシーンのラベル付けは時間がかかる。
対照的に、映画レベルのメタデータ(ジャンル、シナプスなど)は、映画制作プロセスの一部として定期的に生産されるため、より一般的である。
本研究では,映画メタデータを用いて汎用シーン表現を学習する新しいコントラスト学習手法を提案する。
具体的には,映画メタデータを用いて映画類似性の尺度を定義し,コントラスト学習中にそれを用いてポジティブなシーンペアの探索を互いに類似していると考えられる映画に限定する。
学習シーンの表現は、複数のベンチマークデータセットを用いて評価された多様なタスクセットにおいて、既存の最先端メソッドよりも一貫して優れています。
特に、学習した表現は、7つの分類タスクの平均7.9%、LVUデータセットの2つの回帰タスクの平均9.7%の改善を提供します。
さらに,新たに収集した映画データセットを用いて,映像モデレーションタスクの集合上でのシーン表現の比較結果を提示し,その一般化可能性を示す。
関連論文リスト
- DivScene: Benchmarking LVLMs for Object Navigation with Diverse Scenes and Objects [84.73092715537364]
本稿では,多数のシーンタイプにおいて,多様な対象物にナビゲートする新たな課題について検討する。
我々は、模倣学習によりLVLM(Large Vision Language Model)を微調整することにより、エンドツーエンドのエンボディエージェントであるNatVLMを構築した。
我々のエージェントは、GPT-4oを超える成功率を20%以上達成する。
論文 参考訳(メタデータ) (2024-10-03T17:49:28Z) - Select and Summarize: Scene Saliency for Movie Script Summarization [11.318175666743656]
そこで本研究では,100本の映画に対して,人間による注釈付きサリエントシーンからなるシーン・サリエンシ・データセットを提案する。
そこで本研究では,まずスクリプト中の健全なシーンを識別し,そのシーンのみを用いて要約を生成する2段階の抽象要約手法を提案する。
論文 参考訳(メタデータ) (2024-04-04T16:16:53Z) - Scene Consistency Representation Learning for Video Scene Segmentation [26.790491577584366]
本稿では,長期ビデオからより優れたショット表現を学習するための,効果的な自己監視学習(SSL)フレームワークを提案する。
本稿では,シーンの一貫性を実現するためのSSLスキームを提案するとともに,モデルの一般化性を高めるためのデータ拡張とシャッフル手法について検討する。
本手法は,映像シーンのタスクにおける最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-05-11T13:31:15Z) - Movie Genre Classification by Language Augmentation and Shot Sampling [20.119729119879466]
本稿では,Language augmentatIon とshot SamPling (Movie-CLIP) を用いた映画ジャンル分類手法を提案する。
Movie-CLIPは主に、入力オーディオから言語要素を認識する言語拡張モジュールと、ビデオ全体から代表ショットを選択するショットサンプリングモジュールの2つの部分で構成されている。
本手法をMovieNetとCondensed Moviesのデータセット上で評価し,平均精度(mAP)を平均6~9%向上させた。
論文 参考訳(メタデータ) (2022-03-24T18:15:12Z) - ASCNet: Self-supervised Video Representation Learning with
Appearance-Speed Consistency [62.38914747727636]
本研究では,1)明示的な監督のためのラベルの欠如,2)構造化されていない,ノイズの多い視覚情報による自己指導型映像表現学習について検討する。
既存の方法は、主にビデオクリップをインスタンスとしてコントラスト損失を使用し、互いにインスタンスを識別することで視覚的表現を学ぶ。
本稿では,ロバストな映像表現を学ぶ上で,正のサンプル間の一貫性が鍵となることを観察する。
論文 参考訳(メタデータ) (2021-06-04T08:44:50Z) - Movie Summarization via Sparse Graph Construction [65.16768855902268]
マルチモーダル情報を用いて構築された,シーン間の関係を表すスパースなムービーグラフを構築することで,TPシーンを識別するモデルを提案する。
人間の判断によれば、我々のアプローチによって作成された要約は、シーケンスベースモデルや汎用的な要約アルゴリズムの出力よりも、より情報的で完全であり、より高い評価を受けている。
論文 参考訳(メタデータ) (2020-12-14T13:54:34Z) - Enhancing Unsupervised Video Representation Learning by Decoupling the
Scene and the Motion [86.56202610716504]
アクションカテゴリは、アクションが発生するシーンと非常に関連しているため、モデルが、シーン情報のみを符号化したソリューションに分解する傾向がある。
本稿では,シーンと動き(DSM)を2つの簡単な操作で分離し,動き情報に対するモデル注意がより高いようにすることを提案する。
論文 参考訳(メタデータ) (2020-09-12T09:54:11Z) - Condensed Movies: Story Based Retrieval with Contextual Embeddings [83.73479493450009]
我々は3K映画の主要シーンからなるコンデンサド映画データセット(CMD)を作成する。
データセットはスケーラブルで、YouTubeから自動的に取得され、誰でもダウンロードして利用できる。
我々は、文字、音声、視覚的手がかりを1つのビデオ埋め込みに組み合わせ、データセット上でテキストからビデオまでを検索するためのディープネットワークベースラインを提供する。
論文 参考訳(メタデータ) (2020-05-08T17:55:03Z) - A Local-to-Global Approach to Multi-modal Movie Scene Segmentation [95.34033481442353]
我々は、150本の映画から21Kの注釈付きシーンセグメントを含む大規模なビデオデータセット、MovieScenesを構築した。
本稿では,クリップ,セグメント,映画の3段階にわたるマルチモーダル情報を統合するローカル・グローバルシーンセグメンテーションフレームワークを提案する。
実験の結果,提案するネットワークは,映画を高い精度でシーンに分割し,従来手法より一貫した性能を発揮することがわかった。
論文 参考訳(メタデータ) (2020-04-06T13:58:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。