論文の概要: Movies2Scenes: Learning Scene Representations Using Movie Similarities
- arxiv url: http://arxiv.org/abs/2202.10650v1
- Date: Tue, 22 Feb 2022 03:31:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-23 15:34:24.933554
- Title: Movies2Scenes: Learning Scene Representations Using Movie Similarities
- Title(参考訳): Movies2Scenes: 映画の類似性を利用したシーン表現の学習
- Authors: Shixing Chen, Xiang Hao, Xiaohan Nie, Raffay Hamid
- Abstract要約: ロングフォーム映画は、映画のシーンのラベル付けを面倒な作業にします。
映画シーンを理解するためにエンドツーエンドの教師付きアプローチを適用することは、難しい問題である。
そこで本研究では,映画情報ソースを用いた新しいコントラスト学習手法を提案する。
- 参考スコア(独自算出の注目度): 8.24752719078804
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Automatic understanding of movie-scenes is an important problem with multiple
downstream applications including video-moderation, search and recommendation.
The long-form nature of movies makes labeling of movie scenes a laborious task,
which makes applying end-to-end supervised approaches for understanding
movie-scenes a challenging problem. Directly applying state-of-the-art visual
representations learned from large-scale image datasets for movie-scene
understanding does not prove to be effective given the large gap between the
two domains. To address these challenges, we propose a novel contrastive
learning approach that uses commonly available sources of movie-information
(e.g., genre, synopsis, more-like-this information) to learn a general-purpose
scene-representation. Using a new dataset (MovieCL30K) with 30,340 movies, we
demonstrate that our learned scene-representation surpasses existing
state-of-the-art results on eleven downstream tasks from multiple datasets. To
further show the effectiveness of our scene-representation, we introduce
another new dataset (MCD) focused on large-scale video-moderation with 44,581
clips containing sex, violence, and drug-use activities covering 18,330 movies
and TV episodes, and show strong gains over existing state-of-the-art
approaches.
- Abstract(参考訳): 映画シーンの自動理解は、ビデオモデレーション、検索、レコメンデーションを含む複数の下流アプリケーションにおいて重要な問題である。
長い映画の性質は、映画シーンのラベリングを面倒な作業にするので、映画シーンを理解するためにエンドツーエンドの教師付きアプローチを適用することは難しい問題になります。
映像・シーン理解のための大規模画像データセットから学んだ最先端の視覚表現を直接適用することは、2つのドメイン間の大きなギャップを考えると効果的ではない。
これらの課題に対処するために,映画情報(ジャンル,シナプス,よりよく似た情報)の源泉を用いて汎用的なシーン表現を学ぶ,新しいコントラスト学習手法を提案する。
30,340本の映画を含む新しいデータセット(MovieCL30K)を用いて、学習したシーン表現が、複数のデータセットから11の下流タスクにおいて、既存の最先端の結果を上回ることを実証した。
シーン表現の有効性をさらに示すために, 大規模ビデオモデレーションに焦点をあてた新たなデータセット (MCD) を導入し, セックス, 暴力, ドラッグユース活動18,330本の映画とテレビのエピソードを収録した44,581本のビデオクリップを収録し, 既存の最先端のアプローチよりも強い効果を示した。
関連論文リスト
- Video Decomposition Prior: A Methodology to Decompose Videos into Layers [74.36790196133505]
本稿では,プロのビデオ編集の実践からインスピレーションを得た,VDP以前の新しいビデオ分解手法を提案する。
VDPフレームワークは、ビデオシーケンスを複数のRGBレイヤと関連する不透明度レベルに分解する。
ビデオオブジェクトのセグメンテーション、デハジング、リライティングといったタスクに対処する。
論文 参考訳(メタデータ) (2024-12-06T10:35:45Z) - DivScene: Benchmarking LVLMs for Object Navigation with Diverse Scenes and Objects [84.73092715537364]
本稿では,多数のシーンタイプにおいて,多様な対象物にナビゲートする新たな課題について検討する。
我々は、模倣学習によりLVLM(Large Vision Language Model)を微調整することにより、エンドツーエンドのエンボディエージェントであるNatVLMを構築した。
我々のエージェントは、GPT-4oを超える成功率を20%以上達成する。
論文 参考訳(メタデータ) (2024-10-03T17:49:28Z) - Select and Summarize: Scene Saliency for Movie Script Summarization [11.318175666743656]
そこで本研究では,100本の映画に対して,人間による注釈付きサリエントシーンからなるシーン・サリエンシ・データセットを提案する。
そこで本研究では,まずスクリプト中の健全なシーンを識別し,そのシーンのみを用いて要約を生成する2段階の抽象要約手法を提案する。
論文 参考訳(メタデータ) (2024-04-04T16:16:53Z) - Scene Consistency Representation Learning for Video Scene Segmentation [26.790491577584366]
本稿では,長期ビデオからより優れたショット表現を学習するための,効果的な自己監視学習(SSL)フレームワークを提案する。
本稿では,シーンの一貫性を実現するためのSSLスキームを提案するとともに,モデルの一般化性を高めるためのデータ拡張とシャッフル手法について検討する。
本手法は,映像シーンのタスクにおける最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-05-11T13:31:15Z) - Movie Genre Classification by Language Augmentation and Shot Sampling [20.119729119879466]
本稿では,Language augmentatIon とshot SamPling (Movie-CLIP) を用いた映画ジャンル分類手法を提案する。
Movie-CLIPは主に、入力オーディオから言語要素を認識する言語拡張モジュールと、ビデオ全体から代表ショットを選択するショットサンプリングモジュールの2つの部分で構成されている。
本手法をMovieNetとCondensed Moviesのデータセット上で評価し,平均精度(mAP)を平均6~9%向上させた。
論文 参考訳(メタデータ) (2022-03-24T18:15:12Z) - Movie Summarization via Sparse Graph Construction [65.16768855902268]
マルチモーダル情報を用いて構築された,シーン間の関係を表すスパースなムービーグラフを構築することで,TPシーンを識別するモデルを提案する。
人間の判断によれば、我々のアプローチによって作成された要約は、シーケンスベースモデルや汎用的な要約アルゴリズムの出力よりも、より情報的で完全であり、より高い評価を受けている。
論文 参考訳(メタデータ) (2020-12-14T13:54:34Z) - Enhancing Unsupervised Video Representation Learning by Decoupling the
Scene and the Motion [86.56202610716504]
アクションカテゴリは、アクションが発生するシーンと非常に関連しているため、モデルが、シーン情報のみを符号化したソリューションに分解する傾向がある。
本稿では,シーンと動き(DSM)を2つの簡単な操作で分離し,動き情報に対するモデル注意がより高いようにすることを提案する。
論文 参考訳(メタデータ) (2020-09-12T09:54:11Z) - Condensed Movies: Story Based Retrieval with Contextual Embeddings [83.73479493450009]
我々は3K映画の主要シーンからなるコンデンサド映画データセット(CMD)を作成する。
データセットはスケーラブルで、YouTubeから自動的に取得され、誰でもダウンロードして利用できる。
我々は、文字、音声、視覚的手がかりを1つのビデオ埋め込みに組み合わせ、データセット上でテキストからビデオまでを検索するためのディープネットワークベースラインを提供する。
論文 参考訳(メタデータ) (2020-05-08T17:55:03Z) - A Local-to-Global Approach to Multi-modal Movie Scene Segmentation [95.34033481442353]
我々は、150本の映画から21Kの注釈付きシーンセグメントを含む大規模なビデオデータセット、MovieScenesを構築した。
本稿では,クリップ,セグメント,映画の3段階にわたるマルチモーダル情報を統合するローカル・グローバルシーンセグメンテーションフレームワークを提案する。
実験の結果,提案するネットワークは,映画を高い精度でシーンに分割し,従来手法より一貫した性能を発揮することがわかった。
論文 参考訳(メタデータ) (2020-04-06T13:58:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。