論文の概要: MovieCLIP: Visual Scene Recognition in Movies
- arxiv url: http://arxiv.org/abs/2210.11065v2
- Date: Sun, 23 Oct 2022 01:25:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 14:49:17.123131
- Title: MovieCLIP: Visual Scene Recognition in Movies
- Title(参考訳): MovieCLIP:映画における視覚的シーン認識
- Authors: Digbalay Bose, Rajat Hebbar, Krishna Somandepalli, Haoyang Zhang, Yin
Cui, Kree Cole-McLaughlin, Huisheng Wang, Shrikanth Narayanan
- Abstract要約: 既存の映像シーンデータセットは制限されており、映像クリップ内のシーン遷移を考慮していない。
本研究では,映画における視覚的シーン認識の問題に対処するため,まず,映画中心の新たな分類を自動でキュレートする。
コストがかかる手動アノテーションの代わりに、CLIPを使用して、提案した分類に基づく32Kフィルムクリップから112万枚のショットを弱いラベル付けします。
- 参考スコア(独自算出の注目度): 38.90153620199725
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Longform media such as movies have complex narrative structures, with events
spanning a rich variety of ambient visual scenes. Domain specific challenges
associated with visual scenes in movies include transitions, person coverage,
and a wide array of real-life and fictional scenarios. Existing visual scene
datasets in movies have limited taxonomies and don't consider the visual scene
transition within movie clips. In this work, we address the problem of visual
scene recognition in movies by first automatically curating a new and extensive
movie-centric taxonomy of 179 scene labels derived from movie scripts and
auxiliary web-based video datasets. Instead of manual annotations which can be
expensive, we use CLIP to weakly label 1.12 million shots from 32K movie clips
based on our proposed taxonomy. We provide baseline visual models trained on
the weakly labeled dataset called MovieCLIP and evaluate them on an independent
dataset verified by human raters. We show that leveraging features from models
pretrained on MovieCLIP benefits downstream tasks such as multi-label scene and
genre classification of web videos and movie trailers.
- Abstract(参考訳): 映画のようなロングフォームメディアは複雑な物語構造を持ち、様々な周囲の視覚シーンにまたがるイベントがある。
映画の視覚シーンに関連するドメイン固有の課題には、移行、人物のカバレッジ、および様々な現実と架空のシナリオがある。
映画内の既存の視覚シーンデータセットには限定的な分類があり、映画クリップ内の視覚シーン遷移を考慮しない。
そこで本研究では,映画スクリプトと補助webベースの映像データセットから抽出した179のシーンラベルの新規かつ広範囲な映画中心分類を,まず自動で作成することにより,映画における視覚シーン認識の問題に対処する。
コストがかかる手動アノテーションの代わりに、CLIPを使用して、提案した分類に基づく32Kフィルムクリップから1,12万枚のショットを弱いラベル付けします。
我々は、movieclipと呼ばれる弱いラベル付きデータセットでトレーニングされたベースラインビジュアルモデルを提供し、人手によって検証された独立したデータセット上で評価する。
我々は,movieclipで事前学習したモデルの機能を活用することは,マルチレーベルシーンやwebビデオのジャンル分類,映画トレーラーといった下流タスクに有益であることを示す。
関連論文リスト
- MovieBench: A Hierarchical Movie Level Dataset for Long Video Generation [62.85764872989189]
長いビデオ生成モデルの分析、評価、トレーニングに適したデータセットは公開されていない。
The MovieBench: A Hierarchical Movie-Level dataset for Long Video Generation。
データセットは公開され、継続的に維持され、長いビデオ生成の分野を前進させることを目的としている。
論文 参考訳(メタデータ) (2024-11-22T10:25:08Z) - ScreenWriter: Automatic Screenplay Generation and Movie Summarisation [55.20132267309382]
ビデオコンテンツは、ユーザーがキープロットポイントをリコールしたり、見ずに概要を見ることができるようなテキスト記述や要約の需要を駆り立ててきた。
本稿では,映像のみを操作し,対話,話者名,シーンブレーク,視覚的記述を含む出力を生成するScreenWriterを提案する。
ScreenWriterは、映像を視覚ベクトルのシーケンスに基づいてシーンに分割する新しいアルゴリズムを導入し、アクターの顔のデータベースに基づく文字名決定の難しい問題に対する新しい方法を提案する。
論文 参考訳(メタデータ) (2024-10-17T07:59:54Z) - Select and Summarize: Scene Saliency for Movie Script Summarization [11.318175666743656]
そこで本研究では,100本の映画に対して,人間による注釈付きサリエントシーンからなるシーン・サリエンシ・データセットを提案する。
そこで本研究では,まずスクリプト中の健全なシーンを識別し,そのシーンのみを用いて要約を生成する2段階の抽象要約手法を提案する。
論文 参考訳(メタデータ) (2024-04-04T16:16:53Z) - MoviePuzzle: Visual Narrative Reasoning through Multimodal Order
Learning [54.73173491543553]
MoviePuzzleは、ビジュアルな物語の推論と全体論的映画理解をターゲットとする、新しい挑戦である。
本研究では,映像モデルの時間的特徴学習と構造学習を増幅するMoviePuzzleタスクを提案する。
提案手法はMoviePuzzleベンチマークの既存の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2023-06-04T03:51:54Z) - Movies2Scenes: Using Movie Metadata to Learn Scene Representation [8.708989357658501]
本稿では,映画メタデータを用いて汎用シーン表現を学習する新しいコントラスト学習手法を提案する。
具体的には、映画のメタデータを用いて、映画の類似度を定義し、対照的な学習中にそれを使って、ポジティブなシーンペアの検索を制限する。
学習シーンの表現は、複数のベンチマークデータセットを用いて評価されたタスクの多種多様なセットにおいて、既存の最先端メソッドよりも一貫して優れています。
論文 参考訳(メタデータ) (2022-02-22T03:31:33Z) - Multilevel profiling of situation and dialogue-based deep networks for
movie genre classification using movie trailers [7.904790547594697]
我々は、状況、対話、メタデータに基づく映画ジャンル分類フレームワークという、新しいマルチモダリティを提案する。
我々は,5つのジャンルに属する2000本のハリウッド映画トレーラーを含むイギリス映画トレーラーデータセット(EMTD)を開発した。
論文 参考訳(メタデータ) (2021-09-14T07:33:56Z) - Condensed Movies: Story Based Retrieval with Contextual Embeddings [83.73479493450009]
我々は3K映画の主要シーンからなるコンデンサド映画データセット(CMD)を作成する。
データセットはスケーラブルで、YouTubeから自動的に取得され、誰でもダウンロードして利用できる。
我々は、文字、音声、視覚的手がかりを1つのビデオ埋め込みに組み合わせ、データセット上でテキストからビデオまでを検索するためのディープネットワークベースラインを提供する。
論文 参考訳(メタデータ) (2020-05-08T17:55:03Z) - A Local-to-Global Approach to Multi-modal Movie Scene Segmentation [95.34033481442353]
我々は、150本の映画から21Kの注釈付きシーンセグメントを含む大規模なビデオデータセット、MovieScenesを構築した。
本稿では,クリップ,セグメント,映画の3段階にわたるマルチモーダル情報を統合するローカル・グローバルシーンセグメンテーションフレームワークを提案する。
実験の結果,提案するネットワークは,映画を高い精度でシーンに分割し,従来手法より一貫した性能を発揮することがわかった。
論文 参考訳(メタデータ) (2020-04-06T13:58:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。