論文の概要: Multilevel profiling of situation and dialogue-based deep networks for
movie genre classification using movie trailers
- arxiv url: http://arxiv.org/abs/2109.06488v1
- Date: Tue, 14 Sep 2021 07:33:56 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-15 15:41:32.433378
- Title: Multilevel profiling of situation and dialogue-based deep networks for
movie genre classification using movie trailers
- Title(参考訳): トレーラーを用いた映画ジャンル分類のための状況と対話型ディープネットワークのマルチレベルプロファイリング
- Authors: Dinesh Kumar Vishwakarma, Mayank Jindal, Ayush Mittal, Aditya Sharma
- Abstract要約: 我々は、状況、対話、メタデータに基づく映画ジャンル分類フレームワークという、新しいマルチモダリティを提案する。
我々は,5つのジャンルに属する2000本のハリウッド映画トレーラーを含むイギリス映画トレーラーデータセット(EMTD)を開発した。
- 参考スコア(独自算出の注目度): 7.904790547594697
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Automated movie genre classification has emerged as an active and essential
area of research and exploration. Short duration movie trailers provide useful
insights about the movie as video content consists of the cognitive and the
affective level features. Previous approaches were focused upon either
cognitive or affective content analysis. In this paper, we propose a novel
multi-modality: situation, dialogue, and metadata-based movie genre
classification framework that takes both cognition and affect-based features
into consideration. A pre-features fusion-based framework that takes into
account: situation-based features from a regular snapshot of a trailer that
includes nouns and verbs providing the useful affect-based mapping with the
corresponding genres, dialogue (speech) based feature from audio, metadata
which together provides the relevant information for cognitive and affect based
video analysis. We also develop the English movie trailer dataset (EMTD), which
contains 2000 Hollywood movie trailers belonging to five popular genres:
Action, Romance, Comedy, Horror, and Science Fiction, and perform
cross-validation on the standard LMTD-9 dataset for validating the proposed
framework. The results demonstrate that the proposed methodology for movie
genre classification has performed excellently as depicted by the F1 scores,
precision, recall, and area under the precision-recall curves.
- Abstract(参考訳): 映画ジャンルの自動分類は、研究と探索の活発で不可欠な分野として現れてきた。
短編映画のトレーラーは、映像コンテンツが認知的特徴と感情的特徴から成り立っているので、映画についての有益な洞察を提供する。
従来のアプローチは認知的あるいは感情的コンテンツ分析に重点を置いていた。
本稿では,認知的特徴と感情的特徴の両方を考慮した,状況,対話,メタデータに基づく映画ジャンル分類フレームワークを提案する。
プリフィーチャーフュージョンベースのフレームワークは、トレーラーの通常のスナップショットから、対応するジャンルと有用な感情ベースのマッピングを提供する名詞と動詞を含む状況ベースの特徴、オーディオからの対話(音声)ベースの特徴、メタデータを併用して、認知と感情に基づくビデオ分析に関する関連情報を提供する。
また、アクション、ロマンス、コメディー、ホラー、サイエンスフィクションの5つのジャンルに属する2000本のハリウッド映画トレーラーを収録したイギリス映画トレーラーデータセット(EMTD)を開発し、提案フレームワークを検証するための標準LMTD-9データセット上でクロスバリデーションを行う。
その結果,映画ジャンル分類の手法は,F1スコア,精度,リコール,精度-リコール曲線の下での面積など,優れた性能を示した。
関連論文リスト
- Beyond Labels: Leveraging Deep Learning and LLMs for Content Metadata [1.6574413179773761]
メタデータの分析は、ユーザの好みを理解して、パーソナライズされたレコメンデーションとアイテムのコールドスタートを生成するのに役立つ。
本稿では,ジャンルラベル情報の利用に関わる課題について紹介し,ジャンル情報を調べる新しい方法を提案する。
Genre Spectrumは、さまざまなジャンルをタイトルで捉えるのに役立ち、オフラインとオンラインの実験は、このアプローチの有効性を裏付けます。
論文 参考訳(メタデータ) (2023-09-15T22:11:29Z) - Reasoning over the Behaviour of Objects in Video-Clips for Adverb-Type
Recognition [82.67562840933076]
本稿では,ビデオクリップから抽出したオブジェクトの振る舞いを理由として,クリップの対応する副詞型を認識するための新しいフレームワークを提案する。
具体的には、生のビデオクリップから人間の解釈可能な物体の挙動を抽出する新しいパイプラインを提案する。
生のビデオクリップから抽出したオブジェクト-振る舞い-ファクトのデータセットを2つリリースする。
論文 参考訳(メタデータ) (2023-07-09T09:04:26Z) - Movie101: A New Movie Understanding Benchmark [47.24519006577205]
大規模な中国の映画ベンチマーク「Movie101」を構築した。
映画ナレーション評価のためのMNScore(Movie Narration Score)と呼ばれる新しい指標を提案する。
両タスクにおいて,提案手法は外部知識をうまく活用し,慎重に設計したベースラインよりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-05-20T08:43:51Z) - Movie Genre Classification by Language Augmentation and Shot Sampling [20.119729119879466]
本稿では,Language augmentatIon とshot SamPling (Movie-CLIP) を用いた映画ジャンル分類手法を提案する。
Movie-CLIPは主に、入力オーディオから言語要素を認識する言語拡張モジュールと、ビデオ全体から代表ショットを選択するショットサンプリングモジュールの2つの部分で構成されている。
本手法をMovieNetとCondensed Moviesのデータセット上で評価し,平均精度(mAP)を平均6~9%向上させた。
論文 参考訳(メタデータ) (2022-03-24T18:15:12Z) - Film Trailer Generation via Task Decomposition [65.16768855902268]
私たちは映画をグラフとしてモデル化し、ノードはショットであり、エッジはそれらの間のセマンティックな関係を表す。
スクリーンプレイから特権的テキスト情報を活用する共同コントラストトレーニングを用いて,これらの関係を学習する。
教師なしのアルゴリズムがグラフを横切り、人間の審査員が競争的な教師付きアプローチによって生成されるトレーラーを生成する。
論文 参考訳(メタデータ) (2021-11-16T20:50:52Z) - A Survey on Deep Learning Technique for Video Segmentation [147.0767454918527]
ビデオセグメンテーションは幅広い応用において重要な役割を果たしている。
ディープラーニングベースのアプローチは、ビデオセグメンテーションに特化しており、魅力的なパフォーマンスを提供している。
論文 参考訳(メタデータ) (2021-07-02T15:51:07Z) - $C^3$: Compositional Counterfactual Contrastive Learning for
Video-grounded Dialogues [97.25466640240619]
映像対話システムの目的は、映像理解と対話理解を統合し、対話と映像コンテキストの両方に関連する応答を生成することである。
既存のアプローチのほとんどはディープラーニングモデルを採用しており、比較的小さなデータセットが利用可能であることを考えると、優れたパフォーマンスを実現している。
本稿では,映像対話における実例と反実例の対比学習を開発するために,合成対実的コントラスト学習の新たなアプローチを提案する。
論文 参考訳(メタデータ) (2021-06-16T16:05:27Z) - Rethinking movie genre classification with fine-grained semantic
clustering [5.54966601302758]
一つのジャンルの定義の中で映画間の大きな意味的バリエーションを見出す。
これらの「粗い」ジャンルのラベルは、「きめ細かい」意味情報を識別することで拡張する。
提案手法は,新たに導入された37,866,450フレーム,8,800本の映画トレーラーデータセット上で実証される。
論文 参考訳(メタデータ) (2020-12-04T14:58:31Z) - A multimodal approach for multi-label movie genre classification [2.1342631813973507]
The Movie Databaseの152,622タイトルのトレーラービデオクリップ、サブタイトル、シナプス、映画のポスターからなるデータセットを作成しました。
データセットは慎重にキュレーションされ、整理され、この作業のコントリビューションとして利用可能になった。
論文 参考訳(メタデータ) (2020-06-01T00:51:39Z) - Condensed Movies: Story Based Retrieval with Contextual Embeddings [83.73479493450009]
我々は3K映画の主要シーンからなるコンデンサド映画データセット(CMD)を作成する。
データセットはスケーラブルで、YouTubeから自動的に取得され、誰でもダウンロードして利用できる。
我々は、文字、音声、視覚的手がかりを1つのビデオ埋め込みに組み合わせ、データセット上でテキストからビデオまでを検索するためのディープネットワークベースラインを提供する。
論文 参考訳(メタデータ) (2020-05-08T17:55:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。