論文の概要: Multilevel profiling of situation and dialogue-based deep networks for
movie genre classification using movie trailers
- arxiv url: http://arxiv.org/abs/2109.06488v1
- Date: Tue, 14 Sep 2021 07:33:56 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-15 15:41:32.433378
- Title: Multilevel profiling of situation and dialogue-based deep networks for
movie genre classification using movie trailers
- Title(参考訳): トレーラーを用いた映画ジャンル分類のための状況と対話型ディープネットワークのマルチレベルプロファイリング
- Authors: Dinesh Kumar Vishwakarma, Mayank Jindal, Ayush Mittal, Aditya Sharma
- Abstract要約: 我々は、状況、対話、メタデータに基づく映画ジャンル分類フレームワークという、新しいマルチモダリティを提案する。
我々は,5つのジャンルに属する2000本のハリウッド映画トレーラーを含むイギリス映画トレーラーデータセット(EMTD)を開発した。
- 参考スコア(独自算出の注目度): 7.904790547594697
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Automated movie genre classification has emerged as an active and essential
area of research and exploration. Short duration movie trailers provide useful
insights about the movie as video content consists of the cognitive and the
affective level features. Previous approaches were focused upon either
cognitive or affective content analysis. In this paper, we propose a novel
multi-modality: situation, dialogue, and metadata-based movie genre
classification framework that takes both cognition and affect-based features
into consideration. A pre-features fusion-based framework that takes into
account: situation-based features from a regular snapshot of a trailer that
includes nouns and verbs providing the useful affect-based mapping with the
corresponding genres, dialogue (speech) based feature from audio, metadata
which together provides the relevant information for cognitive and affect based
video analysis. We also develop the English movie trailer dataset (EMTD), which
contains 2000 Hollywood movie trailers belonging to five popular genres:
Action, Romance, Comedy, Horror, and Science Fiction, and perform
cross-validation on the standard LMTD-9 dataset for validating the proposed
framework. The results demonstrate that the proposed methodology for movie
genre classification has performed excellently as depicted by the F1 scores,
precision, recall, and area under the precision-recall curves.
- Abstract(参考訳): 映画ジャンルの自動分類は、研究と探索の活発で不可欠な分野として現れてきた。
短編映画のトレーラーは、映像コンテンツが認知的特徴と感情的特徴から成り立っているので、映画についての有益な洞察を提供する。
従来のアプローチは認知的あるいは感情的コンテンツ分析に重点を置いていた。
本稿では,認知的特徴と感情的特徴の両方を考慮した,状況,対話,メタデータに基づく映画ジャンル分類フレームワークを提案する。
プリフィーチャーフュージョンベースのフレームワークは、トレーラーの通常のスナップショットから、対応するジャンルと有用な感情ベースのマッピングを提供する名詞と動詞を含む状況ベースの特徴、オーディオからの対話(音声)ベースの特徴、メタデータを併用して、認知と感情に基づくビデオ分析に関する関連情報を提供する。
また、アクション、ロマンス、コメディー、ホラー、サイエンスフィクションの5つのジャンルに属する2000本のハリウッド映画トレーラーを収録したイギリス映画トレーラーデータセット(EMTD)を開発し、提案フレームワークを検証するための標準LMTD-9データセット上でクロスバリデーションを行う。
その結果,映画ジャンル分類の手法は,F1スコア,精度,リコール,精度-リコール曲線の下での面積など,優れた性能を示した。
関連論文リスト
- Movie Trailer Genre Classification Using Multimodal Pretrained Features [1.1743167854433303]
本稿では,映画ジャンル分類のための新しい手法を提案する。
本手法は,映画予告編の映像フレームと音声フレームを時間プーリングを行なわずに活用する。
我々の手法は、精度、リコール、平均平均精度(mAP)の観点から、最先端の映画ジャンル分類モデルより優れている。
論文 参考訳(メタデータ) (2024-10-11T15:38:05Z) - MMTrail: A Multimodal Trailer Video Dataset with Language and Music Descriptions [69.9122231800796]
MMTrailは,2000万回以上のトレーラークリップと視覚的キャプションを組み込んだ大規模マルチモーダルビデオ言語データセットである。
本稿では,27.1k時間以上のトレーラービデオで様々なモダリティアノテーションを実現するシステムキャプションフレームワークを提案する。
我々のデータセットは、大きめのマルチモーダル言語モデルトレーニングのためのパスを舗装する可能性がある。
論文 参考訳(メタデータ) (2024-07-30T16:43:24Z) - Movie101v2: Improved Movie Narration Benchmark [53.54176725112229]
映像の自動ナレーションは、視覚障害者を支援するために、映像に合わせたプロット記述を生成することを目的としている。
映画ナレーションに特化して設計されたデータ品質を向上した大規模バイリンガルデータセットであるMovie101v2を紹介する。
新しいベンチマークに基づいて,GPT-4Vを含む多数の視覚言語モデルをベースライン化し,ナレーション生成における課題の詳細な分析を行う。
論文 参考訳(メタデータ) (2024-04-20T13:15:27Z) - Beyond Labels: Leveraging Deep Learning and LLMs for Content Metadata [1.6574413179773761]
メタデータの分析は、ユーザの好みを理解して、パーソナライズされたレコメンデーションとアイテムのコールドスタートを生成するのに役立つ。
本稿では,ジャンルラベル情報の利用に関わる課題について紹介し,ジャンル情報を調べる新しい方法を提案する。
Genre Spectrumは、さまざまなジャンルをタイトルで捉えるのに役立ち、オフラインとオンラインの実験は、このアプローチの有効性を裏付けます。
論文 参考訳(メタデータ) (2023-09-15T22:11:29Z) - Movie101: A New Movie Understanding Benchmark [47.24519006577205]
大規模な中国の映画ベンチマーク「Movie101」を構築した。
映画ナレーション評価のためのMNScore(Movie Narration Score)と呼ばれる新しい指標を提案する。
両タスクにおいて,提案手法は外部知識をうまく活用し,慎重に設計したベースラインよりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-05-20T08:43:51Z) - Movie Genre Classification by Language Augmentation and Shot Sampling [20.119729119879466]
本稿では,Language augmentatIon とshot SamPling (Movie-CLIP) を用いた映画ジャンル分類手法を提案する。
Movie-CLIPは主に、入力オーディオから言語要素を認識する言語拡張モジュールと、ビデオ全体から代表ショットを選択するショットサンプリングモジュールの2つの部分で構成されている。
本手法をMovieNetとCondensed Moviesのデータセット上で評価し,平均精度(mAP)を平均6~9%向上させた。
論文 参考訳(メタデータ) (2022-03-24T18:15:12Z) - Film Trailer Generation via Task Decomposition [65.16768855902268]
私たちは映画をグラフとしてモデル化し、ノードはショットであり、エッジはそれらの間のセマンティックな関係を表す。
スクリーンプレイから特権的テキスト情報を活用する共同コントラストトレーニングを用いて,これらの関係を学習する。
教師なしのアルゴリズムがグラフを横切り、人間の審査員が競争的な教師付きアプローチによって生成されるトレーラーを生成する。
論文 参考訳(メタデータ) (2021-11-16T20:50:52Z) - A Survey on Deep Learning Technique for Video Segmentation [147.0767454918527]
ビデオセグメンテーションは幅広い応用において重要な役割を果たしている。
ディープラーニングベースのアプローチは、ビデオセグメンテーションに特化しており、魅力的なパフォーマンスを提供している。
論文 参考訳(メタデータ) (2021-07-02T15:51:07Z) - Rethinking movie genre classification with fine-grained semantic
clustering [5.54966601302758]
一つのジャンルの定義の中で映画間の大きな意味的バリエーションを見出す。
これらの「粗い」ジャンルのラベルは、「きめ細かい」意味情報を識別することで拡張する。
提案手法は,新たに導入された37,866,450フレーム,8,800本の映画トレーラーデータセット上で実証される。
論文 参考訳(メタデータ) (2020-12-04T14:58:31Z) - Condensed Movies: Story Based Retrieval with Contextual Embeddings [83.73479493450009]
我々は3K映画の主要シーンからなるコンデンサド映画データセット(CMD)を作成する。
データセットはスケーラブルで、YouTubeから自動的に取得され、誰でもダウンロードして利用できる。
我々は、文字、音声、視覚的手がかりを1つのビデオ埋め込みに組み合わせ、データセット上でテキストからビデオまでを検索するためのディープネットワークベースラインを提供する。
論文 参考訳(メタデータ) (2020-05-08T17:55:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。