論文の概要: Effectively leveraging Multi-modal Features for Movie Genre
Classification
- arxiv url: http://arxiv.org/abs/2203.13281v1
- Date: Thu, 24 Mar 2022 18:15:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-28 13:01:00.089498
- Title: Effectively leveraging Multi-modal Features for Movie Genre
Classification
- Title(参考訳): 映画ジャンル分類におけるマルチモーダル特徴の有効活用
- Authors: Zhongping Zhang, Yiwen Gu, Bryan A. Plummer, Xin Miao, Jiayi Liu,
Huayan Wang
- Abstract要約: 撮影情報を利用したマルチモーダル手法MMShotを提案し,映像ジャンルを効率的かつ効果的に分類する。
ジャンル分類のために,本手法をMovieNetとCondensed Moviesで評価し,平均平均精度(mAP)を17%改善した。
- 参考スコア(独自算出の注目度): 15.15826297500611
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Movie genre classification has been widely studied in recent years due to its
various applications in video editing, summarization, and recommendation. Prior
work has typically addressed this task by predicting genres based solely on the
visual content. As a result, predictions from these methods often perform
poorly for genres such as documentary or musical, since non-visual modalities
like audio or language play an important role in correctly classifying these
genres. In addition, the analysis of long videos at frame level is always
associated with high computational cost and makes the prediction less
efficient. To address these two issues, we propose a Multi-Modal approach
leveraging shot information, MMShot, to classify video genres in an efficient
and effective way. We evaluate our method on MovieNet and Condensed Movies for
genre classification, achieving 17% ~ 21% improvement on mean Average Precision
(mAP) over the state-of-the-art. Extensive experiments are conducted to
demonstrate the ability of MMShot for long video analysis and uncover the
correlations between genres and multiple movie elements. We also demonstrate
our approach's ability to generalize by evaluating the scene boundary detection
task, achieving 1.1% improvement on Average Precision (AP) over the
state-of-the-art.
- Abstract(参考訳): 近年,映像編集,要約,レコメンデーションの様々な応用により,映画ジャンルの分類が広く研究されている。
先行研究は通常、ビジュアルコンテンツのみに基づいてジャンルを予測することでこの課題に対処してきた。
その結果、音声や言語のような非視覚的モダリティは、これらのジャンルを正しく分類する上で重要な役割を担っているため、これらの手法からの予測は、ドキュメンタリーや音楽などのジャンルでは不十分であることが多い。
さらに,フレームレベルでの長ビデオの解析は,常に高い計算コストに関連付けられ,予測の効率が低下する。
これら2つの課題に対処するために,映像ジャンルを効率的かつ効果的に分類するために,ショット情報を利用したマルチモーダルアプローチMMShotを提案する。
本手法はジャンル分類のためのMovieNetおよびCondensed Moviesにおいて評価され,平均平均精度(mAP)を17%~21%向上させた。
長期ビデオ解析のためのMMShotの能力を実証し,ジャンルと複数の映画要素の相関関係を明らかにするため,大規模な実験を行った。
また,シーン境界検出タスクを評価し,最先端よりも平均精度 (ap) が1.1%向上したことにより,この手法を一般化する能力を示す。
関連論文リスト
- Movie Trailer Genre Classification Using Multimodal Pretrained Features [1.1743167854433303]
本稿では,映画ジャンル分類のための新しい手法を提案する。
本手法は,映画予告編の映像フレームと音声フレームを時間プーリングを行なわずに活用する。
我々の手法は、精度、リコール、平均平均精度(mAP)の観点から、最先端の映画ジャンル分類モデルより優れている。
論文 参考訳(メタデータ) (2024-10-11T15:38:05Z) - Movie101v2: Improved Movie Narration Benchmark [53.54176725112229]
映像の自動ナレーションは、視覚障害者を支援するために、映像に合わせたプロット記述を生成することを目的としている。
映画ナレーションに特化して設計されたデータ品質を向上した大規模バイリンガルデータセットであるMovie101v2を紹介する。
新しいベンチマークに基づいて,GPT-4Vを含む多数の視覚言語モデルをベースライン化し,ナレーション生成における課題の詳細な分析を行う。
論文 参考訳(メタデータ) (2024-04-20T13:15:27Z) - VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。
データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。
機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文 参考訳(メタデータ) (2023-12-04T19:48:02Z) - MovieFactory: Automatic Movie Creation from Text using Large Generative
Models for Language and Images [92.13079696503803]
映画制作のためのフレームワークであるMovieFactory(3072$times$1280)、映画スタイル(マルチシーン)、マルチモーダル(サウンド)映画について紹介する。
本手法は,簡単なテキスト入力を用いて,スムーズなトランジションでキャプティベーション映画を制作することを可能にする。
論文 参考訳(メタデータ) (2023-06-12T17:31:23Z) - Part-level Action Parsing via a Pose-guided Coarse-to-Fine Framework [108.70949305791201]
パートレベルのアクションパーシング(PAP)は、ビデオレベルのアクションを予測するだけでなく、ビデオ内の各人に対するフレームレベルのきめ細かいアクションやインタラクションを認識することを目的としている。
特に,本フレームワークは,まず入力ビデオの映像レベルのクラスを予測し,次に身体部位をローカライズし,部分レベルの動作を予測する。
我々のフレームワークは最先端のパフォーマンスを達成し、既存の手法を31.10%のROCスコアで上回ります。
論文 参考訳(メタデータ) (2022-03-09T01:30:57Z) - Multilevel profiling of situation and dialogue-based deep networks for
movie genre classification using movie trailers [7.904790547594697]
我々は、状況、対話、メタデータに基づく映画ジャンル分類フレームワークという、新しいマルチモダリティを提案する。
我々は,5つのジャンルに属する2000本のハリウッド映画トレーラーを含むイギリス映画トレーラーデータセット(EMTD)を開発した。
論文 参考訳(メタデータ) (2021-09-14T07:33:56Z) - CLIP-It! Language-Guided Video Summarization [96.69415453447166]
この作業では、ジェネリックとクエリにフォーカスしたビデオ要約に対処する単一のフレームワークであるCLIP-Itを導入する。
本稿では,言語誘導型マルチモーダルトランスフォーマーを提案する。
本モデルは, 地道的な監督を伴わずに, 訓練により教師なしの設定に拡張することができる。
論文 参考訳(メタデータ) (2021-07-01T17:59:27Z) - Video Moment Localization using Object Evidence and Reverse Captioning [1.1549572298362785]
未編集ビデオにおけるモーメントの時間的局所化の言語による問題に対処する。
現在の最先端モデルMACは、ビデオと言語の両方のモダリティから活動概念をマイニングすることでこの問題に対処している。
本稿では,MACモデルの拡張であるMulti-faceted VideoMoment Localizer (MML)を提案する。
論文 参考訳(メタデータ) (2020-06-18T03:45:49Z) - A Local-to-Global Approach to Multi-modal Movie Scene Segmentation [95.34033481442353]
我々は、150本の映画から21Kの注釈付きシーンセグメントを含む大規模なビデオデータセット、MovieScenesを構築した。
本稿では,クリップ,セグメント,映画の3段階にわたるマルチモーダル情報を統合するローカル・グローバルシーンセグメンテーションフレームワークを提案する。
実験の結果,提案するネットワークは,映画を高い精度でシーンに分割し,従来手法より一貫した性能を発揮することがわかった。
論文 参考訳(メタデータ) (2020-04-06T13:58:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。