論文の概要: Movie Genre Classification by Language Augmentation and Shot Sampling
- arxiv url: http://arxiv.org/abs/2203.13281v2
- Date: Tue, 7 Nov 2023 19:29:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-09 20:54:58.512573
- Title: Movie Genre Classification by Language Augmentation and Shot Sampling
- Title(参考訳): 言語拡張とショットサンプリングによる映画ジャンルの分類
- Authors: Zhongping Zhang, Yiwen Gu, Bryan A. Plummer, Xin Miao, Jiayi Liu,
Huayan Wang
- Abstract要約: 本稿では,Language augmentatIon とshot SamPling (Movie-CLIP) を用いた映画ジャンル分類手法を提案する。
Movie-CLIPは主に、入力オーディオから言語要素を認識する言語拡張モジュールと、ビデオ全体から代表ショットを選択するショットサンプリングモジュールの2つの部分で構成されている。
本手法をMovieNetとCondensed Moviesのデータセット上で評価し,平均精度(mAP)を平均6~9%向上させた。
- 参考スコア(独自算出の注目度): 20.119729119879466
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video-based movie genre classification has garnered considerable attention
due to its various applications in recommendation systems. Prior work has
typically addressed this task by adapting models from traditional video
classification tasks, such as action recognition or event detection. However,
these models often neglect language elements (e.g., narrations or
conversations) present in videos, which can implicitly convey high-level
semantics of movie genres, like storylines or background context. Additionally,
existing approaches are primarily designed to encode the entire content of the
input video, leading to inefficiencies in predicting movie genres. Movie genre
prediction may require only a few shots to accurately determine the genres,
rendering a comprehensive understanding of the entire video unnecessary. To
address these challenges, we propose a Movie genre Classification method based
on Language augmentatIon and shot samPling (Movie-CLIP). Movie-CLIP mainly
consists of two parts: a language augmentation module to recognize language
elements from the input audio, and a shot sampling module to select
representative shots from the entire video. We evaluate our method on MovieNet
and Condensed Movies datasets, achieving approximate 6-9% improvement in mean
Average Precision (mAP) over the baselines. We also generalize Movie-CLIP to
the scene boundary detection task, achieving 1.1% improvement in Average
Precision (AP) over the state-of-the-art. We release our implementation at
github.com/Zhongping-Zhang/Movie-CLIP.
- Abstract(参考訳): ビデオベースの映画ジャンル分類は、レコメンデーションシステムにおける様々な用途のために注目されている。
従来の作業は、アクション認識やイベント検出といった従来のビデオ分類タスクからモデルを適用することで、このタスクに対処してきた。
しかし、これらのモデルは、しばしばビデオに現れる言語要素(例えばナレーションや会話)を無視し、ストーリーラインや背景コンテキストのような映画ジャンルの高レベルな意味を暗黙的に伝えることができる。
さらに、既存のアプローチは、主に入力ビデオの全コンテンツをエンコードするように設計されており、映画ジャンルを予測するのに非効率になる。
映画ジャンルの予測は、ジャンルを正確に判断するために数ショットしか必要とせず、ビデオ全体の包括的な理解が不要になる。
これらの課題に対処するために,Language augmentatIon とshot SamPling (Movie-CLIP) に基づく映画ジャンル分類手法を提案する。
Movie-CLIPは主に、入力オーディオから言語要素を認識する言語拡張モジュールと、ビデオ全体から代表ショットを選択するショットサンプリングモジュールの2つの部分で構成されている。
本手法をMovieNetとCondensed Moviesのデータセット上で評価し,平均精度(mAP)を平均6~9%向上させた。
また,映像クリップをシーン境界検出タスクに一般化し,最先端よりも平均精度(ap)が1.1%向上した。
我々はgithub.com/Zhongping-Zhang/Movie-CLIPで実装をリリースします。
関連論文リスト
- Movie Trailer Genre Classification Using Multimodal Pretrained Features [1.1743167854433303]
本稿では,映画ジャンル分類のための新しい手法を提案する。
本手法は,映画予告編の映像フレームと音声フレームを時間プーリングを行なわずに活用する。
我々の手法は、精度、リコール、平均平均精度(mAP)の観点から、最先端の映画ジャンル分類モデルより優れている。
論文 参考訳(メタデータ) (2024-10-11T15:38:05Z) - Movie101v2: Improved Movie Narration Benchmark [53.54176725112229]
映像の自動ナレーションは、視覚障害者を支援するために、映像に合わせたプロット記述を生成することを目的としている。
映画ナレーションに特化して設計されたデータ品質を向上した大規模バイリンガルデータセットであるMovie101v2を紹介する。
新しいベンチマークに基づいて,GPT-4Vを含む多数の視覚言語モデルをベースライン化し,ナレーション生成における課題の詳細な分析を行う。
論文 参考訳(メタデータ) (2024-04-20T13:15:27Z) - VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。
データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。
機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文 参考訳(メタデータ) (2023-12-04T19:48:02Z) - MovieFactory: Automatic Movie Creation from Text using Large Generative
Models for Language and Images [92.13079696503803]
映画制作のためのフレームワークであるMovieFactory(3072$times$1280)、映画スタイル(マルチシーン)、マルチモーダル(サウンド)映画について紹介する。
本手法は,簡単なテキスト入力を用いて,スムーズなトランジションでキャプティベーション映画を制作することを可能にする。
論文 参考訳(メタデータ) (2023-06-12T17:31:23Z) - Part-level Action Parsing via a Pose-guided Coarse-to-Fine Framework [108.70949305791201]
パートレベルのアクションパーシング(PAP)は、ビデオレベルのアクションを予測するだけでなく、ビデオ内の各人に対するフレームレベルのきめ細かいアクションやインタラクションを認識することを目的としている。
特に,本フレームワークは,まず入力ビデオの映像レベルのクラスを予測し,次に身体部位をローカライズし,部分レベルの動作を予測する。
我々のフレームワークは最先端のパフォーマンスを達成し、既存の手法を31.10%のROCスコアで上回ります。
論文 参考訳(メタデータ) (2022-03-09T01:30:57Z) - Multilevel profiling of situation and dialogue-based deep networks for
movie genre classification using movie trailers [7.904790547594697]
我々は、状況、対話、メタデータに基づく映画ジャンル分類フレームワークという、新しいマルチモダリティを提案する。
我々は,5つのジャンルに属する2000本のハリウッド映画トレーラーを含むイギリス映画トレーラーデータセット(EMTD)を開発した。
論文 参考訳(メタデータ) (2021-09-14T07:33:56Z) - CLIP-It! Language-Guided Video Summarization [96.69415453447166]
この作業では、ジェネリックとクエリにフォーカスしたビデオ要約に対処する単一のフレームワークであるCLIP-Itを導入する。
本稿では,言語誘導型マルチモーダルトランスフォーマーを提案する。
本モデルは, 地道的な監督を伴わずに, 訓練により教師なしの設定に拡張することができる。
論文 参考訳(メタデータ) (2021-07-01T17:59:27Z) - Video Moment Localization using Object Evidence and Reverse Captioning [1.1549572298362785]
未編集ビデオにおけるモーメントの時間的局所化の言語による問題に対処する。
現在の最先端モデルMACは、ビデオと言語の両方のモダリティから活動概念をマイニングすることでこの問題に対処している。
本稿では,MACモデルの拡張であるMulti-faceted VideoMoment Localizer (MML)を提案する。
論文 参考訳(メタデータ) (2020-06-18T03:45:49Z) - A Local-to-Global Approach to Multi-modal Movie Scene Segmentation [95.34033481442353]
我々は、150本の映画から21Kの注釈付きシーンセグメントを含む大規模なビデオデータセット、MovieScenesを構築した。
本稿では,クリップ,セグメント,映画の3段階にわたるマルチモーダル情報を統合するローカル・グローバルシーンセグメンテーションフレームワークを提案する。
実験の結果,提案するネットワークは,映画を高い精度でシーンに分割し,従来手法より一貫した性能を発揮することがわかった。
論文 参考訳(メタデータ) (2020-04-06T13:58:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。