論文の概要: A multimodal approach for multi-label movie genre classification
- arxiv url: http://arxiv.org/abs/2006.00654v1
- Date: Mon, 1 Jun 2020 00:51:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-26 05:56:53.613961
- Title: A multimodal approach for multi-label movie genre classification
- Title(参考訳): マルチラベル映画ジャンル分類のためのマルチモーダルアプローチ
- Authors: Rafael B. Mangolin, Rodolfo M. Pereira, Alceu S. Britto Jr., Carlos N.
Silla Jr., Val\'eria D. Feltrim, Diego Bertolini and Yandre M. G. Costa
- Abstract要約: The Movie Databaseの152,622タイトルのトレーラービデオクリップ、サブタイトル、シナプス、映画のポスターからなるデータセットを作成しました。
データセットは慎重にキュレーションされ、整理され、この作業のコントリビューションとして利用可能になった。
- 参考スコア(独自算出の注目度): 2.1342631813973507
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Movie genre classification is a challenging task that has increasingly
attracted the attention of researchers. In this paper, we addressed the
multi-label classification of the movie genres in a multimodal way. For this
purpose, we created a dataset composed of trailer video clips, subtitles,
synopses, and movie posters taken from 152,622 movie titles from The Movie
Database. The dataset was carefully curated and organized, and it was also made
available as a contribution of this work. Each movie of the dataset was labeled
according to a set of eighteen genre labels. We extracted features from these
data using different kinds of descriptors, namely Mel Frequency Cepstral
Coefficients, Statistical Spectrum Descriptor , Local Binary Pattern with
spectrograms, Long-Short Term Memory, and Convolutional Neural Networks. The
descriptors were evaluated using different classifiers, such as BinaryRelevance
and ML-kNN. We have also investigated the performance of the combination of
different classifiers/features using a late fusion strategy, which obtained
encouraging results. Based on the F-Score metric, our best result, 0.628, was
obtained by the fusion of a classifier created using LSTM on the synopses, and
a classifier created using CNN on movie trailer frames. When considering the
AUC-PR metric, the best result, 0.673, was also achieved by combining those
representations, but in addition, a classifier based on LSTM created from the
subtitles was used. These results corroborate the existence of complementarity
among classifiers based on different sources of information in this field of
application. As far as we know, this is the most comprehensive study developed
in terms of the diversity of multimedia sources of information to perform movie
genre classification.
- Abstract(参考訳): 映画ジャンルの分類は難しい課題であり、研究者の注目を集めている。
本稿では,映画ジャンルのマルチラベル分類について,マルチモーダルな方法で論じる。
そこで我々は,映画データベースから152,622本の映画タイトルから撮影したトレーラービデオクリップ,サブタイトル,シナプス,映画のポスターからなるデータセットを作成した。
データセットは注意深く管理され、整理され、この研究の貢献として利用可能になった。
データセットの各映画は18のジャンルのラベルによってラベル付けされた。
我々はこれらのデータから,メル周波数ケプストラム係数,統計スペクトル記述子,分光図付き局所バイナリパターン,長短項記憶,畳み込みニューラルネットワークなど,様々な種類の記述子を用いて特徴を抽出した。
記述子は、BinaryRelevanceやML-kNNといった異なる分類器を用いて評価された。
また,異なる分類器/特徴の組み合わせの性能について,後期融合戦略を用いて検討し,奨励的な結果を得た。
f-scoreメトリックに基づいて, lstmを用いて作成した分類器と, 映画トレーラーフレーム上でcnnを用いて作成した分類器の融合により, 我々の最良値である0.628が得られた。
AUC-PRメートル法を考えると、それらの表現を組み合わせることで0.673の最良の結果が得られたが、字幕から作成したLSTMに基づく分類器が使用された。
これらの結果は、この分野における異なる情報ソースに基づく分類器間の相補性の存在を裏付けるものである。
私たちが知る限り、映画ジャンル分類を行うためのマルチメディア情報ソースの多様性の観点から開発された最も包括的な研究である。
関連論文リスト
- Movie Trailer Genre Classification Using Multimodal Pretrained Features [1.1743167854433303]
本稿では,映画ジャンル分類のための新しい手法を提案する。
本手法は,映画予告編の映像フレームと音声フレームを時間プーリングを行なわずに活用する。
我々の手法は、精度、リコール、平均平均精度(mAP)の観点から、最先端の映画ジャンル分類モデルより優れている。
論文 参考訳(メタデータ) (2024-10-11T15:38:05Z) - Music Genre Classification using Large Language Models [50.750620612351284]
本稿では,音楽ジャンル分類のための事前学習された大規模言語モデル(LLM)のゼロショット機能を利用する。
提案手法は、音声信号を20ミリ秒のチャンクに分割し、畳み込み特徴エンコーダで処理する。
推論中、個々のチャンクの予測は最終ジャンル分類のために集約される。
論文 参考訳(メタデータ) (2024-10-10T19:17:56Z) - Music Genre Classification: A Comparative Analysis of CNN and XGBoost
Approaches with Mel-frequency cepstral coefficients and Mel Spectrograms [0.0]
提案した畳み込みニューラルネットワーク(CNN)、完全連結層(FC)を持つVGG16、異なる特徴に対するeXtreme Gradient Boosting(XGBoost)アプローチの3つのモデルの性能について検討した。
さらに,データ前処理フェーズにデータセグメンテーションを適用することで,CNNの性能を大幅に向上させることができる。
論文 参考訳(メタデータ) (2024-01-09T01:50:31Z) - Text-to-feature diffusion for audio-visual few-shot learning [59.45164042078649]
ビデオデータから学ぶことは難しいし、あまり研究されていないが、もっと安いセットアップだ。
3つのデータセットに対して,音声・視覚的数ショット映像分類ベンチマークを導入する。
AV-DIFFは,提案した音声・視覚的少数ショット学習のベンチマークにおいて,最先端の性能が得られることを示す。
論文 参考訳(メタデータ) (2023-09-07T17:30:36Z) - Temporal Saliency Query Network for Efficient Video Recognition [82.52760040577864]
ビデオ認識は、インターネットやモバイルデバイス上でのマルチメディアデータの爆発的な成長に関するホットスポット研究のトピックである。
既存の方法の多くは、クラス固有のサリエンシスコアを意識せずに、サリエントフレームを選択する。
そこで我々は,Saliency Query (TSQ) 機構を提案する。
論文 参考訳(メタデータ) (2022-07-21T09:23:34Z) - Deep ensembles in bioimage segmentation [74.01883650587321]
本研究では,畳み込みニューラルネットワーク(CNN)のアンサンブルを提案する。
アンサンブル法では、多くの異なるモデルが訓練され、分類に使用され、アンサンブルは単一分類器の出力を集約する。
提案するアンサンブルは,DeepLabV3+とHarDNet環境を用いて,異なるバックボーンネットワークを組み合わせることで実現されている。
論文 参考訳(メタデータ) (2021-12-24T05:54:21Z) - Multilevel profiling of situation and dialogue-based deep networks for
movie genre classification using movie trailers [7.904790547594697]
我々は、状況、対話、メタデータに基づく映画ジャンル分類フレームワークという、新しいマルチモダリティを提案する。
我々は,5つのジャンルに属する2000本のハリウッド映画トレーラーを含むイギリス映画トレーラーデータセット(EMTD)を開発した。
論文 参考訳(メタデータ) (2021-09-14T07:33:56Z) - Interpretation of multi-label classification models using shapley values [0.5482532589225552]
本研究は,shap法を用いて,マルチラベル分類タスクの説明をさらに拡張する。
この実験は、よく知られたマルチラベルデータセット上の異なるアルゴリズムの包括的な比較を示す。
論文 参考訳(メタデータ) (2021-04-21T12:51:12Z) - Deep ensembles based on Stochastic Activation Selection for Polyp
Segmentation [82.61182037130406]
本研究は,大腸内視鏡検査における画像分割,特に正確なポリープ検出とセグメンテーションを扱う。
イメージセグメンテーションの基本アーキテクチャはエンコーダとデコーダで構成されている。
我々はデコーダのバックボーンを変更することで得られるDeepLabアーキテクチャのバリエーションを比較した。
論文 参考訳(メタデータ) (2021-04-02T02:07:37Z) - Rethinking movie genre classification with fine-grained semantic
clustering [5.54966601302758]
一つのジャンルの定義の中で映画間の大きな意味的バリエーションを見出す。
これらの「粗い」ジャンルのラベルは、「きめ細かい」意味情報を識別することで拡張する。
提案手法は,新たに導入された37,866,450フレーム,8,800本の映画トレーラーデータセット上で実証される。
論文 参考訳(メタデータ) (2020-12-04T14:58:31Z) - Dense-Caption Matching and Frame-Selection Gating for Temporal
Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。
また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。
当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-05-13T16:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。