論文の概要: A Case Study of Deep Learning Based Multi-Modal Methods for Predicting
the Age-Suitability Rating of Movie Trailers
- arxiv url: http://arxiv.org/abs/2101.11704v1
- Date: Tue, 26 Jan 2021 17:15:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-13 19:31:03.110825
- Title: A Case Study of Deep Learning Based Multi-Modal Methods for Predicting
the Age-Suitability Rating of Movie Trailers
- Title(参考訳): 映画トレーラーの老朽化率予測のための深層学習に基づくマルチモーダル手法の事例研究
- Authors: Mahsa Shafaei, Christos Smailis, Ioannis A. Kakadiaris, Thamar Solorio
- Abstract要約: IMDBとYouTubeからダウンロードされた英語で映画トレーラーのビデオを含む新しいデータセットを提案する。
映画予告年齢適合性評価問題に対処したマルチモーダルディープラーニングパイプラインを提案する。
- 参考スコア(独自算出の注目度): 15.889598494755646
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we explore different approaches to combine modalities for the
problem of automated age-suitability rating of movie trailers. First, we
introduce a new dataset containing videos of movie trailers in English
downloaded from IMDB and YouTube, along with their corresponding
age-suitability rating labels. Secondly, we propose a multi-modal deep learning
pipeline addressing the movie trailer age suitability rating problem. This is
the first attempt to combine video, audio, and speech information for this
problem, and our experimental results show that multi-modal approaches
significantly outperform the best mono and bimodal models in this task.
- Abstract(参考訳): 本研究では,映画トレーラーの年齢適合性自動評価の問題に対して,モダリティを組み合わせるための様々なアプローチを検討する。
まず、IMDBとYouTubeからダウンロードされた英語の映画トレーラーのビデオを含む新しいデータセットと、それに対応する年齢適合性評価ラベルを紹介する。
次に,映画トレーラーの年齢適合性評価問題に対するマルチモーダル深層学習パイプラインを提案する。
この問題に対するビデオ,音声,音声情報を組み合わせた最初の試みであり,実験結果から,マルチモーダルアプローチは,このタスクにおいて最高のモノモーダルモデル,バイモーダルモデルよりも優れていることが示された。
関連論文リスト
- MMTrail: A Multimodal Trailer Video Dataset with Language and Music Descriptions [69.9122231800796]
MMTrailは,2000万回以上のトレーラークリップと視覚的キャプションを組み込んだ大規模マルチモーダルビデオ言語データセットである。
本稿では,27.1k時間以上のトレーラービデオで様々なモダリティアノテーションを実現するシステムキャプションフレームワークを提案する。
我々のデータセットは、大きめのマルチモーダル言語モデルトレーニングのためのパスを舗装する可能性がある。
論文 参考訳(メタデータ) (2024-07-30T16:43:24Z) - Towards Automated Movie Trailer Generation [98.9854474456265]
本稿では,エンコーダ・デコーダアーキテクチャを利用したディープラーニングフレームワークTGTを紹介する。
自動回帰トレーラーデコーダは、次のトレーラーショットの特徴表現を予測する。
当社のTGTは、総合的なメトリクススイートにおいて、従来の方法よりも大幅に優れています。
論文 参考訳(メタデータ) (2024-04-04T14:28:34Z) - Are We on the Right Way for Evaluating Large Vision-Language Models? [92.5761176224556]
大規模視覚言語モデル(LVLM)は、最近急速に進歩し、そのマルチモーダル能力を評価するために多くの研究を巻き起こした。
視覚コンテンツは多くのサンプルに対して不要であり、意図的なデータ漏洩が存在する。
本稿では,人間によって精巧に選択された1500個のサンプルからなる,高度に視覚に欠かせないマルチモーダルベンチマークMMStarを提案する。
論文 参考訳(メタデータ) (2024-03-29T17:59:34Z) - Find the Cliffhanger: Multi-Modal Trailerness in Soap Operas [17.476344577463525]
長大なビデオからトレーラーにふさわしい瞬間を選択する際に,編集者を支援するために,トレーラー性を予測するマルチモーダル手法を提案する。
新たに導入されたソープオペラデータセットを用いて,トレーラの予測が課題であることを示す。
論文 参考訳(メタデータ) (2024-01-29T11:34:36Z) - Read, Look or Listen? What's Needed for Solving a Multimodal Dataset [7.0430001782867]
マルチモーダル・データセットを解析するための2段階の手法を提案する。これは、人間のアノテーションの小さなシードを利用して、各マルチモーダル・インスタンスをその処理に必要なモダリティにマッピングする。
ビデオ質問応答データセットであるTVQAに我々のアプローチを適用し、ほとんどの質問が特定のモダリティに対して実質的な偏見を伴わずに単一のモダリティで答えられることを発見した。
我々は、MERLOT Reserveを分析し、テキストや音声よりも画像に基づく質問に苦しむが、聴覚話者の識別にも苦しむことを発見した。
論文 参考訳(メタデータ) (2023-07-06T08:02:45Z) - Film Trailer Generation via Task Decomposition [65.16768855902268]
私たちは映画をグラフとしてモデル化し、ノードはショットであり、エッジはそれらの間のセマンティックな関係を表す。
スクリーンプレイから特権的テキスト情報を活用する共同コントラストトレーニングを用いて,これらの関係を学習する。
教師なしのアルゴリズムがグラフを横切り、人間の審査員が競争的な教師付きアプローチによって生成されるトレーラーを生成する。
論文 参考訳(メタデータ) (2021-11-16T20:50:52Z) - Multilevel profiling of situation and dialogue-based deep networks for
movie genre classification using movie trailers [7.904790547594697]
我々は、状況、対話、メタデータに基づく映画ジャンル分類フレームワークという、新しいマルチモダリティを提案する。
我々は,5つのジャンルに属する2000本のハリウッド映画トレーラーを含むイギリス映画トレーラーデータセット(EMTD)を開発した。
論文 参考訳(メタデータ) (2021-09-14T07:33:56Z) - Learning Trailer Moments in Full-Length Movies [49.74693903050302]
我々は、正式に公開された予告編を弱い監督力として活用し、フル長の映画から重要な瞬間を検知できるモデルを学ぶ。
本稿では,映画とトレーラーのコ・アテンションを利用してトレーニングペアを生成する新しいランキングネットワークを提案する。
我々は,最初の映画トレーラデータセットを構築し,提案するコ・アテンション支援ランキングネットワークは,教師付きアプローチよりも優れた性能を示す。
論文 参考訳(メタデータ) (2020-08-19T15:23:25Z) - Video Understanding as Machine Translation [53.59298393079866]
我々は、単一の統合フレームワークを用いて、様々なダウンストリームビデオ理解タスクに取り組む。
映像分類(EPIC-Kitchens)、質問応答(TVQA)、キャプション(TVC, YouCook2, MSR-VTT)など、いくつかのダウンストリームタスクにおいて、現状よりもパフォーマンスの向上が報告されている。
論文 参考訳(メタデータ) (2020-06-12T14:07:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。