論文の概要: Unraveling Movie Genres through Cross-Attention Fusion of Bi-Modal Synergy of Poster
- arxiv url: http://arxiv.org/abs/2410.19764v1
- Date: Sat, 12 Oct 2024 16:14:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-03 08:19:30.894543
- Title: Unraveling Movie Genres through Cross-Attention Fusion of Bi-Modal Synergy of Poster
- Title(参考訳): ポスターの両モード相乗効果のクロスアテンション融合による映画源の解明
- Authors: Utsav Kumar Nareti, Chandranath Adak, Soumi Chattopadhyay, Pichao Wang,
- Abstract要約: 映画ジャンルの分類は、映画マーケティング、オーディエンスエンゲージメント、レコメンデーションシステムにおいて重要な役割を果たしている。
映画ジャンルの分類に関する以前の調査は、主にプロット・サマリー、サブタイトル、トレーラー、映画のシーンで検討されてきた。
本稿では,多言語映画ジャンル分類問題に対処するために,視覚的・テキスト的視点から映画ポスターを利用する枠組みを提案する。
- 参考スコア(独自算出の注目度): 13.28948224096886
- License:
- Abstract: Movie posters are not just decorative; they are meticulously designed to capture the essence of a movie, such as its genre, storyline, and tone/vibe. For decades, movie posters have graced cinema walls, billboards, and now our digital screens as a form of digital posters. Movie genre classification plays a pivotal role in film marketing, audience engagement, and recommendation systems. Previous explorations into movie genre classification have been mostly examined in plot summaries, subtitles, trailers and movie scenes. Movie posters provide a pre-release tantalizing glimpse into a film's key aspects, which can ignite public interest. In this paper, we presented the framework that exploits movie posters from a visual and textual perspective to address the multilabel movie genre classification problem. Firstly, we extracted text from movie posters using an OCR and retrieved the relevant embedding. Next, we introduce a cross-attention-based fusion module to allocate attention weights to visual and textual embedding. In validating our framework, we utilized 13882 posters sourced from the Internet Movie Database (IMDb). The outcomes of the experiments indicate that our model exhibited promising performance and outperformed even some prominent contemporary architectures.
- Abstract(参考訳): 映画のポスターは単なる装飾的なものではなく、ジャンル、ストーリーライン、トーン/バイブといった映画の本質を巧みに捉えてデザインされている。
映画ポスターは何十年にもわたって、映画館の壁や看板、そして今や私たちのデジタルスクリーンをデジタルポスターの形で優遇してきた。
映画ジャンルの分類は、映画マーケティング、オーディエンスエンゲージメント、レコメンデーションシステムにおいて重要な役割を果たしている。
映画ジャンルの分類に関する以前の調査は、主にプロット・サマリー、サブタイトル、トレーラー、映画のシーンで検討されてきた。
映画ポスターは、映画の重要な側面を垣間見るためのプレリリース版を提供し、大衆の関心を喚起する。
本稿では,多言語映画ジャンル分類問題に対処するために,視覚的・テキスト的視点から映画ポスターを利用する枠組みを提示する。
まず,OCRを用いてポスターからテキストを抽出し,関連する埋め込みを検索した。
次に、視覚とテキストの埋め込みに注意重みを割り当てるために、相互注意に基づく融合モジュールを導入する。
筆者らは,インターネット映画データベース(IMDb)からの13882個のポスターを利用した。
実験の結果、我々のモデルは有望な性能を示し、現代の卓越したアーキテクチャよりも優れていたことが示唆された。
関連論文リスト
- MPDS: A Movie Posters Dataset for Image Generation with Diffusion Model [26.361736240401594]
映画のポスターは観客を魅了し、テーマを伝え、映画業界で市場競争を牽引するために不可欠である。
画像生成のエキサイティングな進歩にもかかわらず、現在のモデルでは十分なポスター結果が得られないことが多い。
ポスター制作に革命をもたらすために,テキスト・ツー・画像生成モデルに適した映画ポスターデータセット(MPDS)を提案する。
論文 参考訳(メタデータ) (2024-10-22T09:20:03Z) - Towards Automated Movie Trailer Generation [98.9854474456265]
本稿では,エンコーダ・デコーダアーキテクチャを利用したディープラーニングフレームワークTGTを紹介する。
自動回帰トレーラーデコーダは、次のトレーラーショットの特徴表現を予測する。
当社のTGTは、総合的なメトリクススイートにおいて、従来の方法よりも大幅に優れています。
論文 参考訳(メタデータ) (2024-04-04T14:28:34Z) - Demystifying Visual Features of Movie Posters for Multi-Label Genre Identification [0.35998666903987897]
本稿では,ポスターからのみ映画ジャンルを特定するための確率的モジュールを備えたディープトランスフォーマーネットワークを提案する。
実験では,インターネット映画データベース (IMDb) から13のジャンルの13882のポスターを入手した。
論文 参考訳(メタデータ) (2023-09-21T12:39:36Z) - MoviePuzzle: Visual Narrative Reasoning through Multimodal Order
Learning [54.73173491543553]
MoviePuzzleは、ビジュアルな物語の推論と全体論的映画理解をターゲットとする、新しい挑戦である。
本研究では,映像モデルの時間的特徴学習と構造学習を増幅するMoviePuzzleタスクを提案する。
提案手法はMoviePuzzleベンチマークの既存の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2023-06-04T03:51:54Z) - MovieCLIP: Visual Scene Recognition in Movies [38.90153620199725]
既存の映像シーンデータセットは制限されており、映像クリップ内のシーン遷移を考慮していない。
本研究では,映画における視覚的シーン認識の問題に対処するため,まず,映画中心の新たな分類を自動でキュレートする。
コストがかかる手動アノテーションの代わりに、CLIPを使用して、提案した分類に基づく32Kフィルムクリップから112万枚のショットを弱いラベル付けします。
論文 参考訳(メタデータ) (2022-10-20T07:38:56Z) - Film Trailer Generation via Task Decomposition [65.16768855902268]
私たちは映画をグラフとしてモデル化し、ノードはショットであり、エッジはそれらの間のセマンティックな関係を表す。
スクリーンプレイから特権的テキスト情報を活用する共同コントラストトレーニングを用いて,これらの関係を学習する。
教師なしのアルゴリズムがグラフを横切り、人間の審査員が競争的な教師付きアプローチによって生成されるトレーラーを生成する。
論文 参考訳(メタデータ) (2021-11-16T20:50:52Z) - Multilevel profiling of situation and dialogue-based deep networks for
movie genre classification using movie trailers [7.904790547594697]
我々は、状況、対話、メタデータに基づく映画ジャンル分類フレームワークという、新しいマルチモダリティを提案する。
我々は,5つのジャンルに属する2000本のハリウッド映画トレーラーを含むイギリス映画トレーラーデータセット(EMTD)を開発した。
論文 参考訳(メタデータ) (2021-09-14T07:33:56Z) - Political Posters Identification with Appearance-Text Fusion [49.55696202606098]
外観特徴とテキストベクトルを効率的に活用し, 政治ポスターを高精度に分類する手法を提案する。
この作品の大半は、特定の政治イベントのプロモーションとして機能するように設計された政治ポスターに焦点を当てている。
論文 参考訳(メタデータ) (2020-12-19T16:14:51Z) - Movie Summarization via Sparse Graph Construction [65.16768855902268]
マルチモーダル情報を用いて構築された,シーン間の関係を表すスパースなムービーグラフを構築することで,TPシーンを識別するモデルを提案する。
人間の判断によれば、我々のアプローチによって作成された要約は、シーケンスベースモデルや汎用的な要約アルゴリズムの出力よりも、より情報的で完全であり、より高い評価を受けている。
論文 参考訳(メタデータ) (2020-12-14T13:54:34Z) - A Unified Framework for Shot Type Classification Based on Subject
Centric Lens [89.26211834443558]
主観的誘導ネットワーク(SGNet)を用いたショット型認識のための学習フレームワークを提案する。
SGNetは、ショットの主題と背景を2つのストリームに分け、それぞれがスケールとムーブメントタイプの分類のための別々のガイダンスマップとして機能する。
大規模なデータセットであるMovieShotsを構築し、7Kフィルムトレーラーから46K枚の写真と、それらのスケールとムーブメントのアノテーションを含む。
論文 参考訳(メタデータ) (2020-08-08T15:49:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。