論文の概要: Movie Recommendation with Poster Attention via Multi-modal Transformer Feature Fusion
- arxiv url: http://arxiv.org/abs/2407.09157v1
- Date: Fri, 12 Jul 2024 10:44:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-15 23:57:34.187446
- Title: Movie Recommendation with Poster Attention via Multi-modal Transformer Feature Fusion
- Title(参考訳): マルチモーダルトランス機能融合によるポスターアテンションによる映画レコメンデーション
- Authors: Linhan Xia, Yicheng Yang, Ziou Chen, Zheng Yang, Shengxin Zhu,
- Abstract要約: 本研究では,各映画のポスターの特徴を抽出し,マルチモーダルな映画レコメンデーションシステムを提案する。
概念実証モデルの効率は、MovieLens 100Kと1Mデータセットの標準ベンチマーク問題によって検証される。
- 参考スコア(独自算出の注目度): 4.228539709089597
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained models learn general representations from large datsets which can be fine-turned for specific tasks to significantly reduce training time. Pre-trained models like generative pretrained transformers (GPT), bidirectional encoder representations from transformers (BERT), vision transfomers (ViT) have become a cornerstone of current research in machine learning. This study proposes a multi-modal movie recommendation system by extract features of the well designed posters for each movie and the narrative text description of the movie. This system uses the BERT model to extract the information of text modality, the ViT model applied to extract the information of poster/image modality, and the Transformer architecture for feature fusion of all modalities to predict users' preference. The integration of pre-trained foundational models with some smaller data sets in downstream applications capture multi-modal content features in a more comprehensive manner, thereby providing more accurate recommendations. The efficiency of the proof-of-concept model is verified by the standard benchmark problem the MovieLens 100K and 1M datasets. The prediction accuracy of user ratings is enhanced in comparison to the baseline algorithm, thereby demonstrating the potential of this cross-modal algorithm to be applied for movie or video recommendation.
- Abstract(参考訳): 事前訓練されたモデルは、訓練時間を著しく短縮するために特定のタスクのために微調整できる大きなダットセットから一般的な表現を学ぶ。
生成事前学習型トランスフォーマー(GPT)、変換器(BERT)からの双方向エンコーダ表現、視覚トランスフォーマー(ViT)といった事前学習モデルが、機械学習における現在の研究の基盤となっている。
本研究は,映画ごとによく設計されたポスターの特徴を抽出し,映画の物語文を記述したマルチモーダル映画レコメンデーションシステムを提案する。
本システムは,テキストモダリティの情報抽出にBERTモデル,ポスター/イメージモダリティ情報を抽出するViTモデル,ユーザの好みを予測するためにすべてのモダリティを特徴融合するTransformerアーキテクチャを用いる。
トレーニング済みの基礎モデルとダウンストリームアプリケーション内のいくつかの小さなデータセットの統合は、より包括的な方法でマルチモーダルコンテンツ機能をキャプチャし、より正確なレコメンデーションを提供する。
概念実証モデルの効率は、MovieLens 100Kと1Mデータセットの標準ベンチマーク問題によって検証される。
ユーザレーティングの予測精度はベースラインアルゴリズムと比較して向上し、映画やビデオのレコメンデーションに適用されるクロスモーダルアルゴリズムの可能性を示す。
関連論文リスト
- Movie Trailer Genre Classification Using Multimodal Pretrained Features [1.1743167854433303]
本稿では,映画ジャンル分類のための新しい手法を提案する。
本手法は,映画予告編の映像フレームと音声フレームを時間プーリングを行なわずに活用する。
我々の手法は、精度、リコール、平均平均精度(mAP)の観点から、最先端の映画ジャンル分類モデルより優れている。
論文 参考訳(メタデータ) (2024-10-11T15:38:05Z) - Spatio-Temporal Side Tuning Pre-trained Foundation Models for Video-based Pedestrian Attribute Recognition [58.79807861739438]
既存の歩行者認識アルゴリズム(PAR)は主に静的画像に基づいて開発されている。
本稿では,時間的情報を完全に活用できるビデオフレームを用いて,人間の属性を理解することを提案する。
論文 参考訳(メタデータ) (2024-04-27T14:43:32Z) - MatFormer: Nested Transformer for Elastic Inference [94.1789252941718]
MatFormerは、様々なデプロイメント制約で弾力性を提供するように設計されたネストトランスフォーマーアーキテクチャである。
2.6BデコーダのみのMatFormer言語モデル(MatLM)は1.5Bから2.6Bまでの小さなモデルを抽出できることを示す。
また,MatFormerベースのViT(MatViT)エンコーダから抽出した小さなエンコーダは,適応的な大規模検索のための距離空間構造を保持する。
論文 参考訳(メタデータ) (2023-10-11T17:57:14Z) - GPT4Image: Can Large Pre-trained Models Help Vision Models on Perception
Tasks? [51.22096780511165]
本稿では,大規模な事前学習モデルから抽出した知識を利用して,CNN や ViT などのモデルが拡張表現を学習するのを支援する新しい学習パラダイムを提案する。
我々は、詳細な記述を事前訓練されたエンコーダに入力し、画像の内容をエンコードするリッチなセマンティック情報でテキスト埋め込みを抽出する。
論文 参考訳(メタデータ) (2023-06-01T14:02:45Z) - All in One: Exploring Unified Video-Language Pre-training [44.22059872694995]
そこで本研究では,生のビデオとテキストの信号を共同表現に組み込んだ,エンドツーエンドのビデオ言語モデルであるtextitall-in-one Transformerを提案する。
コードと事前訓練されたモデルはhttps://github.com/showlab/all-in-one.comでリリースされた。
論文 参考訳(メタデータ) (2022-03-14T17:06:30Z) - Multiview Transformers for Video Recognition [69.50552269271526]
様々な解像度でMTV(Multiview Video Recognition)を提示する。
MTVは、精度と計算コストの点で、シングルビューよりも一貫してパフォーマンスが良い。
5つの標準データセットで最先端の結果が得られ、大規模事前学習によりさらに改善される。
論文 参考訳(メタデータ) (2022-01-12T03:33:57Z) - BEVT: BERT Pretraining of Video Transformers [89.08460834954161]
本稿では,映像表現学習を空間表現学習と時間ダイナミクス学習に分離するBEVTを紹介する。
我々は、BEVTが非常に有望な結果を得る3つの挑戦的なビデオベンチマークについて広範な実験を行った。
論文 参考訳(メタデータ) (2021-12-02T18:59:59Z) - ViViT: A Video Vision Transformer [75.74690759089529]
ビデオ分類にpure-transformerベースのモデルを提案する。
本モデルでは,入力ビデオから時間トークンを抽出し,一連のトランスフォーマー層で符号化する。
トレーニング中にモデルを効果的に正規化し、トレーニング済みの画像モデルを利用して比較的小さなデータセットでトレーニングできることを示します。
論文 参考訳(メタデータ) (2021-03-29T15:27:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。