論文の概要: The complementarity of a diverse range of deep learning features
extracted from video content for video recommendation
- arxiv url: http://arxiv.org/abs/2011.10834v2
- Date: Sat, 1 Jan 2022 00:46:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-22 23:49:02.795306
- Title: The complementarity of a diverse range of deep learning features
extracted from video content for video recommendation
- Title(参考訳): ビデオレコメンデーションのためのビデオコンテンツから抽出した多様な深層学習機能の相補性
- Authors: Adolfo Almeida, Johan Pieter de Villiers, Allan De Freitas, Mergandran
Velayudan
- Abstract要約: 我々は、ビデオレコメンデーションを提供するための様々なディープラーニング機能の可能性を探究する。
映画レコメンデーションのための実世界のビデオデータセットの実験では、ディープラーニングの機能は手作りの機能よりも優れていることが示されている。
特に、ディープラーニングオーディオ機能とアクション中心のディープラーニング機能によって生成されるレコメンデーションは、MFCCや最先端のiDT機能よりも優れている。
- 参考スコア(独自算出の注目度): 2.092922495279074
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Following the popularisation of media streaming, a number of video streaming
services are continuously buying new video content to mine the potential profit
from them. As such, the newly added content has to be handled well to be
recommended to suitable users. In this paper, we address the new item
cold-start problem by exploring the potential of various deep learning features
to provide video recommendations. The deep learning features investigated
include features that capture the visual-appearance, audio and motion
information from video content. We also explore different fusion methods to
evaluate how well these feature modalities can be combined to fully exploit the
complementary information captured by them. Experiments on a real-world video
dataset for movie recommendations show that deep learning features outperform
hand-crafted features. In particular, recommendations generated with deep
learning audio features and action-centric deep learning features are superior
to MFCC and state-of-the-art iDT features. In addition, the combination of
various deep learning features with hand-crafted features and textual metadata
yields significant improvement in recommendations compared to combining only
the former.
- Abstract(参考訳): メディアストリーミングの普及に伴い、多くのビデオストリーミングサービスが新たなビデオコンテンツを購入し続け、そこから利益を得ようとしている。
そのため、新たに追加されたコンテンツは適切に処理され、適切なユーザーに推奨される。
本稿では,ビデオレコメンデーションを提供するために,様々な深層学習機能の可能性を探ることで,新しい項目のコールドスタート問題に対処する。
調査対象のディープラーニング機能には、映像コンテンツから視覚的外観、オーディオおよびモーション情報をキャプチャする機能が含まれている。
また,これらの特徴モダリティが組み合わさって,それらによって収集された補完的情報を十分に活用できるかを評価するために,異なる融合手法を検討する。
映画レコメンデーションのための実世界のビデオデータセットの実験では、ディープラーニングの機能は手作りの機能よりも優れている。
特に、ディープラーニングオーディオ機能とアクション中心のディープラーニング機能によって生成されるレコメンデーションは、MFCCや最先端のiDT機能よりも優れている。
さらに、様々なディープラーニング機能と手作りの特徴とテキストメタデータを組み合わせることで、前者のみと組み合わせることで、推奨度が大幅に向上する。
関連論文リスト
- Multimodal Language Models for Domain-Specific Procedural Video Summarization [0.0]
本研究では,ビデオ要約とステップ・バイ・ステップ・インストラクション生成のためのマルチモーダルモデルについて検討する。
提案手法は,料理や医療処置など特定の領域におけるパフォーマンスを向上させるための微調整のTimeChatに焦点をあてる。
以上の結果から, ドメイン固有の手続きデータに微調整を施すと, TimeChatは長めの動画において, 重要な指導ステップの抽出と要約を大幅に改善できることがわかった。
論文 参考訳(メタデータ) (2024-07-07T15:50:46Z) - Video Infringement Detection via Feature Disentanglement and Mutual
Information Maximization [51.206398602941405]
本稿では,元の高次元特徴を複数のサブ機能に分解することを提案する。
歪んだサブ機能の上に,サブ機能を強化する補助的特徴を学習する。
提案手法は,大規模SVDデータセット上で90.1%のTOP-100 mAPを達成し,VCSLベンチマークデータセット上で新たな最先端を設定できる。
論文 参考訳(メタデータ) (2023-09-13T10:53:12Z) - Self-Supervised Learning for Videos: A Survey [70.37277191524755]
自己教師型学習は、画像ドメインとビデオドメインの両方で有望である。
本稿では,ビデオ領域に着目した自己教師型学習における既存のアプローチについて概観する。
論文 参考訳(メタデータ) (2022-06-18T00:26:52Z) - Distilling Audio-Visual Knowledge by Compositional Contrastive Learning [51.20935362463473]
我々は、クロスモーダルな意味のギャップを埋める構成埋め込みを学びます。
3つのビデオデータセットに新しい総合的マルチモーダル蒸留ベンチマークを確立した。
論文 参考訳(メタデータ) (2021-04-22T09:31:20Z) - Video Summarization Using Deep Neural Networks: A Survey [72.98424352264904]
ビデオ要約技術は、ビデオコンテンツの最も有益な部分を選択して、簡潔で完全なシノプシスを作成することを目指しています。
本研究は,この領域における最近の進歩に着目し,既存の深層学習に基づく総括的映像要約手法の包括的調査を行う。
論文 参考訳(メタデータ) (2021-01-15T11:41:29Z) - Classification of Important Segments in Educational Videos using
Multimodal Features [10.175871202841346]
本稿では,最先端の音声・視覚・テキスト機能を利用したマルチモーダルニューラルアーキテクチャを提案する。
本実験では,視覚的・時間的情報の影響と,重大予測に対するマルチモーダル特徴の組み合わせについて検討した。
論文 参考訳(メタデータ) (2020-10-26T14:40:23Z) - Multimodal Topic Learning for Video Recommendation [5.458980400688099]
ビデオトピックをオフラインで生成するためのマルチモーダルトピック学習アルゴリズムを提案する。
生成されたトピックは、嗜好範囲の決定とレコメンデーション生成を容易にする意味トピック機能として機能する。
提案アルゴリズムはKuaibao情報ストリーミングプラットフォームに実装されている。
論文 参考訳(メタデータ) (2020-10-26T07:02:47Z) - A Clustering-Based Method for Automatic Educational Video Recommendation
Using Deep Face-Features of Lecturers [0.0]
本稿では,教師の顔深度を識別することなく,教師の顔深度を利用して教育用ビデオレコメンデーションを生成する手法を提案する。
我々は教師なしの顔クラスタリング機構を用いて、講師の存在に基づいてビデオ間の関係を創出する。
参考講師の出席時間に基づいて,これらの推薦動画をランク付けする。
論文 参考訳(メタデータ) (2020-10-09T16:53:16Z) - Hybrid Dynamic-static Context-aware Attention Network for Action
Assessment in Long Videos [96.45804577283563]
本稿では,長期ビデオにおけるアクションアセスメントのための新しいハイブリットDynAmic-static Context-aware AttenTION NETwork(ACTION-NET)を提案する。
ビデオのダイナミックな情報を学習すると同時に,特定フレームにおける検出した選手の静的姿勢にも焦点をあてる。
2つのストリームの特徴を組み合わせることで、専門家が与えた地道的なスコアによって監督され、最終的なビデオスコアを後退させます。
論文 参考訳(メタデータ) (2020-08-13T15:51:42Z) - Feature Re-Learning with Data Augmentation for Video Relevance
Prediction [35.87597969685573]
再学習は、アフィン変換によって与えられた深い機能を新しい空間に投影することで実現される。
本稿では,フレームレベルとビデオレベルの機能に直接依存する新たなデータ拡張戦略を提案する。
論文 参考訳(メタデータ) (2020-04-08T05:22:41Z) - Non-Adversarial Video Synthesis with Learned Priors [53.26777815740381]
我々は、参照入力フレームを使わずに、遅延雑音ベクトルからビデオを生成する問題に焦点をあてる。
本研究では,入力潜時空間,繰り返しニューラルネットワークの重み付け,非対角学習によるジェネレータを協調的に最適化する手法を開発した。
提案手法は,既存の最先端手法と比較して高品質なビデオを生成する。
論文 参考訳(メタデータ) (2020-03-21T02:57:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。