論文の概要: Multimodal Topic Learning for Video Recommendation
- arxiv url: http://arxiv.org/abs/2010.13373v1
- Date: Mon, 26 Oct 2020 07:02:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-02 20:07:52.366973
- Title: Multimodal Topic Learning for Video Recommendation
- Title(参考訳): ビデオレコメンデーションのためのマルチモーダルトピック学習
- Authors: Shi Pu and Yijiang He and Zheng Li and Mao Zheng
- Abstract要約: ビデオトピックをオフラインで生成するためのマルチモーダルトピック学習アルゴリズムを提案する。
生成されたトピックは、嗜好範囲の決定とレコメンデーション生成を容易にする意味トピック機能として機能する。
提案アルゴリズムはKuaibao情報ストリーミングプラットフォームに実装されている。
- 参考スコア(独自算出の注目度): 5.458980400688099
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Facilitated by deep neural networks, video recommendation systems have made
significant advances. Existing video recommendation systems directly exploit
features from different modalities (e.g., user personal data, user behavior
data, video titles, video tags, and visual contents) to input deep neural
networks, while expecting the networks to online mine user-preferred topics
implicitly from these features. However, the features lacking semantic topic
information limits accurate recommendation generation. In addition, feature
crosses using visual content features generate high dimensionality features
that heavily downgrade the online computational efficiency of networks. In this
paper, we explicitly separate topic generation from recommendation generation,
propose a multimodal topic learning algorithm to exploit three modalities
(i.e., tags, titles, and cover images) for generating video topics offline. The
topics generated by the proposed algorithm serve as semantic topic features to
facilitate preference scope determination and recommendation generation.
Furthermore, we use the semantic topic features instead of visual content
features to effectively reduce online computational cost. Our proposed
algorithm has been deployed in the Kuaibao information streaming platform.
Online and offline evaluation results show that our proposed algorithm performs
favorably.
- Abstract(参考訳): ディープニューラルネットワークに魅了されたビデオレコメンデーションシステムは、大きな進歩を遂げた。
既存のビデオレコメンデーションシステムは、ユーザー個人データ、ユーザー行動データ、ビデオタイトル、ビデオタグ、ビジュアルコンテンツなど)のさまざまな機能を直接利用してディープニューラルネットワークを入力し、これらの機能からユーザ推奨トピックをオンラインマイニングするネットワークを期待する。
しかし、セマンティックトピック情報を欠いた機能は、正確なレコメンデーション生成を制限する。
さらに、視覚的コンテンツ特徴を用いた機能横断は、ネットワークのオンライン計算効率を著しく低下させる高次元特徴を生成する。
本稿では,ビデオトピックをオフラインで生成するための3つのモダリティ(タグ,タイトル,カバーイメージ)を利用するマルチモーダルなトピック学習アルゴリズムを提案する。
提案アルゴリズムが生成するトピックは,嗜好範囲決定と推薦生成を容易にする意味的トピック特徴として機能する。
さらに,オンライン計算コストを効果的に削減するために,ビジュアルコンテンツ機能の代わりにセマンティックトピック機能を使用する。
提案するアルゴリズムはkuaibao情報ストリーミングプラットフォームにデプロイされている。
オンラインおよびオフライン評価の結果は,提案アルゴリズムが好適に動作することを示す。
関連論文リスト
- You Need to Read Again: Multi-granularity Perception Network for Moment
Retrieval in Videos [19.711703590063976]
本稿では,多粒度レベルでモダリティ内およびモダリティ間情報を知覚する新しい多粒度知覚ネットワーク(MGPN)を提案する。
具体的には、モーメント検索を多選択読解タスクとして定式化し、人間の読解戦略をフレームワークに統合する。
論文 参考訳(メタデータ) (2022-05-25T16:15:46Z) - Video Summarization Based on Video-text Modelling [0.0]
ビデオのセマンティック表現を得るために,マルチモーダルな自己教師型学習フレームワークを提案する。
また,より優れた要約を生成するために,動画内の重要なコンテンツを段階的にピンポイントするプログレッシブな映像要約手法も導入する。
映像分類に基づく映像要約の質を客観的に評価する枠組みを提案する。
論文 参考訳(メタデータ) (2022-01-07T15:21:46Z) - Video Content Classification using Deep Learning [0.0]
本稿では、畳み込みニューラルネットワーク(CNN)とリカレントニューラルネットワーク(RNN)を組み合わせたモデルを提案する。
モデルは、動画コンテンツの種類を特定し、それらを「アニメーション、ゲーム、自然コンテンツ、フラットコンテンツ」などのカテゴリに分類することができる。
論文 参考訳(メタデータ) (2021-11-27T04:36:17Z) - Efficient Modelling Across Time of Human Actions and Interactions [92.39082696657874]
3つの畳み込みニューラルネットワーク(CNND)における現在の固定サイズの時間的カーネルは、入力の時間的変動に対処するために改善できると主張している。
我々は、アーキテクチャの異なるレイヤにまたがる機能の違いを強化することで、アクションのクラス間でどのようにうまく対処できるかを研究する。
提案手法は、いくつかのベンチマークアクション認識データセットで評価され、競合する結果を示す。
論文 参考訳(メタデータ) (2021-10-05T15:39:11Z) - A Survey on Deep Learning Technique for Video Segmentation [147.0767454918527]
ビデオセグメンテーションは幅広い応用において重要な役割を果たしている。
ディープラーニングベースのアプローチは、ビデオセグメンテーションに特化しており、魅力的なパフォーマンスを提供している。
論文 参考訳(メタデータ) (2021-07-02T15:51:07Z) - The Mind's Eye: Visualizing Class-Agnostic Features of CNNs [92.39082696657874]
本稿では,特定のレイヤの最も情報性の高い特徴を表現した対応する画像を作成することにより,画像の集合を視覚的に解釈する手法を提案する。
本手法では, 生成ネットワークを必要とせず, 元のモデルに変更を加えることなく, デュアルオブジェクトのアクティベーションと距離損失を利用する。
論文 参考訳(メタデータ) (2021-01-29T07:46:39Z) - Video Summarization Using Deep Neural Networks: A Survey [72.98424352264904]
ビデオ要約技術は、ビデオコンテンツの最も有益な部分を選択して、簡潔で完全なシノプシスを作成することを目指しています。
本研究は,この領域における最近の進歩に着目し,既存の深層学習に基づく総括的映像要約手法の包括的調査を行う。
論文 参考訳(メタデータ) (2021-01-15T11:41:29Z) - Feature Re-Learning with Data Augmentation for Video Relevance
Prediction [35.87597969685573]
再学習は、アフィン変換によって与えられた深い機能を新しい空間に投影することで実現される。
本稿では,フレームレベルとビデオレベルの機能に直接依存する新たなデータ拡張戦略を提案する。
論文 参考訳(メタデータ) (2020-04-08T05:22:41Z) - Convolutional Hierarchical Attention Network for Query-Focused Video
Summarization [74.48782934264094]
本稿では、ユーザのクエリと長いビデオを入力として取り込む、クエリ中心のビデオ要約の課題に対処する。
本稿では,特徴符号化ネットワークとクエリ関連計算モジュールの2つの部分からなる畳み込み階層型注意ネットワーク(CHAN)を提案する。
符号化ネットワークでは,局所的な自己認識機構と問合せ対応のグローバルアテンション機構を備えた畳み込みネットワークを用いて,各ショットの視覚情報を学習する。
論文 参考訳(メタデータ) (2020-01-31T04:30:14Z) - Video Captioning with Guidance of Multimodal Latent Topics [123.5255241103578]
我々は、データから教師なしの方法でマルチモーダルトピックをマイニングする統合キャプションフレームワークM&M TGMを提案する。
事前に定義されたトピックと比較して、マイニングされたマルチモーダルトピックはより意味的に、視覚的に一貫性がある。
MSR-VTTとYoutube2Textのデータセットを用いた大規模な実験の結果,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2017-08-31T11:18:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。