論文の概要: Predicting the Popularity of Micro-videos with Multimodal Variational
Encoder-Decoder Framework
- arxiv url: http://arxiv.org/abs/2003.12724v1
- Date: Sat, 28 Mar 2020 06:08:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-18 23:19:58.529521
- Title: Predicting the Popularity of Micro-videos with Multimodal Variational
Encoder-Decoder Framework
- Title(参考訳): マルチモーダル変分エンコーダ・デコーダによるマイクロビデオの普及予測
- Authors: Yaochen Zhu, Jiayi Xie, Zhenzhong Chen
- Abstract要約: マイクロビデオ人気タスクのためのマルチモーダル変分エンコーダ・デコーダフレームワークを提案する。
MMVEDは、その人気レベルに情報を与えるマイクロビデオの埋め込みを学習する。
Xiguaから収集した公開データセットとデータセットで実施された実験は、提案したMMVEDフレームワークの有効性を実証する。
- 参考スコア(独自算出の注目度): 54.194340961353944
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As an emerging type of user-generated content, micro-video drastically
enriches people's entertainment experiences and social interactions. However,
the popularity pattern of an individual micro-video still remains elusive among
the researchers. One of the major challenges is that the potential popularity
of a micro-video tends to fluctuate under the impact of various external
factors, which makes it full of uncertainties. In addition, since micro-videos
are mainly uploaded by individuals that lack professional techniques, multiple
types of noise could exist that obscure useful information. In this paper, we
propose a multimodal variational encoder-decoder (MMVED) framework for
micro-video popularity prediction tasks. MMVED learns a stochastic Gaussian
embedding of a micro-video that is informative to its popularity level while
preserves the inherent uncertainties simultaneously. Moreover, through the
optimization of a deep variational information bottleneck lower-bound (IBLBO),
the learned hidden representation is shown to be maximally expressive about the
popularity target while maximally compressive to the noise in micro-video
features. Furthermore, the Bayesian product-of-experts principle is applied to
the multimodal encoder, where the decision for information keeping or
discarding is made comprehensively with all available modalities. Extensive
experiments conducted on a public dataset and a dataset we collect from Xigua
demonstrate the effectiveness of the proposed MMVED framework.
- Abstract(参考訳): 新しいタイプのユーザー生成コンテンツとして、マイクロビデオは人々のエンターテイメント体験と社会的相互作用を劇的に豊かにする。
しかし、個々のマイクロビデオの人気パターンは研究者の間でいまだに解明されていない。
主な課題の1つは、マイクロビデオの人気が様々な外部要因の影響で変動する傾向にあり、不確実性に満ちていることである。
加えて、マイクロビデオは主に専門技術に欠ける個人によってアップロードされるため、不明瞭な有用な情報を含む複数の種類のノイズが存在する可能性がある。
本稿では,マイクロビデオの人気予測タスクのためのマルチモーダル変分エンコーダデコーダ(MMVED)フレームワークを提案する。
MMVEDは、その人気レベルに情報を与えるマイクロビデオの確率的なガウス埋め込みを学習し、同時に固有の不確実性を保存する。
さらに,iblbo(deep variational information bottleneck lower-bound)の最適化により,学習した隠れ表現は,マイクロビデオ特徴のノイズに対して最大圧縮しながら,人気ターゲットに対して最大表現性を示すことが示された。
さらに、ベイズ積・オブ・エキスパートズ原理をマルチモーダルエンコーダに適用し、情報保持または破棄の決定を全ての利用可能なモダリティで包括的に行う。
公開データセットと,Xiguaから収集したデータセットによる大規模な実験により,提案したMMVEDフレームワークの有効性が実証された。
関連論文リスト
- MUFM: A Mamba-Enhanced Feedback Model for Micro Video Popularity Prediction [1.7040391128945196]
ユーザフィードバックと動的イベントインタラクションにおける長期的依存関係をキャプチャするフレームワークを導入する。
大規模なオープンソースマルチモーダルデータセットに関する我々の実験は、我々のモデルが最先端のアプローチを23.2%上回っていることを示している。
論文 参考訳(メタデータ) (2024-11-23T05:13:27Z) - Dreaming User Multimodal Representation Guided by The Platonic Representation Hypothesis for Micro-Video Recommendation [1.8604168495693911]
マルチモーダ空間におけるリアルタイムなユーザ表現を実現するために,ユーザの履歴行動を活用する新しいアプローチであるDreamUMMを紹介する。
DreamUMMは、ユーザビデオの好みとマルチモーダルな類似性を関連づけたクローズドフォームのソリューションを採用しており、ユーザ興味が統一マルチモーダル空間で効果的に表現できるという仮説を立てている。
本研究は,マルチモーダル空間に居住するユーザ関心表現の可能性を支持する実証的証拠を提供することにより,表現収束の継続的な探索に寄与する。
論文 参考訳(メタデータ) (2024-09-15T06:40:38Z) - Orthogonal Hyper-category Guided Multi-interest Elicitation for Micro-video Matching [43.79560010763052]
マイクロビデオマッチングのためのOPALモデルを提案する。
OPALは、ユーザの多種多様な興味を引き出すために、複数のソフトおよびハードな関心の埋め込みを分離する。
OPALはリコールとヒット率の点で6つの最先端モデルを上回っている。
論文 参考訳(メタデータ) (2024-07-20T03:41:57Z) - Exploring Missing Modality in Multimodal Egocentric Datasets [89.76463983679058]
モダリティが欠如している場合でも,MMT(Missing Modality Token)という新しい概念を導入してパフォーマンスを維持する。
テストセットの半分がモダル不完全である場合、元の$sim 30%$ dropから$sim 10%$に減らします。
論文 参考訳(メタデータ) (2024-01-21T11:55:42Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Causal Video Summarizer for Video Exploration [74.27487067877047]
Causal Video Summarizer (CVS) はビデオとクエリ間の対話的な情報をキャプチャするために提案されている。
既存のマルチモーダル映像要約データセットの評価から,提案手法が有効であることを示す実験結果が得られた。
論文 参考訳(メタデータ) (2023-07-04T22:52:16Z) - Multi-queue Momentum Contrast for Microvideo-Product Retrieval [57.527227171945796]
マルチモーダルインスタンスとマルチモーダルインスタンス間の検索を探索する最初の試みであるマイクロビデオ製品検索タスクを定式化する。
双方向検索のためのMulti-Queue Momentum Contrast(MQMC)ネットワークという新しい手法を提案する。
マルチキューを用いた識別的選択戦略は、カテゴリによって異なる負の重要性を区別するために用いられる。
論文 参考訳(メタデータ) (2022-12-22T03:47:14Z) - Modeling High-order Interactions across Multi-interests for Micro-video
Reommendation [65.16624625748068]
利用者の興味表現を高めるためのセルフオーバーCoアテンションモジュールを提案します。
特に、まず相関パターンを異なるレベルでモデル化し、次に自己注意を使って特定のレベルで相関パターンをモデル化します。
論文 参考訳(メタデータ) (2021-04-01T07:20:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。