論文の概要: MealRec: Multi-granularity Sequential Modeling via Hierarchical Diffusion Models for Micro-Video Recommendation
- arxiv url: http://arxiv.org/abs/2603.01926v1
- Date: Mon, 02 Mar 2026 14:39:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.913491
- Title: MealRec: Multi-granularity Sequential Modeling via Hierarchical Diffusion Models for Micro-Video Recommendation
- Title(参考訳): MealRec: マイクロビデオレコメンデーションのための階層拡散モデルによる多粒度シーケンスモデリング
- Authors: Xinxin Dong, Haokai Ma, Yuze Zheng, Yongfu Zha, Yonghui Yang, Xiaodong Wang,
- Abstract要約: マイクロビデオレコメンデーションは、対話されたマイクロビデオのコラボレーティブおよびコンテキスト情報からユーザの好みをキャプチャすることを目的としている。
マイクロビデオレコメンデーション(MealRec)のための階層拡散モデルを用いた多重粒度連続モデリング手法を提案する。
- 参考スコア(独自算出の注目度): 9.268996272239034
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Micro-video recommendation aims to capture user preferences from the collaborative and context information of the interacted micro-videos, thereby predicting the appropriate videos. This target is often hindered by the inherent noise within multimodal content and unreliable implicit feedback, which weakens the correspondence between behaviors and underlying interests. While conventional works have predominantly approached such scenario through behavior-augmented modeling and content-centric multimodal analysis, these paradigms can inadvertently give rise to two non-trivial challenges: preference-irrelative video representation extraction and inherent modality conflicts. To address these issues, we propose a Multi-granularity sequential modeling method via hierarchical diffusion models for micro-video Recommendation (MealRec), which simultaneously considers temporal correlations during preference modeling from intra- and inter-video perspectives. Specifically, we first propose Temporal-guided Content Diffusion (TCD) to refine video representations under intra-video temporal guidance and personalized collaborative signals to emphasize salient content while suppressing redundancy. To achieve the semantically coherent preference modeling, we further design the Noise-unconditional Preference Denoising (NPD) to recovers informative user preferences from corrupted states under the blind denoising. Extensive experiments and analyses on four micro-video datasets from two platforms demonstrate the effectiveness, universality, and robustness of our MealRec, further uncovering the effective mechanism of our proposed TCD and NPD. The source code and corresponding dataset will be available upon acceptance.
- Abstract(参考訳): マイクロビデオレコメンデーションは、対話されたマイクロビデオのコラボレーティブおよびコンテキスト情報からユーザの好みを捉え、適切なビデオを予測することを目的としている。
この目標はしばしば、マルチモーダルコンテンツ内の固有のノイズと信頼できない暗黙のフィードバックによって妨げられ、行動と根底にある関心との対応を弱める。
従来の研究は、行動強化モデリングとコンテンツ中心のマルチモーダル分析を通じてこのようなシナリオに主にアプローチしてきたが、これらのパラダイムは必然的に2つの非自明な課題を生じさせる可能性がある。
これらの課題に対処するために,マイクロビデオレコメンデーション(MealRec)のための階層的拡散モデルを用いたマルチグラニュラリティシーケンシャルモデリング手法を提案する。
具体的には,ビデオ内の時間的ガイダンスに基づく映像表現の洗練と協調的な信号のパーソナライズのためのテンポラル誘導コンテンツ拡散(TCD)を提案する。
意味的コヒーレントな選好モデルを実現するため,視覚障害者の視覚障害者の嗜好を再現するノイズ非条件選好Denoising (NPD) を設計する。
2つのプラットフォームからの4つのマイクロビデオデータセットの大規模な実験と分析により、MealRecの有効性、普遍性、ロバスト性を実証し、提案したTCDとNPDの有効性を明らかにする。
ソースコードと対応するデータセットは、受理時に利用可能になる。
関連論文リスト
- CounterVid: Counterfactual Video Generation for Mitigating Action and Temporal Hallucinations in Video-Language Models [66.56549019393042]
ビデオ言語モデル(VLM)は、強いマルチモーダル理解を実現するが、特に行動や時間秩序を推論する場合、幻覚を起こす傾向にある。
本稿では,シーンコンテキストを保ちながら,アクションや時間構造が異なる映像を合成する,対物映像生成のためのスケーラブルなフレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-08T10:03:07Z) - Enhanced Partially Relevant Video Retrieval through Inter- and Intra-Sample Analysis with Coherence Prediction [18.24629930062925]
部分的に関連のあるビデオ検索は、テキストクエリに関連するターゲットビデオを取得することを目的としている。
既存の手法は、セマンティック空間を構築するために、ペア化されたビデオとテキストクエリを粗く整列する。
サンプル間相関とサンプル内冗長性を体系的に活用する新しいPRVRフレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-28T09:52:46Z) - Dual Conditional Diffusion Models for Sequential Recommendation [63.82152785755723]
シーケンスレコメンデーションのための二重条件拡散モデル(DCRec)を提案する。
DCRecは2つの条件を前と逆の拡散プロセスに埋め込むことで暗黙的および明示的な情報を統合する。
これによってモデルは、明示的なユーザ-イテムインタラクションを活用してレコメンデーションプロセスをガイドしながら、価値あるシーケンシャルおよびコンテキスト情報を保持することができる。
論文 参考訳(メタデータ) (2024-10-29T11:51:06Z) - A Study of Dropout-Induced Modality Bias on Robustness to Missing Video
Frames for Audio-Visual Speech Recognition [53.800937914403654]
AVSR(Advanced Audio-Visual Speech Recognition)システムは、欠落したビデオフレームに敏感であることが観察されている。
ビデオモダリティにドロップアウト技術を適用することで、フレーム不足に対するロバスト性が向上する一方、完全なデータ入力を扱う場合、同時に性能損失が発生する。
本稿では,MDA-KD(Multimodal Distribution Approximation with Knowledge Distillation)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-07T06:06:55Z) - Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - CMMD: Contrastive Multi-Modal Diffusion for Video-Audio Conditional Modeling [21.380988939240844]
ビデオとオーディオの双方向条件生成に適したマルチモーダル拡散モデルを提案する。
本稿では,視覚と聴覚の同期を改善するために,協調学習損失を提案する。
論文 参考訳(メタデータ) (2023-12-08T23:55:19Z) - LD4MRec: Simplifying and Powering Diffusion Model for Multimedia Recommendation [6.914898966090197]
マルチメディアレコメンデーションのための光拡散モデル(LD4MRec)を提案する。
LD4MRecはフォワードフリー推論戦略を採用しており、観測されたノイズの振る舞いから直接将来の振る舞いを予測する。
3つの実世界のデータセットで実施された実験は、LD4MRecの有効性を示した。
論文 参考訳(メタデータ) (2023-09-27T02:12:41Z) - DiffusionVMR: Diffusion Model for Joint Video Moment Retrieval and
Highlight Detection [38.12212015133935]
DiffusionVMRという新しいフレームワークは、2つのタスクを統一された条件記述生成プロセスとして再定義するために提案されている。
5つの広く利用されているベンチマークで実施された実験は、提案されたDiffusionVMRの有効性と柔軟性を示している。
論文 参考訳(メタデータ) (2023-08-29T08:20:23Z) - Diffusion Recommender Model [85.9640416600725]
そこで我々は,DiffRecと呼ばれる新しい拡散レコメンダモデルを提案し,その生成過程を認知的に学習する。
ユーザインタラクションにおけるパーソナライズされた情報を維持するため、DiffRecは追加のノイズを低減し、画像合成のような純粋なノイズに対するユーザのインタラクションを損なうことを避ける。
論文 参考訳(メタデータ) (2023-04-11T04:31:00Z) - Deconfounded Video Moment Retrieval with Causal Intervention [80.90604360072831]
本研究は,ビデオ中の特定のモーメントをテキストクエリに従ってローカライズすることを目的とした,ビデオモーメント検索(VMR)の課題に取り組む。
既存の手法は主に複雑な相互モーダル相互作用によるクエリとモーメントのマッチング関係をモデル化する。
本稿では,クエリとビデオコンテンツが予測に与える影響を捉えるために,構造因果モデルを構築する因果性に着想を得たVMRフレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-03T01:33:26Z) - Speech Prediction in Silent Videos using Variational Autoencoders [29.423462898526605]
我々はサイレントビデオで音声を生成するモデルを提案する。
提案モデルは、繰り返しニューラルネットワークと変分深部生成モデルを組み合わせて、聴覚の条件分布を学習する。
標準ベンチマークに基づくGRIDデータセット上で,本モデルの性能を示す。
論文 参考訳(メタデータ) (2020-11-14T17:09:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。