論文の概要: Less is More: Information Bottleneck Denoised Multimedia Recommendation
- arxiv url: http://arxiv.org/abs/2501.12175v1
- Date: Tue, 21 Jan 2025 14:33:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:19:15.349510
- Title: Less is More: Information Bottleneck Denoised Multimedia Recommendation
- Title(参考訳): 詳細:Information Bottleneck Denoized Multimedia Recommendation
- Authors: Yonghui Yang, Le Wu, Zhuangzhuang He, Zhengwei Wu, Richang Hong, Meng Wang,
- Abstract要約: 我々は、Information Bottleneck principle (IB) を用いて、認知マルチメディアレコメンデーションパラダイムを提案する。
IBMRecは機能面と項目面の両方からタスク非関連の機能を取り除いている。
マルチメディア表現とレコメンデーションタスクの相互情報を最大化する。
- 参考スコア(独自算出の注目度): 43.66791467993419
- License:
- Abstract: Empowered by semantic-rich content information, multimedia recommendation has emerged as a potent personalized technique. Current endeavors center around harnessing multimedia content to refine item representation or uncovering latent item-item structures based on modality similarity. Despite the effectiveness, we posit that these methods are usually suboptimal due to the introduction of irrelevant multimedia features into recommendation tasks. This stems from the fact that generic multimedia feature extractors, while well-designed for domain-specific tasks, can inadvertently introduce task-irrelevant features, leading to potential misguidance of recommenders. In this work, we propose a denoised multimedia recommendation paradigm via the Information Bottleneck principle (IB). Specifically, we propose a novel Information Bottleneck denoised Multimedia Recommendation (IBMRec) model to tackle the irrelevant feature issue. IBMRec removes task-irrelevant features from both feature and item-item structure perspectives, which are implemented by two-level IB learning modules: feature-level (FIB) and graph-level (GIB). In particular, FIB focuses on learning the minimal yet sufficient multimedia features. This is achieved by maximizing the mutual information between multimedia representation and recommendation tasks, while concurrently minimizing it between multimedia representation and pre-trained multimedia features. Furthermore, GIB is designed to learn the robust item-item graph structure, it refines the item-item graph based on preference affinity, then minimizes the mutual information between the original graph and the refined one. Extensive experiments across three benchmarks validate the effectiveness of our proposed model, showcasing high performance, and applicability to various multimedia recommenders.
- Abstract(参考訳): セマンティックリッチなコンテンツ情報を活用するマルチメディアレコメンデーションは、強力なパーソナライズ技術として登場した。
現在の取り組みは、マルチメディアコンテンツを活用してアイテム表現を洗練したり、モダリティの類似性に基づいた潜在アイテムイテム構造を明らかにすることを中心にしている。
有効性にもかかわらず、提案手法は通常、推奨タスクに非関連なマルチメディア機能を導入するため、最適でないと仮定する。
これは、ジェネリックマルチメディア機能抽出器が、ドメイン固有のタスクのためによく設計されているが、必然的にタスク非関連機能を導入し、リコメンダの誤認につながるという事実に起因している。
本稿では,Information BottleneckPrinciple (IB) を応用したマルチメディアレコメンデーション手法を提案する。
具体的には,非関係な機能問題に対処するために,IBMRec(Information Bottleneck denoized Multimedia Recommendation)モデルを提案する。
IBMRecは、機能レベル(FIB)とグラフレベル(GIB)という2段階のIB学習モジュールによって実装される、機能と項目構造の両方の観点から、タスク非関連の機能を削除する。
特に、FIBは最小でも十分なマルチメディア機能を学ぶことに焦点を当てている。
これはマルチメディア表現とレコメンデーションタスクの相互情報を最大化し、マルチメディア表現と事前訓練されたマルチメディア特徴の相互情報を同時に最小化する。
さらに、GIBは、ロバストなアイテム-イットグラフ構造を学習し、嗜好親和性に基づいてアイテム-イットグラフを洗練し、元のグラフと洗練されたグラフとの相互情報を最小化するように設計されている。
提案したモデルの有効性を検証し,高い性能を示し,様々なマルチメディアレコメンデータに適用可能であることを示す。
関連論文リスト
- Towards Bridging the Cross-modal Semantic Gap for Multi-modal Recommendation [12.306686291299146]
マルチモーダルレコメンデーションはレコメンデーションシステムの性能を大幅に向上させる。
既存のマルチモーダルレコメンデーションモデルは、マルチメディア情報伝搬プロセスを利用してアイテム表現を豊かにする。
本稿では,モダリティ間のセマンティックギャップをブリッジし,詳細な多視点セマンティック情報を抽出する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-07T15:56:03Z) - Multimodal Pretraining and Generation for Recommendation: A Tutorial [54.07497722719509]
チュートリアルは、マルチモーダル事前学習、マルチモーダル生成、産業アプリケーションという3つの部分で構成されている。
マルチモーダル・レコメンデーションの迅速な理解を促進することを目的としており、この進化する景観の今後の発展について有意義な議論を促進することを目的としている。
論文 参考訳(メタデータ) (2024-05-11T06:15:22Z) - MONET: Modality-Embracing Graph Convolutional Network and Target-Aware
Attention for Multimedia Recommendation [21.61057660080108]
グラフ畳み込みネットワーク(GCN)を用いたマルチメディアレコメンデータシステムに着目する。
本研究は,商品の嗜好を正確に把握するために,より効果的にマルチモーダル機能を活用することを目的とする。
我々は,モダリティを考慮したGCN(MeGCN)とターゲット認識型アテンションの2つの基本概念からなる,MONETという新しいマルチメディアレコメンデータシステムを提案する。
論文 参考訳(メタデータ) (2023-12-15T03:28:19Z) - MM-GEF: Multi-modal representation meet collaborative filtering [43.88159639990081]
本稿では,グラフアーリーフュージョンを用いたマルチモーダルレコメンデーション MM-GEF を提案する。
MM-GEFはマルチモーダル信号と協調信号の両方から得られる構造情報を注入することにより、洗練された項目表現を学習する。
論文 参考訳(メタデータ) (2023-08-14T15:47:36Z) - Video-based Person Re-identification with Long Short-Term Representation
Learning [101.62570747820541]
ビデオベースの人物再識別(V-ReID)は、オーバーラップしないカメラで撮影した生のビデオから特定の人物を回収することを目的としている。
本稿では,V-ReIDのためのLong Short-Term Representation Learning(LSTRL)という新しいディープラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-07T16:22:47Z) - Latent Structures Mining with Contrastive Modality Fusion for Multimedia
Recommendation [22.701371886522494]
マルチモーダルコンテンツに基づく潜在意味的項目-項目構造は,より優れた項目表現を学習する上で有益である,と我々は主張する。
モータリティを意識した構造学習モジュールを考案し,各モータリティの項目間関係を学習する。
論文 参考訳(メタデータ) (2021-11-01T03:37:02Z) - Mining Latent Structures for Multimedia Recommendation [46.70109406399858]
本稿では,マルチモーダル再圧縮のためのLATent sTructureマイニング手法を提案する。
各モダリティの項目構造を学び、複数のモダリティを集約して潜在アイテムグラフを得る。
学習した潜在グラフに基づいてグラフ畳み込みを行い、アイテム表現に高次項目親和性を明示的に注入する。
論文 参考訳(メタデータ) (2021-04-19T03:50:24Z) - VMSMO: Learning to Generate Multimodal Summary for Video-based News
Articles [63.32111010686954]
マルチモーダル出力(VMSMO)を用いたビデオベースマルチモーダル要約の課題を提案する。
このタスクの主な課題は、ビデオの時間的依存性と記事の意味を共同でモデル化することである。
本稿では,デュアルインタラクションモジュールとマルチモーダルジェネレータからなるDual-Interaction-based Multimodal Summarizer (DIMS)を提案する。
論文 参考訳(メタデータ) (2020-10-12T02:19:16Z) - Embedded Deep Bilinear Interactive Information and Selective Fusion for
Multi-view Learning [70.67092105994598]
本稿では,上記の2つの側面に着目した,新しい多視点学習フレームワークを提案する。
特に、さまざまな深層ニューラルネットワークをトレーニングして、様々なビュー内表現を学習する。
6つの公開データセットの実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2020-07-13T01:13:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。