論文の概要: Beyond Unimodal Boundaries: Generative Recommendation with Multimodal Semantics
- arxiv url: http://arxiv.org/abs/2503.23333v1
- Date: Sun, 30 Mar 2025 06:24:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 19:35:57.064727
- Title: Beyond Unimodal Boundaries: Generative Recommendation with Multimodal Semantics
- Title(参考訳): ユニモーダル境界を超えて:多モーダルセマンティックを用いた生成的レコメンデーション
- Authors: Jing Zhu, Mingxuan Ju, Yozen Liu, Danai Koutra, Neil Shah, Tong Zhao,
- Abstract要約: 実世界のデータのリッチでマルチモーダルな性質を考えると、これは大きな制限であると言えるでしょう。
GRモデルが特に異なるモダリティに敏感であることを明らかにするとともに,有効なGRを実現する上での課題について検討する。
MGR-LF++は、異なるモダリティを表すために、対照的なモダリティアライメントと特別なトークンを利用する拡張レイトフュージョンフレームワークである。
- 参考スコア(独自算出の注目度): 46.79459036259515
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative recommendation (GR) has become a powerful paradigm in recommendation systems that implicitly links modality and semantics to item representation, in contrast to previous methods that relied on non-semantic item identifiers in autoregressive models. However, previous research has predominantly treated modalities in isolation, typically assuming item content is unimodal (usually text). We argue that this is a significant limitation given the rich, multimodal nature of real-world data and the potential sensitivity of GR models to modality choices and usage. Our work aims to explore the critical problem of Multimodal Generative Recommendation (MGR), highlighting the importance of modality choices in GR nframeworks. We reveal that GR models are particularly sensitive to different modalities and examine the challenges in achieving effective GR when multiple modalities are available. By evaluating design strategies for effectively leveraging multiple modalities, we identify key challenges and introduce MGR-LF++, an enhanced late fusion framework that employs contrastive modality alignment and special tokens to denote different modalities, achieving a performance improvement of over 20% compared to single-modality alternatives.
- Abstract(参考訳): ジェネレーティブ・レコメンデーション(GR)は、自己回帰モデルにおける非意味的項目識別子に依存する従来の手法とは対照的に、モダリティとセマンティクスをアイテム表現に暗黙的に関連付けるレコメンデーションシステムにおいて、強力なパラダイムとなっている。
しかし、以前の研究は、アイテムの内容が(典型的にはテキスト)単文であると仮定して、主に単独でモダリティを扱い続けている。
実世界のデータのリッチでマルチモーダルな性質と、GRモデルのモダリティ選択と使用に対する感受性を考えると、これは大きな制限である。
本研究の目的は,MGR(Multimodal Generative Recommendation)の重要課題を探ることであり,GR nframeworksにおけるモダリティの選択の重要性を明らかにすることである。
GRモデルが特に異なるモダリティに敏感であることを明らかにするとともに,複数のモダリティが利用できる場合に有効なGRを実現する上での課題について検討する。
複数のモダリティを効果的に活用するための設計戦略を評価することにより、重要な課題を特定し、異なるモダリティを示すために対照的なモダリティアライメントと特別なトークンを使用する拡張後期融合フレームワークであるMGR-LF++を導入し、単一モダリティ代替品と比較して20%以上のパフォーマンス改善を実現した。
関連論文リスト
- UniversalRAG: Retrieval-Augmented Generation over Multiple Corpora with Diverse Modalities and Granularities [53.76854299076118]
UniversalRAGは異種情報源からの知識を多様さと粒度で検索・統合するための新しいRAGフレームワークである。
本稿では,最も適切なモダリティ固有コーパスを動的に識別し,その内部でターゲット検索を行うモダリティ対応ルーティング機構を提案する。
複数のモダリティにまたがる8つのベンチマークでUniversalRAGを検証する。
論文 参考訳(メタデータ) (2025-04-29T13:18:58Z) - Disentangling and Generating Modalities for Recommendation in Missing Modality Scenarios [21.73914052076956]
本稿では,モダリティを欠くシナリオに対して,DGMレコメンダ(Disentangling and Generating Modality Recommender)を提案する。
DGMRecは、情報ベースの観点から、モダリティの特徴を一般的な、特定のモダリティの特徴に分解する。
挑戦的なシナリオでは、最先端のMSSよりも一貫して優れています。
論文 参考訳(メタデータ) (2025-04-23T02:04:14Z) - Towards Modality Generalization: A Benchmark and Prospective Analysis [56.84045461854789]
本稿では,モダリティ・ジェネリゼーション(MG)について述べる。
マルチモーダルアルゴリズムを特徴とする包括的ベンチマークを提案し,一般化に着目した既存手法を適用した。
私たちの研究は、堅牢で適応可能なマルチモーダルモデルを進化させる基盤を提供し、現実的なシナリオで目に見えないモダリティを扱えるようにします。
論文 参考訳(メタデータ) (2024-12-24T08:38:35Z) - CUE-M: Contextual Understanding and Enhanced Search with Multimodal Large Language Model [9.224965304457708]
本稿では,新しいマルチモーダル検索フレームワークであるMLLM (CUE-M) について述べる。
画像コンテキストの強化、インテントの洗練、コンテキストクエリ生成、外部APIの統合、関連ベースのフィルタリングなどが含まれている。
知識に基づくVQAと安全性に関する実単語データセットと公開ベンチマークの実験は、CUE-Mがベースラインを上回り、新しい最先端の結果を確立することを示した。
論文 参考訳(メタデータ) (2024-11-19T07:16:48Z) - Towards Bridging the Cross-modal Semantic Gap for Multi-modal Recommendation [12.306686291299146]
マルチモーダルレコメンデーションはレコメンデーションシステムの性能を大幅に向上させる。
既存のマルチモーダルレコメンデーションモデルは、マルチメディア情報伝搬プロセスを利用してアイテム表現を豊かにする。
本稿では,モダリティ間のセマンティックギャップをブリッジし,詳細な多視点セマンティック情報を抽出する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-07T15:56:03Z) - LLM4Rerank: LLM-based Auto-Reranking Framework for Recommendations [51.76373105981212]
リグレードはレコメンデーションシステムにおいて重要な要素であり、レコメンデーションアルゴリズムの出力を精査する上で重要な役割を果たす。
そこで我々は,様々な格付け基準をシームレスに統合する包括的格付けフレームワークを提案する。
カスタマイズ可能な入力機構も統合されており、言語モデルのフォーカスを特定の再配置のニーズに合わせることができる。
論文 参考訳(メタデータ) (2024-06-18T09:29:18Z) - Retrieval Meets Reasoning: Even High-school Textbook Knowledge Benefits Multimodal Reasoning [49.3242278912771]
RMR(Retrieval Meets Reasoning)と呼ばれる新しいマルチモーダルRAGフレームワークについて紹介する。
RMRフレームワークは、最も関連性の高い問合せ対を特定するために、バイモーダル検索モジュールを使用する。
これは、ベンチマークデータセットのスペクトルにわたって様々なビジョン言語モデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2024-05-31T14:23:49Z) - SimMMDG: A Simple and Effective Framework for Multi-modal Domain
Generalization [13.456240733175767]
SimMMDGは、マルチモーダルシナリオにおけるドメインの一般化を実現する上での課題を克服するためのフレームワークである。
我々は,共同性を確保し,距離制約を課すために,モダリティ共有特徴に対する教師付きコントラスト学習を採用する。
本研究では,EPIC-KitchensデータセットとHuman-Animal-CartoonデータセットのマルチモーダルDGにおいて,理論的に支持され,高い性能を実現している。
論文 参考訳(メタデータ) (2023-10-30T17:58:09Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Abstractive Sentence Summarization with Guidance of Selective Multimodal
Reference [3.505062507621494]
モーダル間の相互関係を考慮したマルチモーダル階層選択変換器(mhsf)モデルを提案する。
提案したmhsfモデルの汎用性を,事前学習+微調整および新鮮トレーニング戦略を用いて評価した。
論文 参考訳(メタデータ) (2021-08-11T09:59:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。