論文の概要: X-Reflect: Cross-Reflection Prompting for Multimodal Recommendation
- arxiv url: http://arxiv.org/abs/2408.15172v1
- Date: Tue, 27 Aug 2024 16:10:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-28 13:13:36.179801
- Title: X-Reflect: Cross-Reflection Prompting for Multimodal Recommendation
- Title(参考訳): X-Reflect:マルチモーダルレコメンデーションのためのクロスリフレクションプロンプト
- Authors: Hanjia Lyu, Ryan Rossi, Xiang Chen, Md Mehrab Tanjim, Stefano Petrangeli, Somdeb Sarkhel, Jiebo Luo,
- Abstract要約: LMM(Large Language Models)とLMM(Large Multimodal Models)は、アイテム記述を充実させる効果を高めることが示されている。
本稿では,テキストと画像間の支援的・矛盾する情報をLMMに明示的に識別・調整するよう促すことにより,制約に対処する新しいフレームワークであるクロス・リフレクション・プロンプト(Cross-Reflex Prompting)を提案する。
- 参考スコア(独自算出の注目度): 47.96737683498274
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) and Large Multimodal Models (LMMs) have been shown to enhance the effectiveness of enriching item descriptions, thereby improving the accuracy of recommendation systems. However, most existing approaches either rely on text-only prompting or employ basic multimodal strategies that do not fully exploit the complementary information available from both textual and visual modalities. This paper introduces a novel framework, Cross-Reflection Prompting, termed X-Reflect, designed to address these limitations by prompting LMMs to explicitly identify and reconcile supportive and conflicting information between text and images. By capturing nuanced insights from both modalities, this approach generates more comprehensive and contextually richer item representations. Extensive experiments conducted on two widely used benchmarks demonstrate that our method outperforms existing prompting baselines in downstream recommendation accuracy. Additionally, we evaluate the generalizability of our framework across different LMM backbones and the robustness of the prompting strategies, offering insights for optimization. This work underscores the importance of integrating multimodal information and presents a novel solution for improving item understanding in multimodal recommendation systems.
- Abstract(参考訳): LMM(Large Language Models)とLMM(Large Multimodal Models)は,項目記述の充実効果を高め,レコメンデーションシステムの精度を向上させる。
しかし、既存のアプローチのほとんどは、テキストのみのプロンプトや、テキストと視覚の両方から得られる補完的な情報を十分に活用しない基本的なマルチモーダル戦略に依存している。
本稿では,テキストと画像間の支援的・矛盾する情報をLMMに明示的に識別・調整するよう促すことにより,これらの制約に対処する新しいフレームワークであるクロス・リフレクション・プロンプト(Cross-Reflex Prompting)を提案する。
両方のモダリティからのニュアンスな洞察を捉えることで、このアプローチはより包括的で文脈的にリッチなアイテム表現を生成する。
2つの広く利用されているベンチマークで行った大規模な実験により、提案手法は下流の推薦精度において、既存の基準値よりも優れていることが示された。
さらに、異なるLMMバックボーン間のフレームワークの一般化可能性や、プロンプト戦略の堅牢性を評価し、最適化のための洞察を提供する。
本研究は、マルチモーダル情報の統合の重要性を強調し、マルチモーダルレコメンデーションシステムにおけるアイテム理解を改善するための新しいソリューションを提案する。
関連論文リスト
- RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - GANPrompt: Enhancing Robustness in LLM-Based Recommendations with GAN-Enhanced Diversity Prompts [15.920623515602038]
本稿では,GAN(Generative Adversarial Networks)に基づく多次元大規模言語モデルの多様性促進フレームワークであるGANPromptを提案する。
GANPromptはまず、多次元ユーザ行動データを分析して多様なプロンプトを生成することができるジェネレータを訓練する。
これらの多様なプロンプトは、目に見えないプロンプトに直面して性能を向上させるためにLLMを訓練するために使用される。
論文 参考訳(メタデータ) (2024-08-19T03:13:20Z) - DaRec: A Disentangled Alignment Framework for Large Language Model and Recommender System [83.34921966305804]
大規模言語モデル (LLM) はレコメンデーションシステムにおいて顕著な性能を示した。
LLMと協調モデルのための新しいプラグ・アンド・プレイアライメントフレームワークを提案する。
我々の手法は既存の最先端アルゴリズムよりも優れている。
論文 参考訳(メタデータ) (2024-08-15T15:56:23Z) - MMREC: LLM Based Multi-Modal Recommender System [2.3113916776957635]
本稿では,Large Language Models(LLM)とディープラーニング技術を活用して,レコメンデータシステムを強化する新しい手法を提案する。
提案フレームワークは,マルチモーダル情報処理を取り入れたレコメンデーションの精度と妥当性を,統一された潜在空間表現を用いて向上することを目的としている。
論文 参考訳(メタデータ) (2024-08-08T04:31:29Z) - Fine-tuning Multimodal Large Language Models for Product Bundling [53.01642741096356]
Bundle-MLLMは,大規模言語モデル(LLM)をハイブリットアイテムトークン化アプローチにより微調整する新しいフレームワークである。
具体的には、テキスト、メディア、およびリレーショナルデータを統一トークン化に統合し、テキストトークンと非テキストトークンを区別するソフトな分離トークンを導入する。
1)バンドルパターンを学習し,2)製品バンドル固有のマルチモーダルセマンティック理解の強化を行う。
論文 参考訳(メタデータ) (2024-07-16T13:30:14Z) - Towards Bridging the Cross-modal Semantic Gap for Multi-modal Recommendation [12.306686291299146]
マルチモーダルレコメンデーションはレコメンデーションシステムの性能を大幅に向上させる。
既存のマルチモーダルレコメンデーションモデルは、マルチメディア情報伝搬プロセスを利用してアイテム表現を豊かにする。
本稿では,モダリティ間のセマンティックギャップをブリッジし,詳細な多視点セマンティック情報を抽出する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-07T15:56:03Z) - POEM: Interactive Prompt Optimization for Enhancing Multimodal Reasoning of Large Language Models [28.072184039405784]
大規模言語モデル(LLM)の効率的なプロンプトエンジニアリングを容易にするビジュアル分析システムであるPOEMを提案する。
本システムは,様々なプロンプトによって引き起こされるマルチモーダル知識を包括的に理解するために,モジュール間の相互作用パターンを様々な詳細レベルで探索することを可能にする。
論文 参考訳(メタデータ) (2024-06-06T08:21:30Z) - Mirror Gradient: Towards Robust Multimodal Recommender Systems via
Exploring Flat Local Minima [54.06000767038741]
フラットローカルミニマの新しい視点からマルチモーダルリコメンデータシステムの解析を行う。
我々はミラーグラディエント(MG)と呼ばれる簡潔で効果的な勾配戦略を提案する。
提案したMGは、既存の堅牢なトレーニング手法を補完し、多様な高度なレコメンデーションモデルに容易に拡張できることが判明した。
論文 参考訳(メタデータ) (2024-02-17T12:27:30Z) - LLM-Rec: Personalized Recommendation via Prompting Large Language Models [62.481065357472964]
大きな言語モデル(LLM)は、常識的な知識と推論を活用する能力を示した。
大規模言語モデル(LLM)の最近の進歩は、コモンセンスの知識と推論を活用できることを顕著に示している。
本研究では,パーソナライズされたテキストベースのレコメンデーションを改善するために,テキストエンリッチメントの4つの異なる促進戦略を取り入れた新しいアプローチ LLM-Rec を提案する。
論文 参考訳(メタデータ) (2023-07-24T18:47:38Z) - Adaptive Contrastive Learning on Multimodal Transformer for Review
Helpfulness Predictions [40.70793282367128]
本稿では,MRHP(Multimodal Review Helpfulness Prediction)問題に対するマルチモーダルコントラスト学習を提案する。
さらに,コントラスト学習における適応重み付け方式を提案する。
最後に,マルチモーダルデータの不整合性に対処するマルチモーダルインタラクションモジュールを提案する。
論文 参考訳(メタデータ) (2022-11-07T13:05:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。