論文の概要: RAG-VisualRec: An Open Resource for Vision- and Text-Enhanced Retrieval-Augmented Generation in Recommendation
- arxiv url: http://arxiv.org/abs/2506.20817v1
- Date: Wed, 25 Jun 2025 20:32:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-27 19:53:09.880457
- Title: RAG-VisualRec: An Open Resource for Vision- and Text-Enhanced Retrieval-Augmented Generation in Recommendation
- Title(参考訳): RAG-VisualRec:レコメンデーションにおける視覚とテキストの強化された検索生成のためのオープンリソース
- Authors: Ali Tourani, Fatemeh Nazary, Yashar Deldjoo,
- Abstract要約: 本稿では,映画分野におけるマルチモーダルレコメンデータシステムの開発課題について述べる。
本稿では,LLM生成したプロット記述とトレーラ由来の視覚的埋め込みを統合パイプラインに組み込むリソースを提案する。
CCAをベースとした核融合は単調なベースラインに比べてリコールを著しく促進する。
- 参考スコア(独自算出の注目度): 8.426503212489745
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper addresses the challenge of developing multimodal recommender systems for the movie domain, where limited metadata (e.g., title, genre) often hinders the generation of robust recommendations. We introduce a resource that combines LLM-generated plot descriptions with trailer-derived visual embeddings in a unified pipeline supporting both Retrieval-Augmented Generation (RAG) and collaborative filtering. Central to our approach is a data augmentation step that transforms sparse metadata into richer textual signals, alongside fusion strategies (e.g., PCA, CCA) that integrate visual cues. Experimental evaluations demonstrate that CCA-based fusion significantly boosts recall compared to unimodal baselines, while an LLM-driven re-ranking step further improves NDCG, particularly in scenarios with limited textual data. By releasing this framework, we invite further exploration of multi-modal recommendation techniques tailored to cold-start, novelty-focused, and domain-specific settings. All code, data, and detailed documentation are publicly available at: https://github.com/RecSys-lab/RAG-VisualRec
- Abstract(参考訳): 本稿では,制限されたメタデータ(タイトル,ジャンルなど)が堅牢なレコメンデーションの発生を妨げることの多い,映画ドメインのためのマルチモーダルレコメンデーションシステムの開発という課題に対処する。
本稿では,LLM生成したプロット記述とトレーラー由来の視覚的埋め込みを組み合わせた資源を,レトリーバル拡張生成(RAG)と協調フィルタリングの両方をサポートする統一パイプラインに導入する。
我々のアプローチの中心は、スパースメタデータをよりリッチなテキスト信号に変換するデータ拡張ステップと、ビジュアルキューを統合する融合戦略(例えば、PCA、CCA)です。
CCAをベースとした核融合は単調なベースラインに比べてリコールを著しく促進する一方、LCMによる再ランクステップは、特にテキストデータに制限のあるシナリオにおいて、NDCGをさらに改善する。
このフレームワークをリリースすることによって、コールドスタート、ノベルティ重視、ドメイン固有の設定に適したマルチモーダルレコメンデーション技術をさらに探求する。
すべてのコード、データ、詳細なドキュメントは、https://github.com/RecSys-lab/RAG-VisualRecで公開されている。
関連論文リスト
- AdaVideoRAG: Omni-Contextual Adaptive Retrieval-Augmented Efficient Long Video Understanding [73.60257070465377]
AdaVideoRAGは、軽量なインテント分類器を使用して、クエリ複雑性に基づいた検索に適応する新しいフレームワークである。
我々のフレームワークは、Omni-Knowledge Indexingモジュールを使用して、テキスト(キャプション、ASR、OCR)、視覚的特徴、セマンティックグラフから階層データベースを構築する。
実験では、既存のMLLMにシームレスに統合することで、長時間ビデオ理解のための効率と精度の向上が示されている。
論文 参考訳(メタデータ) (2025-06-16T15:18:15Z) - LlamaRec-LKG-RAG: A Single-Pass, Learnable Knowledge Graph-RAG Framework for LLM-Based Ranking [0.0]
LlamaRec-LKG-RAGは、パーソナライズされた知識グラフコンテキストをレコメンデーションランキングに統合する、新しい単一パスでエンドツーエンドのトレーニング可能なフレームワークである。
提案手法はLlamaRecアーキテクチャを拡張し,ユーザプライオリティを動的に識別する軽量なモジュールを組み込むことで実現した。
ML-100KとAmazon Beautyデータセットの実験では、主要なランキングメトリクス間でLlamaRecよりも一貫性があり、重要な改善が示されている。
論文 参考訳(メタデータ) (2025-06-09T05:52:03Z) - Gated Multimodal Graph Learning for Personalized Recommendation [9.466822984141086]
マルチモーダルレコメンデーションは、協調フィルタリングにおけるコールドスタートとスパーシリティの問題を軽減するための有望なソリューションとして登場した。
グラフベースユーザモデリングと適応型マルチモーダルアイテムエンコーディングを組み合わせた軽量かつモジュール化されたレコメンデーションフレームワーク RLMultimodalRec を提案する。
論文 参考訳(メタデータ) (2025-05-30T16:57:17Z) - mmRAG: A Modular Benchmark for Retrieval-Augmented Generation over Text, Tables, and Knowledge Graphs [11.861763118322136]
マルチモーダルRAGシステムを評価するためのモジュール型ベンチマークであるmmRAGを紹介する。
我々のベンチマークでは、テキスト、テーブル、知識グラフにまたがる6つの多様な問合せデータセットからのクエリを統合する。
文書関連性を注釈化し、データセット関連性を導出するための標準情報検索手順に従う。
論文 参考訳(メタデータ) (2025-05-16T12:31:29Z) - Bridging Textual-Collaborative Gap through Semantic Codes for Sequential Recommendation [91.13055384151897]
CCFRecは、シーケンシャルレコメンデーションのための新しいコードベースのテキストおよび協調的セマンティックフュージョン法である。
ベクトル量子化手法を用いて,多視点テキスト埋め込みから細粒度セマンティックコードを生成する。
テキスト・コラボレーティブ・セマンティクスの融合をさらに促進するために,最適化戦略を導入する。
論文 参考訳(メタデータ) (2025-03-15T15:54:44Z) - Composed Multi-modal Retrieval: A Survey of Approaches and Applications [81.54640206021757]
複合マルチモーダル検索(CMR)は次世代技術として誕生する。
CMRは、参照視覚入力とテキスト修正を統合することで、画像やビデオをクエリすることを可能にする。
本稿では,CMRの基礎的課題,技術的進歩,応用について概説する。
論文 参考訳(メタデータ) (2025-03-03T09:18:43Z) - Pseudo-Knowledge Graph: Meta-Path Guided Retrieval and In-Graph Text for RAG-Equipped LLM [8.941718961724984]
Pseudo-Knowledge Graph (PKG)フレームワークはメタパス検索、イングラフテキスト、ベクトル検索を大規模言語モデルに統合する。
PKGはより豊かな知識表現を提供し、情報検索の精度を向上させる。
論文 参考訳(メタデータ) (2025-03-01T02:39:37Z) - VisRAG: Vision-based Retrieval-augmented Generation on Multi-modality Documents [66.42579289213941]
Retrieval-augmented Generation (RAG) は、大規模言語モデルが外部知識ソースを生成に活用できる効果的な手法である。
本稿では、視覚言語モデル(VLM)に基づくRAGパイプラインを確立することにより、この問題に対処するVisRAGを紹介する。
このパイプラインでは、まず文書を解析してテキストを得る代わりに、VLMを画像として直接埋め込んで、VLMの生成を強化する。
論文 参考訳(メタデータ) (2024-10-14T15:04:18Z) - Pistis-RAG: Enhancing Retrieval-Augmented Generation with Human Feedback [41.88662700261036]
RAGシステムは、セマンティックな関連性だけでは生成品質の向上を保証していない場合に制限に直面している。
我々は、LLMと人間の嗜好をよりよく整合させるために、コンテンツ中心のアプローチで設計された新しいRAGフレームワークであるPristis-RAGを提案する。
論文 参考訳(メタデータ) (2024-06-21T08:52:11Z) - Exploring User Retrieval Integration towards Large Language Models for Cross-Domain Sequential Recommendation [66.72195610471624]
Cross-Domain Sequential Recommendationは、異なるドメイン間でユーザのシーケンシャルな好みをマイニングし、転送することを目的としている。
本稿では,ユーザ検索手法を探索し,CDSRの性能向上を目的とした URLLM という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T09:19:54Z) - GUESR: A Global Unsupervised Data-Enhancement with Bucket-Cluster
Sampling for Sequential Recommendation [58.6450834556133]
本研究では,グローバルな視点から複雑な関連性を持つ項目表現を強化するために,グラフコントラスト学習を提案する。
本稿では,CapsNetモジュールを拡張したターゲットアテンション機構により,ユーザの動的嗜好を導出する。
提案したGUESRは,大幅な改善を達成できただけでなく,汎用的な拡張戦略ともみなすことができた。
論文 参考訳(メタデータ) (2023-03-01T05:46:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。