論文の概要: Bridging Collaborative Filtering and Large Language Models with Dynamic Alignment, Multimodal Fusion and Evidence-grounded Explanations
- arxiv url: http://arxiv.org/abs/2510.01606v1
- Date: Thu, 02 Oct 2025 02:43:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.953873
- Title: Bridging Collaborative Filtering and Large Language Models with Dynamic Alignment, Multimodal Fusion and Evidence-grounded Explanations
- Title(参考訳): 動的アライメント・マルチモーダルフュージョン・エビデンス・グラウンドド・説明を用いたブリッジ型協調フィルタリングと大規模言語モデル
- Authors: Bo Ma, LuYao Liu, Simon Lau, Chandler Yuan, and XueY Cui, Rosie Zhang,
- Abstract要約: 軽量モジュールによる新しいユーザインタラクションを組み込んだオンライン適応機構を開発した。
我々は、協調的な信号と視覚的および音声的特徴をシームレスに結合する統一表現を作成します。
提案手法では,凍結ベースモデルの効率性を維持しつつ,計算オーバーヘッドを最小限に抑え,実世界の展開に有効である。
- 参考スコア(独自算出の注目度): 1.3702600718499687
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent research has explored using Large Language Models for recommendation tasks by transforming user interaction histories and item metadata into text prompts, then having the LLM produce rankings or recommendations. A promising approach involves connecting collaborative filtering knowledge to LLM representations through compact adapter networks, which avoids expensive fine-tuning while preserving the strengths of both components. Yet several challenges persist in practice: collaborative filtering models often use static snapshots that miss rapidly changing user preferences; many real-world items contain rich visual and audio content beyond textual descriptions; and current systems struggle to provide trustworthy explanations backed by concrete evidence. Our work introduces \model{}, a framework that tackles these limitations through three key innovations. We develop an online adaptation mechanism that continuously incorporates new user interactions through lightweight modules, avoiding the need to retrain large models. We create a unified representation that seamlessly combines collaborative signals with visual and audio features, handling cases where some modalities may be unavailable. Finally, we design an explanation system that grounds recommendations in specific collaborative patterns and item attributes, producing natural language rationales users can verify. Our approach maintains the efficiency of frozen base models while adding minimal computational overhead, making it practical for real-world deployment.
- Abstract(参考訳): 近年の研究では,ユーザインタラクション履歴や項目メタデータをテキストプロンプトに変換して,LLMがランキングやレコメンデーションを生成することで,リコメンデーションタスクにLarge Language Modelsを使用することが検討されている。
有望なアプローチは、コンパクトなアダプタネットワークを通じてLLM表現に協調的なフィルタリング知識を接続することであり、両方のコンポーネントの強度を保ちながら、高価な微調整を避ける。
協調フィルタリングモデルでは、ユーザの好みが急速に変わるのを見逃すような静的スナップショットを使うことが多いし、多くの現実世界のアイテムには、テキスト記述以外のリッチな視覚的およびオーディオ的コンテンツが含まれており、現在のシステムは、具体的な証拠によって裏付けられた信頼できる説明の提供に苦労している。
当社の作業では,3つの重要なイノベーションを通じて,これらの制限に対処するフレームワークである‘model{}’を導入しています。
我々は,新しいユーザインタラクションを軽量モジュールを通じて継続的に組み込むオンライン適応機構を開発し,大規模モデルの再トレーニングを回避する。
我々は、協調的な信号と視覚的・音声的特徴をシームレスに組み合わせた統一表現を作成し、いくつかのモダリティが利用できないケースを扱う。
最後に,特定の協調パターンや項目属性の推薦を基礎として,ユーザが検証できる自然言語の合理性を生成するための説明システムを設計する。
提案手法は,凍結ベースモデルの効率性を維持しつつ,計算オーバーヘッドを最小限に抑え,実世界の展開に有効である。
関連論文リスト
- Gated Multimodal Graph Learning for Personalized Recommendation [9.466822984141086]
マルチモーダルレコメンデーションは、協調フィルタリングにおけるコールドスタートとスパーシリティの問題を軽減するための有望なソリューションとして登場した。
グラフベースユーザモデリングと適応型マルチモーダルアイテムエンコーディングを組み合わせた軽量かつモジュール化されたレコメンデーションフレームワーク RLMultimodalRec を提案する。
論文 参考訳(メタデータ) (2025-05-30T16:57:17Z) - HistLLM: A Unified Framework for LLM-Based Multimodal Recommendation with User History Encoding and Compression [33.34435467588446]
HistLLMは、ユーザ履歴を通じてテキストと視覚機能を統合する革新的なフレームワークである。
モジュール (UHEM) は、ユーザ履歴のインタラクションを単一のトークン表現に圧縮する。
提案手法の有効性と有効性を示す実験を行った。
論文 参考訳(メタデータ) (2025-04-14T12:01:11Z) - Molar: Multimodal LLMs with Collaborative Filtering Alignment for Enhanced Sequential Recommendation [4.518104756199573]
Molarは、複数のコンテンツモダリティとID情報を統合するシーケンシャルなレコメンデーションフレームワークで、協調的な信号を効果的にキャプチャする。
マルチモーダルコンテンツと協調フィルタリングの洞察をシームレスに組み合わせることで、Molarはユーザの関心事とコンテキスト意味論の両方をキャプチャし、より優れた推奨精度をもたらす。
論文 参考訳(メタデータ) (2024-12-24T05:23:13Z) - Fine-tuning Multimodal Large Language Models for Product Bundling [53.01642741096356]
Bundle-MLLMは,大規模言語モデル(LLM)をハイブリットアイテムトークン化アプローチにより微調整する新しいフレームワークである。
具体的には、テキスト、メディア、およびリレーショナルデータを統一トークン化に統合し、テキストトークンと非テキストトークンを区別するソフトな分離トークンを導入する。
1)バンドルパターンを学習し,2)製品バンドル固有のマルチモーダルセマンティック理解の強化を行う。
論文 参考訳(メタデータ) (2024-07-16T13:30:14Z) - Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。
本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-03-05T13:45:46Z) - CREMA: Generalizable and Efficient Video-Language Reasoning via Multimodal Modular Fusion [58.15403987979496]
CREMAは、ビデオ推論のための一般化可能、高効率、モジュラリティ融合フレームワークである。
本稿では,軽量核融合モジュールとモーダリティ・シークエンシャル・トレーニング・ストラテジーによって支援された,新しいプログレッシブ・マルチモーダル・フュージョン設計を提案する。
ビデオQA や Video-Audio/3D/Touch/Thermal QA を含む7つのビデオ言語推論タスクについて検証を行った。
論文 参考訳(メタデータ) (2024-02-08T18:27:22Z) - Latent Structures Mining with Contrastive Modality Fusion for Multimedia
Recommendation [22.701371886522494]
マルチモーダルコンテンツに基づく潜在意味的項目-項目構造は,より優れた項目表現を学習する上で有益である,と我々は主張する。
モータリティを意識した構造学習モジュールを考案し,各モータリティの項目間関係を学習する。
論文 参考訳(メタデータ) (2021-11-01T03:37:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。