Fugu-MT 論文翻訳(概要): HistLLM: A Unified Framework for LLM-Based Multimodal Recommendation with User History Encoding and Compression

論文の概要: HistLLM: A Unified Framework for LLM-Based Multimodal Recommendation with User History Encoding and Compression

arxiv url: http://arxiv.org/abs/2504.10150v1
Date: Mon, 14 Apr 2025 12:01:11 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-22 18:52:05.259753
Title: HistLLM: A Unified Framework for LLM-Based Multimodal Recommendation with User History Encoding and Compression
Title（参考訳）: HistLLM: ユーザ履歴エンコーディングと圧縮によるLLMベースのマルチモーダルレコメンデーションのための統一フレームワーク
Authors: Chen Zhang, Bo Hu, Weidong Chen, Zhendong Mao,
Abstract要約: HistLLMは、ユーザ履歴を通じてテキストと視覚機能を統合する革新的なフレームワークである。モジュール (UHEM) は、ユーザ履歴のインタラクションを単一のトークン表現に圧縮する。提案手法の有効性と有効性を示す実験を行った。
参考スコア（独自算出の注目度）: 33.34435467588446
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: While large language models (LLMs) have proven effective in leveraging textual data for recommendations, their application to multimodal recommendation tasks remains relatively underexplored. Although LLMs can process multimodal information through projection functions that map visual features into their semantic space, recommendation tasks often require representing users' history interactions through lengthy prompts combining text and visual elements, which not only hampers training and inference efficiency but also makes it difficult for the model to accurately capture user preferences from complex and extended prompts, leading to reduced recommendation performance. To address this challenge, we introduce HistLLM, an innovative multimodal recommendation framework that integrates textual and visual features through a User History Encoding Module (UHEM), compressing multimodal user history interactions into a single token representation, effectively facilitating LLMs in processing user preferences. Extensive experiments demonstrate the effectiveness and efficiency of our proposed mechanism.
Abstract（参考訳）: 大規模言語モデル(LLM)は、レコメンデーションのためにテキストデータを活用するのに有効であることが証明されているが、マルチモーダルレコメンデーションタスクへの応用は、いまだに未検討である。 LLMは、視覚的特徴をセマンティック空間にマッピングするプロジェクション機能を通じてマルチモーダル情報を処理できるが、リコメンデーションタスクは、テキストとビジュアル要素を組み合わせた長いプロンプトによって、ユーザの履歴の相互作用を表現する必要があることが多い。この課題に対処するために,ユーザ履歴エンコードモジュール(UHEM)を通じてテキストと視覚機能を統合する,革新的なマルチモーダルレコメンデーションフレームワークHistLLMを紹介した。提案手法の有効性と有効性を示す実験を行った。

関連論文リスト

Do LLMs Benefit from User and Item Embeddings in Recommendation Tasks? [28.468343426360708]
大型言語モデル (LLM) は有望なレコメンデーションシステムとして登場した。協調フィルタリングから学習したユーザとアイテムの埋め込みを LLM トークン空間に投影する,シンプルで効果的なソリューションを提案する。予備的な結果から、この設計は構造化されたユーザとイテムのインタラクションデータを効果的に活用し、テキストのみのLLMベースラインよりもレコメンデーション性能を向上させることが示されている。
論文参考訳（メタデータ） (2026-01-08T07:58:28Z)
MMSRARec: Summarization and Retrieval Augumented Sequential Recommendation Based on Multimodal Large Language Model [18.920729109005435]
本稿では,マルチモーダル要約と検索拡張シーケンスレコメンデーションを提案する。まずMLLMを用いて、項目を簡潔なキーワードに要約し、要約長、情報損失、再構成難易度を含む報酬を用いてモデルを微調整する。検索拡張生成にインスパイアされ、協調信号を対応するキーワードに変換し、補足コンテキストとして統合する。
論文参考訳（メタデータ） (2025-12-24T03:44:25Z)
Thought-Augmented Planning for LLM-Powered Interactive Recommender Agent [56.61028117645315]
本稿では,蒸留した思考パターンを通じて複雑なユーザ意図に対処する,思考増強型対話型推薦エージェントシステム(TAIRA)を提案する。具体的には、ユーザニーズを分解し、サブタスクを計画することでレコメンデーションタスクを編成するマネージャエージェントを備えたLLM方式のマルチエージェントシステムとして設計されている。複数のデータセットにまたがる包括的な実験により、IRAは既存の手法に比べて大幅に性能が向上した。
論文参考訳（メタデータ） (2025-06-30T03:15:50Z)
Multi-agents based User Values Mining for Recommendation [52.26100802380767]
効率的なユーザ値抽出のためのゼロショットマルチLLM協調フレームワークを提案する。本研究は,本質的な意味を保ちながら,項目内容のコンデンスにテキスト要約手法を適用した。幻覚を緩和するために,評価役と監督役の2つの特殊エージェントの役割を導入する。
論文参考訳（メタデータ） (2025-05-02T04:01:31Z)
Molar: Multimodal LLMs with Collaborative Filtering Alignment for Enhanced Sequential Recommendation [4.518104756199573]
Molarは、複数のコンテンツモダリティとID情報を統合するシーケンシャルなレコメンデーションフレームワークで、協調的な信号を効果的にキャプチャする。マルチモーダルコンテンツと協調フィルタリングの洞察をシームレスに組み合わせることで、Molarはユーザの関心事とコンテキスト意味論の両方をキャプチャし、より優れた推奨精度をもたらす。
論文参考訳（メタデータ） (2024-12-24T05:23:13Z)
LLM-based Bi-level Multi-interest Learning Framework for Sequential Recommendation [54.396000434574454]
本稿では,暗黙的行動と明示的意味論的視点を組み合わせた新しい多目的SRフレームワークを提案する。 Implicit Behavioral Interest ModuleとExplicit Semantic Interest Moduleの2つのモジュールが含まれている。 4つの実世界のデータセットの実験は、フレームワークの有効性と実用性を検証する。
論文参考訳（メタデータ） (2024-11-14T13:00:23Z)
Laser: Parameter-Efficient LLM Bi-Tuning for Sequential Recommendation with Collaborative Information [76.62949982303532]
協調情報を用いた逐次レコメンデーションのためのパラメータ効率の高い大規模言語モデルバイチューニングフレームワーク(Laser)を提案する。我々のレーザーでは,プレフィックスを用いてユーザと協調的な情報を取り込み,LLMをレコメンデーションタスクに適応させ,サフィックスは言語空間からレコメンデーションスペースへのLLMの出力埋め込みをリコメンデーション項目レコメンデーションスペースに変換する。 M-Formerは軽量なMoEベースのクエリ変換器で、クエリ専門家のセットを使用して、凍結IDベースのシーケンシャルレコメンデータシステムによって符号化された多様なユーザ固有の協調情報を統合する。
論文参考訳（メタデータ） (2024-09-03T04:55:03Z)
QPO: Query-dependent Prompt Optimization via Multi-Loop Offline Reinforcement Learning [58.767866109043055]
クエリ依存型プロンプト最適化(QPO)を導入し、入力クエリに合わせて最適なプロンプトを生成するために、小さな事前訓練された言語モデルを反復的に微調整する。我々は、オープンソースのタスクに様々なプロンプトをベンチマークする副産物として、すでに大量に存在するオフラインのプロンプトデータから洞察を得る。様々なLLMスケールと多様なNLPおよび数学タスクの実験は、ゼロショットと少数ショットの両方のシナリオにおいて、我々の手法の有効性とコスト効率を実証している。
論文参考訳（メタデータ） (2024-08-20T03:06:48Z)
Harnessing Multimodal Large Language Models for Multimodal Sequential Recommendation [21.281471662696372]
本稿では,MLLM-MSRモデルを提案する。動的ユーザの嗜好を捉えるために,2段階のユーザ選好要約法を設計する。次に、ユーザ嗜好の動的変化を捉えるために、繰り返しユーザー嗜好要約生成パラダイムを用いる。
論文参考訳（メタデータ） (2024-08-19T04:44:32Z)
MMREC: LLM Based Multi-Modal Recommender System [2.3113916776957635]
本稿では,Large Language Models(LLM)とディープラーニング技術を活用して,レコメンデータシステムを強化する新しい手法を提案する。提案フレームワークは,マルチモーダル情報処理を取り入れたレコメンデーションの精度と妥当性を,統一された潜在空間表現を用いて向上することを目的としている。
論文参考訳（メタデータ） (2024-08-08T04:31:29Z)
Fine-tuning Multimodal Large Language Models for Product Bundling [53.01642741096356]
Bundle-MLLMは,大規模言語モデル(LLM)をハイブリットアイテムトークン化アプローチにより微調整する新しいフレームワークである。具体的には、テキスト、メディア、およびリレーショナルデータを統一トークン化に統合し、テキストトークンと非テキストトークンを区別するソフトな分離トークンを導入する。 1)バンドルパターンを学習し,2)製品バンドル固有のマルチモーダルセマンティック理解の強化を行う。
論文参考訳（メタデータ） (2024-07-16T13:30:14Z)
NoteLLM-2: Multimodal Large Representation Models for Recommendation [71.87790090964734]
大規模言語モデル(LLM)は、テキスト理解や埋め込みタスクにおいて、例外的な習熟度を示している。マルチモーダル表現のポテンシャル、特にアイテムツーイテム(I2I)レコメンデーションについては、未解明のままである。本稿では,既存のLLMと視覚エンコーダの統合をカスタマイズし,効率的なマルチモーダル表現を実現するエンド・ツー・エンドのファインチューニング手法を提案する。
論文参考訳（メタデータ） (2024-05-27T03:24:01Z)
InteraRec: Screenshot Based Recommendations Using Multimodal Large Language Models [0.6926105253992517]
InteraRecと呼ばれる洗練されたインタラクティブなレコメンデーションフレームワークを紹介します。 InteraRecは、ユーザがWebサイトをナビゲートするときに、Webページの高周波スクリーンショットをキャプチャする。ユーザに対して価値あるパーソナライズされたオファリングを提供する上で、InteraRecの有効性を実証する。
論文参考訳（メタデータ） (2024-02-26T17:47:57Z)
DialCLIP: Empowering CLIP as Multi-Modal Dialog Retriever [83.33209603041013]
マルチモーダルダイアログ検索のためのパラメータ効率の高いプロンプトチューニング手法であるDialCLIPを提案する。提案手法では,事前学習された視覚言語モデルCLIP内のプロンプトに抽出された文脈特徴を学習するためのマルチモーダルコンテキスト生成手法を提案する。様々なタイプの検索を容易にするために,CLIP出力からマルチモーダル表現空間へのマッピングを学習するために,複数の専門家を設計する。
論文参考訳（メタデータ） (2024-01-02T07:40:12Z)
CoLLM: Integrating Collaborative Embeddings into Large Language Models for Recommendation [60.2700801392527]
我々は,協調情報をLLMにシームレスに組み込んでレコメンデーションを行う,革新的なLLMRec手法であるCoLLMを紹介する。 CoLLMは、外部の伝統的なモデルを通して協調情報をキャプチャし、LLMの入力トークン埋め込み空間にマッピングする。大規模な実験により、CoLLMはLLMに協調情報を包括的に統合し、レコメンデーション性能が向上することが確認された。
論文参考訳（メタデータ） (2023-10-30T12:25:00Z)
Recommender AI Agent: Integrating Large Language Models for Interactive Recommendations [53.76682562935373]
我々は,LLMを脳として,レコメンダモデルをツールとして使用する,textbfInteRecAgentという効率的なフレームワークを紹介した。 InteRecAgentは会話レコメンデーションシステムとして満足度を達成し、汎用LLMよりも優れる。
論文参考訳（メタデータ） (2023-08-31T07:36:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。