論文の概要: The Mental World of Large Language Models in Recommendation: A Benchmark on Association, Personalization, and Knowledgeability
- arxiv url: http://arxiv.org/abs/2512.17389v1
- Date: Fri, 19 Dec 2025 09:44:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-22 19:25:54.33075
- Title: The Mental World of Large Language Models in Recommendation: A Benchmark on Association, Personalization, and Knowledgeability
- Title(参考訳): 推薦における大規模言語モデルのメンタルワールド:アソシエーション・パーソナライズ・ナレッジビリティのベンチマーク
- Authors: Guangneng Hu,
- Abstract要約: 大規模言語モデル(LLM)は、ナレッジエンハンサーまたはゼロショットローダとしてそれらを使用することでレコメンデーションシステム(RecSys)の可能性を示している。
重要な課題は、LLMとRecSysの間に大きな意味的ギャップがあり、前者は言語の世界知識を、後者はパーソナライズされた行動の世界を捉えている。
広範に使用されている推奨データセットから,38K以上の高品質なサンプルと23Mトークンを慎重にコンパイルし,生成するLRWorldというベンチマークを提案する。
- 参考スコア(独自算出の注目度): 3.3707422585608953
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have shown potential in recommendation systems (RecSys) by using them as either knowledge enhancer or zero-shot ranker. A key challenge lies in the large semantic gap between LLMs and RecSys where the former internalizes language world knowledge while the latter captures personalized world of behaviors. Unfortunately, the research community lacks a comprehensive benchmark that evaluates the LLMs over their limitations and boundaries in RecSys so that we can draw a confident conclusion. To investigate this, we propose a benchmark named LRWorld containing over 38K high-quality samples and 23M tokens carefully compiled and generated from widely used public recommendation datasets. LRWorld categorizes the mental world of LLMs in RecSys as three main scales (association, personalization, and knowledgeability) spanned by ten factors with 31 measures (tasks). Based on LRWorld, comprehensive experiments on dozens of LLMs show that they are still not well capturing the deep neural personalized embeddings but can achieve good results on shallow memory-based item-item similarity. They are also good at perceiving item entity relations, entity hierarchical taxonomies, and item-item association rules when inferring user interests. Furthermore, LLMs show a promising ability in multimodal knowledge reasoning (movie poster and product image) and robustness to noisy profiles. None of them show consistently good performance over the ten factors. Model sizes, position bias, and more are ablated.
- Abstract(参考訳): 大規模言語モデル(LLM)は、ナレッジエンハンサーまたはゼロショットローダとしてそれらを使用することでレコメンデーションシステム(RecSys)の可能性を示している。
重要な課題は、LLMとRecSysの間の大きな意味的ギャップであり、前者は言語世界の知識を内包し、後者はパーソナライズされた行動の世界を捉えている。
残念なことに、リサーチコミュニティには、RecSysの制限とバウンダリに関してLCMを評価する包括的なベンチマークが欠けているため、確実な結論が得られます。
そこで本研究では,広範に使用されている公開レコメンデーションデータセットから,38K以上の高品質なサンプルと23Mトークンを慎重にコンパイルして生成するLRWorldというベンチマークを提案する。
LRWorldは、RecSysにおけるLLMのメンタルワールドを、31の尺度(タスク)を持つ10の要因にまたがる3つの主要な尺度(連想、パーソナライゼーション、ナレッジビリティ)に分類している。
LRWorldをベースとして、数十のLLMに関する包括的な実験は、ディープ・ニューラル・パーソナライズされた埋め込みを十分に捉えていないが、浅いメモリベースのアイテムとイテムの類似性について良い結果が得られることを示している。
また、アイテム・エンティティ・リレーションシップ、エンティティ・ヒエラルキーの分類、ユーザーの興味を推測する際のアイテム・イテム・アソシエーション・ルールの認識にも長けている。
さらに、LLMはマルチモーダルな知識推論(移動ポスターと製品画像)とノイズのあるプロファイルに対する堅牢性において有望な能力を示す。
いずれも、10つの要因に対して一貫して優れたパフォーマンスを示すものではありません。
モデルのサイズや位置バイアスなどが短縮されます。
関連論文リスト
- Multi-Agent Evolve: LLM Self-Improve through Co-evolution [53.00458074754831]
強化学習(RL)は、大規模言語モデル(LLM)の推論能力を高める大きな可能性を証明している。
近年のSelf-Play RL法は,ゲームやGoのパラダイムの成功に触発されて,人間に注釈を付けることなくLSM推論能力を向上することを目指している。
数学,推論,一般知識Q&Aなど多種多様な課題の解決において,LLMが自己発展できるフレームワークであるMulti-Agent Evolve(MAE)を提案する。
論文 参考訳(メタデータ) (2025-10-27T17:58:02Z) - Do LLMs Recognize Your Latent Preferences? A Benchmark for Latent Information Discovery in Personalized Interaction [40.857161437572465]
パーソナライズされたインタラクションにおける潜伏情報発見を評価するためのベンチマークを導入する。
このベンチマークは、古典的な20の質問ゲーム、パーソナライズされた質問回答、パーソナライズされたテキスト要約という3つの段階的な現実的な設定にまたがっている。
以上の結果から,LLMは対話を通して潜時情報を提示できるが,その成功は文脈によって劇的に変化することが明らかとなった。
論文 参考訳(メタデータ) (2025-10-20T03:58:49Z) - Latent Factor Models Meets Instructions: Goal-conditioned Latent Factor Discovery without Task Supervision [50.45597801390757]
Instruct-LFはゴール指向の潜在因子発見システムである。
命令フォロー機能と統計モデルを統合して、ノイズの多いデータセットを処理する。
論文 参考訳(メタデータ) (2025-02-21T02:03:08Z) - Potential and Perils of Large Language Models as Judges of Unstructured Textual Data [0.631976908971572]
本研究では,LLM-as-judgeモデルの有効性を検討した。
LLM-as-judgeは、人間に匹敵するスケーラブルなソリューションを提供するが、人間は微妙で文脈固有のニュアンスを検出するのに優れている。
論文 参考訳(メタデータ) (2025-01-14T14:49:14Z) - FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - Large Language Models: A Survey [66.39828929831017]
大規模言語モデル(LLM)は、広範囲の自然言語タスクにおける強力なパフォーマンスのために、多くの注目を集めている。
LLMの汎用言語理解と生成能力は、膨大なテキストデータに基づいて数十億のモデルのパラメータを訓練することで得られる。
論文 参考訳(メタデータ) (2024-02-09T05:37:09Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - KoLA: Carefully Benchmarking World Knowledge of Large Language Models [87.96683299084788]
我々は知識指向LLMアセスメントベンチマーク(KoLA)を構築した。
人間の認知を模倣して、知識関連能力の4段階の分類を形成し、19ドルのタスクをカバーします。
私たちは、LLMによって事前訓練されたコーパスであるウィキペディアと、継続的に収集された新興コーパスを使用して、目に見えないデータや進化する知識を扱う能力を評価します。
論文 参考訳(メタデータ) (2023-06-15T17:20:46Z) - PALR: Personalization Aware LLMs for Recommendation [7.407353565043918]
PALRは、ユーザ履歴の振る舞い(クリック、購入、評価など)と大きな言語モデル(LLM)を組み合わせることで、ユーザの好むアイテムを生成することを目的としている。
我々のソリューションは、様々なシーケンシャルなレコメンデーションタスクにおいて最先端のモデルよりも優れています。
論文 参考訳(メタデータ) (2023-05-12T17:21:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。