論文の概要: Less is More: Benchmarking LLM Based Recommendation Agents
- arxiv url: http://arxiv.org/abs/2601.20316v1
- Date: Wed, 28 Jan 2026 07:08:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-29 15:46:06.813982
- Title: Less is More: Benchmarking LLM Based Recommendation Agents
- Title(参考訳): LLMベースのレコメンデーションエージェントのベンチマーク
- Authors: Kargi Chauhan, Mahalakshmi Venkateswarlu,
- Abstract要約: 大きな言語モデル(LLM)は、パーソナライズされた製品レコメンデーションのためにますます多くデプロイされている。
我々は,この仮定を,LLMの4つの状態のシステマティックなベンチマークを通じて挑戦する。
被験者内設計における50人のユーザによる実験では、コンテキスト長の増大による大幅な品質改善は示されていない。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are increasingly deployed for personalized product recommendations, with practitioners commonly assuming that longer user purchase histories lead to better predictions. We challenge this assumption through a systematic benchmark of four state of the art LLMs GPT-4o-mini, DeepSeek-V3, Qwen2.5-72B, and Gemini 2.5 Flash across context lengths ranging from 5 to 50 items using the REGEN dataset. Surprisingly, our experiments with 50 users in a within subject design reveal no significant quality improvement with increased context length. Quality scores remain flat across all conditions (0.17--0.23). Our findings have significant practical implications: practitioners can reduce inference costs by approximately 88\% by using context (5--10 items) instead of longer histories (50 items), without sacrificing recommendation quality. We also analyze latency patterns across providers and find model specific behaviors that inform deployment decisions. This work challenges the existing ``more context is better'' paradigm and provides actionable guidelines for cost effective LLM based recommendation systems.
- Abstract(参考訳): 大規模言語モデル(LLM)は、パーソナライズされた製品レコメンデーションのために、ますます多くデプロイされている。
我々は,この仮定を,REGENデータセットを用いて,5~50項目に及ぶコンテキスト長にわたる4つの最先端LLM GPT-4o-mini,DeepSeek-V3,Qwen2.5-72B,Gemini 2.5 Flashの体系的ベンチマークを通じて,その仮定に挑戦する。
意外なことに、50人のユーザを対象にしたインサイダーデザイン実験では、コンテキスト長の増大による大幅な品質改善は見られませんでした。
その結果, 推奨品質を犠牲にすることなく, より長い履歴(50項目)ではなく, 文脈(5~10項目)を用いて推論コストを約88~10パーセント削減できることがわかった。
また、プロバイダ間のレイテンシパターンを分析し、デプロイメントの決定を知らせるモデル固有の振る舞いを見つけます。
この作業は、既存の `more context is better' パラダイムに挑戦し、コスト効率の良い LLM ベースのレコメンデーションシステムのための実行可能なガイドラインを提供する。
関連論文リスト
- Benchmarking and Improving LLM Robustness for Personalized Generation [42.26075952121524]
反応が事実的正確であり、ユーザの好みと一致している場合、モデルをロバストと定義します。
私たちの作業は、現在の評価プラクティスにおける重要なギャップを強調し、より信頼性が高く、ユーザ対応のデプロイメントをサポートするためのツールとメトリクスを導入しています。
論文 参考訳(メタデータ) (2025-09-18T13:56:14Z) - Can LLMs Outshine Conventional Recommenders? A Comparative Evaluation [33.031903907256606]
本稿では、クリックスルーレート予測(CTR)とシーケンシャルレコメンデーション(SeqRec)という2つの主要なレコメンデーションタスクを評価するRecBenchを紹介する。
実験は最大17種類の大モデルを対象としており、ファッション、ニュース、ビデオ、書籍、音楽ドメインの5つの多様なデータセットで実施されている。
以上の結果から,LCMベースのレコメンデータは従来のレコメンデータよりも優れ,CTRシナリオでは最大5%のAUC改善,SeqRecシナリオでは最大170%のNDCG@10改善を実現した。
論文 参考訳(メタデータ) (2025-03-07T15:05:23Z) - EACO: Enhancing Alignment in Multimodal LLMs via Critical Observation [58.546205554954454]
臨界観測(EACO)によるMLLMのアライメント向上を提案する。
EACOは、経済的に5k画像のみを使用して、MLLMを自己生成の選好データで整列する。
EACOは幻覚全体の65.6%をHalusionBenchで減らし、MME-Cognitionで21.8%改善する。
論文 参考訳(メタデータ) (2024-12-06T09:59:47Z) - Large Language Models Can Self-Improve in Long-context Reasoning [100.52886241070907]
大規模言語モデル(LLM)は、長いコンテキストの処理においてかなりの進歩を遂げているが、それでも長いコンテキストの推論に苦慮している。
我々はこの目的のために特別に設計されたアプローチである我々の提案する。
人類の専門家や 先進的なモデルによるデータに依存する 従来のアプローチと比べて 優れたパフォーマンスを達成しています
論文 参考訳(メタデータ) (2024-11-12T19:53:00Z) - Beyond Utility: Evaluating LLM as Recommender [47.97889161958022]
4つの新しい評価次元を探索し,多次元評価フレームワークを提案する。
新しい評価基準には、履歴長感度、候補位置バイアス、生成関連性能、4)幻覚がある。
この多次元評価フレームワークを従来の側面とともに 7 つの LLM ベースのレコメンデータの性能を評価する。
論文 参考訳(メタデータ) (2024-11-01T03:09:28Z) - GIVE: Structured Reasoning of Large Language Models with Knowledge Graph Inspired Veracity Extrapolation [108.2008975785364]
Graph Inspired Veracity Extrapolation (GIVE)は、パラメトリックメモリと非パラメトリックメモリを融合して、最小の外部入力で正確な推論を改善する新しい推論手法である。
GIVE は LLM エージェントをガイドして,最も関連する専門家データ (observe) を選択し,クエリ固有の発散思考 (reflect) に従事し,その情報を合成して最終的な出力 (speak) を生成する。
論文 参考訳(メタデータ) (2024-10-11T03:05:06Z) - How Easy is It to Fool Your Multimodal LLMs? An Empirical Analysis on Deceptive Prompts [54.07541591018305]
提案するMAD-Benchは,既存のオブジェクト,オブジェクト数,空間関係などの5つのカテゴリに分割した1000の試験サンプルを含むベンチマークである。
我々は,GPT-4v,Reka,Gemini-Proから,LLaVA-NeXTやMiniCPM-Llama3といったオープンソースモデルに至るまで,一般的なMLLMを包括的に分析する。
GPT-4oはMAD-Bench上で82.82%の精度を達成するが、実験中の他のモデルの精度は9%から50%である。
論文 参考訳(メタデータ) (2024-02-20T18:31:27Z) - Uncertainty-Aware Explainable Recommendation with Large Language Models [15.229417987212631]
GPT-2のプロンプトとしてユーザおよびアイテム入力のIDベクトルを利用するモデルを開発する。
マルチタスク学習フレームワークには,推薦タスクと説明タスクの両方を最適化するために,共同トレーニング機構が採用されている。
提案手法はYelp, TripAdvisor, Amazon のデータセット上でそれぞれ 1.59 DIV, 0.57 USR, 0.41 FCR を達成する。
論文 参考訳(メタデータ) (2024-01-31T14:06:26Z) - What Are We Optimizing For? A Human-centric Evaluation of Deep Learning-based Movie Recommenders [12.132920692489911]
映画領域における4つのDL-RecSysモデルの人間中心評価ケーススタディを行う。
DL-RecSysモデルがパーソナライズされたレコメンデーション生成において,445人の実アクティブユーザを対象に調査を行った。
いくつかのDL-RecSysモデルは、新規で予期せぬ項目を推奨し、多様性、信頼性、透明性、正確性、全体的なユーザ満足度が低下している。
論文 参考訳(メタデータ) (2024-01-21T23:56:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。