論文の概要: GISTBench: Evaluating LLM User Understanding via Evidence-Based Interest Verification
- arxiv url: http://arxiv.org/abs/2603.29112v1
- Date: Tue, 31 Mar 2026 01:01:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-01 15:25:02.971051
- Title: GISTBench: Evaluating LLM User Understanding via Evidence-Based Interest Verification
- Title(参考訳): GISTBench: 証拠に基づく興味深い検証によるLLMユーザ理解の評価
- Authors: Iordanis Fostiropoulos, Muhammad Rafay Azhar, Abdalaziz Sawwan, Boyu Fang, Yuchen Liu, Jiayi Liu, Hanchao Yu, Qi Guo, Jianyu Wang, Fei Liu, Xiangjun Fan,
- Abstract要約: GISTBenchは、ユーザを理解するためのLarge Language Models(LLM)能力を評価するためのベンチマークである。
我々は,グローバルなショートフォームビデオプラットフォーム上で実際のユーザインタラクションに基づいて構築された合成データセットをリリースする。
以上の結果から,現在のLCMの性能ボトルネック,特にエンゲージメント信号の正確なカウントと属性付け能力の限界が明らかになった。
- 参考スコア(独自算出の注目度): 19.814912945249052
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce GISTBench, a benchmark for evaluating Large Language Models' (LLMs) ability to understand users from their interaction histories in recommendation systems. Unlike traditional RecSys benchmarks that focus on item prediction accuracy, our benchmark evaluates how well LLMs can extract and verify user interests from engagement data. We propose two novel metric families: Interest Groundedness (IG), decomposed into precision and recall components to separately penalize hallucinated interest categories and reward coverage, and Interest Specificity (IS), which assesses the distinctiveness of verified LLM-predicted user profiles. We release a synthetic dataset constructed on real user interactions on a global short-form video platform. Our dataset contains both implicit and explicit engagement signals and rich textual descriptions. We validate our dataset fidelity against user surveys, and evaluate eight open-weight LLMs spanning 7B to 120B parameters. Our findings reveal performance bottlenecks in current LLMs, particularly their limited ability to accurately count and attribute engagement signals across heterogeneous interaction types.
- Abstract(参考訳): GISTBenchは,レコメンデーションシステムにおける対話履歴からユーザを理解するためのLarge Language Models(LLM)能力を評価するためのベンチマークである。
アイテム予測精度を重視した従来のRecSysベンチマークとは異なり、当社のベンチマークでは、エンゲージメントデータからLLMがユーザの興味を抽出し、検証する方法について評価しています。
そこで,本研究では,関心カテゴリーと報酬範囲を別々にペナルティ化するために,精度とリコール成分に分解した関心基数(IG)と,検証済みLCM予測ユーザプロファイルの識別性を評価する関心基数(IS)の2つの新しい指標群を提案する。
我々は,グローバルなショートフォームビデオプラットフォーム上で実際のユーザインタラクションに基づいて構築された合成データセットをリリースする。
私たちのデータセットには暗黙的および明示的なエンゲージメント信号とリッチテキスト記述の両方が含まれています。
我々は,ユーザ調査に対するデータセットの忠実度を評価し,7Bから120Bパラメータにまたがる8つのオープンウェイトLCMを評価した。
以上の結果から,現在のLLMにおける性能ボトルネック,特に異種相互作用タイプ間でのエンゲージメント信号の正確なカウントと属性付け能力の限界が明らかとなった。
関連論文リスト
- Vectorized Context-Aware Embeddings for GAT-Based Collaborative Filtering [0.0]
本稿では,Large Language Model (LLM) により拡張されたグラフ注意ネットワーク(GAT)ベースの協調フィルタリングフレームワークについて述べる。
MovieLens 100kと1Mデータセットの実験では、Precision、NDCG、MAPの最先端ベースラインに対して一貫した改善が見られた。
提案手法は,LLMに基づく文脈理解をグラフアーキテクチャに組み込むことで,空間性やコールドスタートの制限を効果的に緩和する。
論文 参考訳(メタデータ) (2025-10-30T13:07:39Z) - End-to-End Personalization: Unifying Recommender Systems with Large Language Models [0.0]
グラフ注意ネットワーク(GAT)と大言語モデル(LLM)を組み合わせた新しいハイブリッドレコメンデーションフレームワークを提案する。
LLMは、タイトル、ジャンル、概要などのメタデータに基づいて意味的に意味のあるプロファイルを生成することによって、ユーザーとアイテムの表現を豊かにするために最初に使用される。
MovieLens 100kと1Mを含むベンチマークデータセットでモデルを評価し、強いベースラインを一貫して上回ります。
論文 参考訳(メタデータ) (2025-08-02T22:46:50Z) - Latent Factor Models Meets Instructions: Goal-conditioned Latent Factor Discovery without Task Supervision [50.45597801390757]
Instruct-LFはゴール指向の潜在因子発見システムである。
命令フォロー機能と統計モデルを統合して、ノイズの多いデータセットを処理する。
論文 参考訳(メタデータ) (2025-02-21T02:03:08Z) - LLM-based Bi-level Multi-interest Learning Framework for Sequential Recommendation [54.396000434574454]
本稿では,暗黙的行動と明示的意味論的視点を組み合わせた新しい多目的SRフレームワークを提案する。
Implicit Behavioral Interest ModuleとExplicit Semantic Interest Moduleの2つのモジュールが含まれている。
4つの実世界のデータセットの実験は、フレームワークの有効性と実用性を検証する。
論文 参考訳(メタデータ) (2024-11-14T13:00:23Z) - ELCoRec: Enhance Language Understanding with Co-Propagation of Numerical and Categorical Features for Recommendation [38.64175351885443]
大規模言語モデルは自然言語処理(NLP)領域で栄えている。
レコメンデーション指向の微調整モデルによって示された知性にもかかわらず、LLMはユーザーの行動パターンを完全に理解するのに苦労している。
既存の作業は、その重要な情報を導入することなく、与えられたテキストデータに対してのみLLMを微調整するだけである。
論文 参考訳(メタデータ) (2024-06-27T01:37:57Z) - CLAMBER: A Benchmark of Identifying and Clarifying Ambiguous Information Needs in Large Language Models [60.59638232596912]
大規模言語モデル(LLM)を評価するベンチマークであるCLAMBERを紹介する。
分類を基盤として12Kの高品質なデータを構築し, 市販のLCMの強度, 弱点, 潜在的なリスクを評価する。
本研究は, あいまいなユーザクエリの特定と明確化において, 現在のLCMの実用性に限界があることを示唆する。
論文 参考訳(メタデータ) (2024-05-20T14:34:01Z) - Do LLMs Understand User Preferences? Evaluating LLMs On User Rating
Prediction [15.793007223588672]
大規模言語モデル(LLM)は、ゼロショットまたは少数ショットの方法で新しいタスクに一般化する際、例外的な機能を示した。
我々は,2億5000万から540Bのパラメータを多種多様なサイズで検討し,その性能をゼロショット,少数ショット,微調整のシナリオで評価した。
論文 参考訳(メタデータ) (2023-05-10T21:43:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。