Fugu-MT 論文翻訳(概要): Do LLMs Understand User Preferences? Evaluating LLMs On User Rating Prediction

論文の概要: Do LLMs Understand User Preferences? Evaluating LLMs On User Rating Prediction

arxiv url: http://arxiv.org/abs/2305.06474v1
Date: Wed, 10 May 2023 21:43:42 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-12 16:38:36.885618
Title: Do LLMs Understand User Preferences? Evaluating LLMs On User Rating Prediction
Title（参考訳）: LLMはユーザの嗜好を理解しているか? ユーザレーティング予測に基づくLCMの評価
Authors: Wang-Cheng Kang, Jianmo Ni, Nikhil Mehta, Maheswaran Sathiamoorthy, Lichan Hong, Ed Chi, Derek Zhiyuan Cheng
Abstract要約: 大規模言語モデル(LLM)は、ゼロショットまたは少数ショットの方法で新しいタスクに一般化する際、例外的な機能を示した。我々は,2億5000万から540Bのパラメータを多種多様なサイズで検討し,その性能をゼロショット,少数ショット,微調整のシナリオで評価した。
参考スコア（独自算出の注目度）: 15.793007223588672
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) have demonstrated exceptional capabilities in generalizing to new tasks in a zero-shot or few-shot manner. However, the extent to which LLMs can comprehend user preferences based on their previous behavior remains an emerging and still unclear research question. Traditionally, Collaborative Filtering (CF) has been the most effective method for these tasks, predominantly relying on the extensive volume of rating data. In contrast, LLMs typically demand considerably less data while maintaining an exhaustive world knowledge about each item, such as movies or products. In this paper, we conduct a thorough examination of both CF and LLMs within the classic task of user rating prediction, which involves predicting a user's rating for a candidate item based on their past ratings. We investigate various LLMs in different sizes, ranging from 250M to 540B parameters and evaluate their performance in zero-shot, few-shot, and fine-tuning scenarios. We conduct comprehensive analysis to compare between LLMs and strong CF methods, and find that zero-shot LLMs lag behind traditional recommender models that have the access to user interaction data, indicating the importance of user interaction data. However, through fine-tuning, LLMs achieve comparable or even better performance with only a small fraction of the training data, demonstrating their potential through data efficiency.
Abstract（参考訳）: 大きな言語モデル(LLM)は、ゼロショットまたは少数ショットの方法で新しいタスクに一般化する際、例外的な機能を示した。しかし、LCMが以前の行動に基づいてユーザーの好みを理解できる範囲は、いまだに未解明な研究課題である。伝統的に、コラボレーティブ・フィルタリング(CF)はこれらのタスクに最も効果的な手法であり、主に大量のレーティングデータに依存している。対照的に、llmは通常、映画や製品といった各項目に関する徹底した知識を維持しながら、はるかに少ないデータを要求する。本稿では,過去の評価に基づいて候補項目に対するユーザの評価を予測することを含む,ユーザレーティング予測の古典的なタスクの中で,cfとllmsの両方について徹底的に検討する。 250mから540bのパラメータを含む様々なサイズのllmを調査し、ゼロショット、少数ショット、微調整のシナリオでその性能を評価した。我々は、LLMと強力なCF法の比較を包括的に分析し、ユーザインタラクションデータにアクセス可能な従来のレコメンデータモデルよりもゼロショットのLLMが遅れていることを発見し、ユーザインタラクションデータの重要性を示している。しかし、微調整により、LLMはトレーニングデータのごく一部で同等またはそれ以上の性能を達成し、データ効率を通じてその可能性を示す。

関連論文リスト

LLMs as Data Annotators: How Close Are We to Human Performance [47.61698665650761]
データのマニュアルアノテーションは、労働集約的で、時間がかかり、コストがかかる。 In-context Learning (ICL) では、タスクに関連するいくつかの例がプロンプトで与えられると、非効率性や準最適モデルの性能につながる可能性がある。本稿では,NERタスクの様々なデータセットに対して,異なる埋め込みモデルを考慮した複数のLLMの比較実験を行う。
論文参考訳（メタデータ） (2025-04-21T11:11:07Z)
Efficient Evaluation of Large Language Models via Collaborative Filtering [25.734508624520164]
大規模言語モデル(LLM)は、異なるLLMの能力を測定し比較するために提案されている。 LLMの評価は、多数のテストインスタンスと遅い推論速度のためにコストがかかる。与えられたベンチマーク上でモデルの実性能を効率的に推定する2段階手法を提案する。
論文参考訳（メタデータ） (2025-04-05T07:46:30Z)
Latent Factor Models Meets Instructions: Goal-conditioned Latent Factor Discovery without Task Supervision [50.45597801390757]
Instruct-LFはゴール指向の潜在因子発見システムである。命令フォロー機能と統計モデルを統合して、ノイズの多いデータセットを処理する。
論文参考訳（メタデータ） (2025-02-21T02:03:08Z)
Re-evaluating Automatic LLM System Ranking for Alignment with Human Preference [63.03859517284341]
自動評価フレームワークは、人間の嗜好との整合性に基づいてLLMをランク付けすることを目的としている。自動LLMベンチラは、入力セット、評価モデル、評価タイプ、集約方法の4つのコンポーネントから構成される。
論文参考訳（メタデータ） (2024-12-31T17:46:51Z)
Dynamic Uncertainty Ranking: Enhancing In-Context Learning for Long-Tail Knowledge in LLMs [50.29035873837]
大規模言語モデル(LLM)は、事前訓練中に多様なドメインから膨大な量の知識を学習することができる。専門ドメインからの長い尾の知識は、しばしば不足し、表現されていないため、モデルの記憶にはほとんど現れない。 ICLの強化学習に基づく動的不確実性ランキング手法を提案する。
論文参考訳（メタデータ） (2024-10-31T03:42:17Z)
100 instances is all you need: predicting the success of a new LLM on unseen data by testing on a few instances [11.783547185760007]
従来試験されていたLCMの評価結果を用いて,新たなLCMの性能予測に必要な評価回数を削減する。既存の推論データセットの集合であるHELM-LiteとKidsOfReasoningについて実証的研究を行った。
論文参考訳（メタデータ） (2024-09-05T14:19:45Z)
SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文参考訳（メタデータ） (2024-07-16T04:41:58Z)
A Practice-Friendly LLM-Enhanced Paradigm with Preference Parsing for Sequential Recommendation [15.153844486572932]
本稿では、シーケンシャルレコメンデータシステム(SRS)のための優先構文解析(P2Rec)を用いた実践的LLM拡張パラダイムを提案する。具体的には、情報再構成段階において、事前学習したSRSモデルの助けを借りて、協調的な情報注入のための新しいユーザレベルSFTタスクを設計する。我々のゴールは、LLMが各ユーザのインタラクションシーケンスから対応する優先度分布を再構築することを学ばせることである。
論文参考訳（メタデータ） (2024-06-01T07:18:56Z)
CLAMBER: A Benchmark of Identifying and Clarifying Ambiguous Information Needs in Large Language Models [60.59638232596912]
大規模言語モデル(LLM)を評価するベンチマークであるCLAMBERを紹介する。分類を基盤として12Kの高品質なデータを構築し, 市販のLCMの強度, 弱点, 潜在的なリスクを評価する。本研究は, あいまいなユーザクエリの特定と明確化において, 現在のLCMの実用性に限界があることを示唆する。
論文参考訳（メタデータ） (2024-05-20T14:34:01Z)
RepEval: Effective Text Evaluation with LLM Representation [55.26340302485898]
RepEvalは、評価のためにLarge Language Models(LLM)表現の投影を利用するメトリクスである。我々の研究は、LLM表現に埋め込まれたテキスト品質に関する情報の豊かさを強調し、新しいメトリクスの開発のための洞察を提供する。
論文参考訳（メタデータ） (2024-04-30T13:50:55Z)
Large Language Models meet Collaborative Filtering: An Efficient All-round LLM-based Recommender System [19.8986219047121]
協調フィルタリング推薦システム (CF-RecSys) は, ソーシャルメディアやeコマースプラットフォーム上でのユーザエクスペリエンス向上に成功している。近年の戦略は、事前訓練されたモダリティエンコーダと大規模言語モデルに基づくユーザ/イテムのモダリティ情報の活用に重点を置いている。コールドシナリオだけでなく、ウォームシナリオにおいても優れたA-LLMRecと呼ばれる全周LCMベースのレコメンダシステムを提案する。
論文参考訳（メタデータ） (2024-04-17T13:03:07Z)
PiCO: Peer Review in LLMs based on the Consistency Optimization [19.130941716491716]
ピアレビュー機構を用いて,大規模言語モデル(LLM)を自動的に測定する。制約付き最適化問題として定式化し、各LLMの能力とスコアの一貫性を最大化することを目的としている。我々はPEN, CIN, LISという3つの指標を提案し, ランク付けのギャップを評価する。
論文参考訳（メタデータ） (2024-02-02T18:49:26Z)
PRE: A Peer Review Based Large Language Model Evaluator [14.585292530642603]
既存のパラダイムは、LLMの性能を評価するために、人間アノテーションまたはモデルベースの評価器のいずれかに依存している。ピアレビュープロセスを通じてLLMを自動的に評価できる新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-01-28T12:33:14Z)
Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models [52.98743860365194]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。 SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文参考訳（メタデータ） (2024-01-02T18:53:13Z)
On Learning to Summarize with Large Language Models as References [101.79795027550959]
大型言語モデル (LLM) は、一般的な要約データセットにおける元の参照要約よりも人間のアノテーションに好まれる。より小さなテキスト要約モデルに対するLLM-as-reference学習設定について検討し,その性能が大幅に向上するかどうかを検討する。
論文参考訳（メタデータ） (2023-05-23T16:56:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。