論文の概要: UQABench: Evaluating User Embedding for Prompting LLMs in Personalized Question Answering
- arxiv url: http://arxiv.org/abs/2502.19178v1
- Date: Wed, 26 Feb 2025 14:34:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-27 14:55:21.573511
- Title: UQABench: Evaluating User Embedding for Prompting LLMs in Personalized Question Answering
- Title(参考訳): UQABench:パーソナライズされた質問回答におけるLLMのプロンプティングのためのユーザ埋め込みの評価
- Authors: Langming Liu, Shilei Liu, Yujin Yuan, Yizhen Zhang, Bencheng Yan, Zhiyuan Zeng, Zihao Wang, Jiaqi Liu, Di Wang, Wenbo Su, Pengjie Wang, Jian Xu, Bo Zheng,
- Abstract要約: nameは、パーソナライズのための大きな言語モデルを促進するために、ユーザ埋め込みの有効性を評価するために設計されたベンチマークである。
ユーザ埋め込みをモデル化するための様々な最先端手法について広範な実験を行った。
- 参考スコア(独自算出の注目度): 39.79275025010785
- License:
- Abstract: Large language models (LLMs) achieve remarkable success in natural language processing (NLP). In practical scenarios like recommendations, as users increasingly seek personalized experiences, it becomes crucial to incorporate user interaction history into the context of LLMs to enhance personalization. However, from a practical utility perspective, user interactions' extensive length and noise present challenges when used directly as text prompts. A promising solution is to compress and distill interactions into compact embeddings, serving as soft prompts to assist LLMs in generating personalized responses. Although this approach brings efficiency, a critical concern emerges: Can user embeddings adequately capture valuable information and prompt LLMs? To address this concern, we propose \name, a benchmark designed to evaluate the effectiveness of user embeddings in prompting LLMs for personalization. We establish a fair and standardized evaluation process, encompassing pre-training, fine-tuning, and evaluation stages. To thoroughly evaluate user embeddings, we design three dimensions of tasks: sequence understanding, action prediction, and interest perception. These evaluation tasks cover the industry's demands in traditional recommendation tasks, such as improving prediction accuracy, and its aspirations for LLM-based methods, such as accurately understanding user interests and enhancing the user experience. We conduct extensive experiments on various state-of-the-art methods for modeling user embeddings. Additionally, we reveal the scaling laws of leveraging user embeddings to prompt LLMs. The benchmark is available online.
- Abstract(参考訳): 大規模言語モデル (LLM) は自然言語処理 (NLP) において顕著な成功を収めた。
レコメンデーションのような実践的なシナリオでは、ユーザがパーソナライズされた体験を求めるようになると、パーソナライズを強化するために、ユーザインタラクション履歴をLLMのコンテキストに組み込むことが重要になる。
しかし、実用の観点からは、ユーザインタラクションの広範な長さとノイズは、テキストプロンプトとして直接使用される際の課題である。
有望な解決策は、相互作用をコンパクトな埋め込みに圧縮して蒸留し、パーソナライズされた応答を生成するのに役立つソフトプロンプトとして機能させることである。
ユーザ埋め込みは、価値ある情報を適切にキャプチャし、LLMを促すことができますか?
この問題に対処するために,ユーザ埋め込みの有効性を評価するためのベンチマークである \name を提案する。
我々は、事前訓練、微調整、評価段階を含む公正で標準化された評価プロセスを確立する。
ユーザの埋め込みを徹底的に評価するために、シーケンス理解、行動予測、関心認識という3つのタスクを設計する。
これらの評価課題は、予測精度の向上などの従来のレコメンデーションタスクにおける業界の要求や、ユーザ関心の正確な理解やユーザエクスペリエンスの向上といったLCMベースの手法への期待をカバーしている。
ユーザ埋め込みをモデル化するための様々な最先端手法について広範な実験を行った。
さらに,ユーザ埋め込みを活用してLCMを誘導するスケーリング法則を明らかにした。
ベンチマークはオンラインで公開されている。
関連論文リスト
- Aligning LLMs with Individual Preferences via Interaction [51.72200436159636]
調整可能な大きな言語モデル(LLM)をトレーニングします。
木構造における3K以上の多ターン会話を含む多ターン嗜好データセットを開発した。
評価のために、慎重に選択された100のサンプルと、会話中にカスタマイズされたアライメント性能を測定するために適切に設計されたメトリクスからなるALOEベンチマークを確立する。
論文 参考訳(メタデータ) (2024-10-04T17:48:29Z) - WildFeedback: Aligning LLMs With In-situ User Interactions And Feedback [36.06000681394939]
WildFeedbackは、大規模言語モデル(LLM)との会話中にユーザからのフィードバックをその場で活用して、好みのデータセットを自動的に作成する新しいフレームワークである。
実験の結果,WildFeedbackデータセットを微調整したLCMは,ユーザの好みに合わせて大幅に改善されていることがわかった。
論文 参考訳(メタデータ) (2024-08-28T05:53:46Z) - Reinforced Prompt Personalization for Recommendation with Large Language Models [24.360796133889156]
本稿では,個々のユーザに対して個別のプロンプトをパーソナライズすることを目的とした,インスタンスワイドプロンプトの概念を紹介する。
効率と品質を向上させるため、RPPは単語ごとの単語を検索するのではなく、文レベルでプロンプトをパーソナライズする。
論文 参考訳(メタデータ) (2024-07-24T09:24:49Z) - Few-shot Personalization of LLMs with Mis-aligned Responses [40.0349773257245]
本稿では,大規模言語モデル(LLM)のパーソナライズのための新しいアプローチを提案する。
私たちのキーとなるアイデアは、LSMを用いてプロンプトを段階的に改善することで、各ユーザに対してパーソナライズされたプロンプトのセットを学ぶことです。
即時改善の反復過程において,LLMによる不整合応答の文脈を取り入れた。
論文 参考訳(メタデータ) (2024-06-26T18:29:12Z) - CLAMBER: A Benchmark of Identifying and Clarifying Ambiguous Information Needs in Large Language Models [60.59638232596912]
大規模言語モデル(LLM)を評価するベンチマークであるCLAMBERを紹介する。
分類を基盤として12Kの高品質なデータを構築し, 市販のLCMの強度, 弱点, 潜在的なリスクを評価する。
本研究は, あいまいなユーザクエリの特定と明確化において, 現在のLCMの実用性に限界があることを示唆する。
論文 参考訳(メタデータ) (2024-05-20T14:34:01Z) - RepEval: Effective Text Evaluation with LLM Representation [55.26340302485898]
RepEvalは、評価のためにLarge Language Models(LLM)表現の投影を利用するメトリクスである。
我々の研究は、LLM表現に埋め込まれたテキスト品質に関する情報の豊かさを強調し、新しいメトリクスの開発のための洞察を提供する。
論文 参考訳(メタデータ) (2024-04-30T13:50:55Z) - User-LLM: Efficient LLM Contextualization with User Embeddings [23.226164112909643]
User-LLMは、ユーザ埋め込みを利用して、大きな言語モデルとユーザ履歴の相互作用を直接コンテキスト化する新しいフレームワークである。
提案手法では,ユーザタイムラインを直接埋め込みとして表現することで,最大78.1倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-02-21T08:03:27Z) - Explainable Active Learning for Preference Elicitation [0.0]
我々は、最小限のユーザ労力で情報取得を最大化することを目的として、この問題を解決するためにアクティブラーニング(AL)を採用している。
ALは、大きなラベルのない集合から情報的データを選択して、それらをラベル付けするオラクルを問い合わせる。
ベースとなる機械学習(ML)モデルを更新するために、ユーザからのフィードバック(提示された項目に関するシステムの説明のために)を情報的なサンプルから収集する。
論文 参考訳(メタデータ) (2023-09-01T09:22:33Z) - LLM-Rec: Personalized Recommendation via Prompting Large Language Models [62.481065357472964]
大きな言語モデル(LLM)は、常識的な知識と推論を活用する能力を示した。
大規模言語モデル(LLM)の最近の進歩は、コモンセンスの知識と推論を活用できることを顕著に示している。
本研究では,パーソナライズされたテキストベースのレコメンデーションを改善するために,テキストエンリッチメントの4つの異なる促進戦略を取り入れた新しいアプローチ LLM-Rec を提案する。
論文 参考訳(メタデータ) (2023-07-24T18:47:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。