論文の概要: PersonaLens: A Benchmark for Personalization Evaluation in Conversational AI Assistants
- arxiv url: http://arxiv.org/abs/2506.09902v1
- Date: Wed, 11 Jun 2025 16:16:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:03.12643
- Title: PersonaLens: A Benchmark for Personalization Evaluation in Conversational AI Assistants
- Title(参考訳): PersonaLens:会話型AIアシスタントのパーソナライズ評価ベンチマーク
- Authors: Zheng Zhao, Clara Vania, Subhradeep Kayal, Naila Khan, Shay B. Cohen, Emine Yilmaz,
- Abstract要約: タスク指向AIアシスタントのパーソナライゼーションを評価するベンチマークであるPersonaLensを紹介する。
本ベンチマークでは,リッチな嗜好とインタラクション履歴を備えた多様なユーザプロファイルと,2つの特殊なLDMベースのエージェントを特徴とする。
我々は、そのパーソナライゼーション能力に顕著な多様性を明らかにし、会話型AIシステムを進化させる上で重要な洞察を提供する。
- 参考スコア(独自算出の注目度): 31.486658078902025
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have advanced conversational AI assistants. However, systematically evaluating how well these assistants apply personalization--adapting to individual user preferences while completing tasks--remains challenging. Existing personalization benchmarks focus on chit-chat, non-conversational tasks, or narrow domains, failing to capture the complexities of personalized task-oriented assistance. To address this, we introduce PersonaLens, a comprehensive benchmark for evaluating personalization in task-oriented AI assistants. Our benchmark features diverse user profiles equipped with rich preferences and interaction histories, along with two specialized LLM-based agents: a user agent that engages in realistic task-oriented dialogues with AI assistants, and a judge agent that employs the LLM-as-a-Judge paradigm to assess personalization, response quality, and task success. Through extensive experiments with current LLM assistants across diverse tasks, we reveal significant variability in their personalization capabilities, providing crucial insights for advancing conversational AI systems.
- Abstract(参考訳): 大規模言語モデル(LLM)には高度な対話型AIアシスタントがある。
しかしながら、これらのアシスタントがパーソナライズをいかにうまく適用するかを体系的に評価する。
既存のパーソナライズベンチマークでは、チャット、非会話タスク、狭いドメインに重点を置いており、パーソナライズされたタスク指向のアシストの複雑さを捉えていない。
これを解決するために、タスク指向AIアシスタントのパーソナライゼーションを評価するための包括的なベンチマークであるPersonaLensを紹介する。
本ベンチマークでは、AIアシスタントとのリアルなタスク指向対話を行うユーザエージェントと、パーソナライズ、応答品質、タスク成功を評価するためにLLM-as-a-Judgeパラダイムを使用する判断エージェントの2つとともに、リッチな嗜好とインタラクション履歴を備えた多様なユーザプロファイルを特徴とする。
多様なタスクにわたる現在のLLMアシスタントによる広範な実験を通じて、パーソナライゼーション能力の大幅な多様性を明らかにし、会話型AIシステムの進化に重要な洞察を与える。
関連論文リスト
- PersonaFeedback: A Large-scale Human-annotated Benchmark For Personalization [25.45861816665351]
我々は、パーソナライズされた応答を提供するLLMの能力を直接評価する新しいベンチマークであるPersonaFeedbackを紹介する。
過去のインタラクションから暗黙のユーザペルソナを推論するモデルを必要とする既存のベンチマークとは異なり、PersonaFeedbackはパーソナライゼーションからペルソナ推論を分離する。
PersonaFeedbackは8298人の注釈付きテストケースで構成されており、簡単、中、硬い層に分類される。
論文 参考訳(メタデータ) (2025-06-15T17:19:19Z) - PersonaAgent: When Large Language Model Agents Meet Personalization at Test Time [87.99027488664282]
PersonaAgentは、汎用的なパーソナライゼーションタスクに対処するために設計されたフレームワークである。
パーソナライズされたメモリモジュールとパーソナライズされたアクションモジュールを統合する。
テストタイムのユーザ嗜好アライメント戦略は、リアルタイムのユーザの嗜好アライメントを保証する。
論文 参考訳(メタデータ) (2025-06-06T17:29:49Z) - A Personalized Conversational Benchmark: Towards Simulating Personalized Conversations [112.81207927088117]
PersonaConvBenchは、大規模言語モデル(LLM)とのマルチターン会話におけるパーソナライズされた推論と生成を評価するためのベンチマークである。
我々は,複数の商用およびオープンソース LLM を統一的なプロンプト設定でベンチマークし,パーソナライズされた履歴を組み込むことで大幅な性能向上が得られることを観察した。
論文 参考訳(メタデータ) (2025-05-20T09:13:22Z) - Strategic Prompting for Conversational Tasks: A Comparative Analysis of Large Language Models Across Diverse Conversational Tasks [23.34710429552906]
Llama, OPT, Falcon, Alpaca, MPTの5大言語モデルの性能と限界を評価する。
この研究は、予約、共感反応生成、メンタルヘルス、法的カウンセリング、説得、交渉など様々な会話的タスクを含む。
論文 参考訳(メタデータ) (2024-11-26T08:21:24Z) - Aligning LLMs with Individual Preferences via Interaction [51.72200436159636]
調整可能な大きな言語モデル(LLM)をトレーニングします。
木構造における3K以上の多ターン会話を含む多ターン嗜好データセットを開発した。
評価のために、慎重に選択された100のサンプルと、会話中にカスタマイズされたアライメント性能を測定するために適切に設計されたメトリクスからなるALOEベンチマークを確立する。
論文 参考訳(メタデータ) (2024-10-04T17:48:29Z) - Reference-Guided Verdict: LLMs-as-Judges in Automatic Evaluation of Free-Form Text [12.879551933541345]
大きな言語モデル(LLM)は、人間のような会話を生成できる。
BLEUやROUGEのような従来のメトリクスは、このような生成出力の微妙な意味と文脈的な豊かさを捉えるには不十分である。
本稿では,複数のLSM-as-judgesを活用することで,評価プロセスを自動化する基準誘導型判定手法を提案する。
論文 参考訳(メタデータ) (2024-08-17T16:01:45Z) - User Modeling Challenges in Interactive AI Assistant Systems [3.1204913702660475]
Interactive Artificial Intelligent(AI)アシスタントシステムは、人間が様々なタスクを完了するのを助けるタイムリーなガイダンスを提供するように設計されている。
残りの課題の1つは、よりパーソナライズされたガイダンスのために、タスク中のユーザの精神状態を理解することである。
本研究では,タスク実行中のユーザの精神状態を分析し,よりパーソナライズされたユーザガイダンスのために,大規模言語モデルがユーザプロファイルを解釈する能力と課題について検討する。
論文 参考訳(メタデータ) (2024-03-29T11:54:13Z) - TaskBench: Benchmarking Large Language Models for Task Automation [82.2932794189585]
タスク自動化における大規模言語モデル(LLM)の機能を評価するためのフレームワークであるTaskBenchを紹介する。
具体的には、タスクの分解、ツールの選択、パラメータ予測を評価する。
提案手法は, 自動構築と厳密な人的検証を組み合わせることで, 人的評価との整合性を確保する。
論文 参考訳(メタデータ) (2023-11-30T18:02:44Z) - PsyCoT: Psychological Questionnaire as Powerful Chain-of-Thought for
Personality Detection [50.66968526809069]
PsyCoTと呼ばれる新しい人格検出手法を提案する。これは、個人がマルチターン対話方式で心理的質問を完遂する方法を模倣するものである。
実験の結果,PsyCoTは人格検出におけるGPT-3.5の性能とロバスト性を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2023-10-31T08:23:33Z) - Decision-Oriented Dialogue for Human-AI Collaboration [62.367222979251444]
そこでは,大規模言語モデル(LM)のようなAIアシスタントが,自然言語を介して複数の人間と協調して複雑な意思決定を行うための,意思決定指向対話と呼ばれるタスクのクラスについて述べる。
日常的な意思決定に直面する3つの領域を定式化し,(1)レビュアーの会議論文への課題の選択,(2)都市における複数段階の旅程の計画,(3)友人集団の旅行計画の交渉を行う。
各タスクに対して、エージェントが到達した最終決定の質に基づいて報酬を受け取る対話環境を構築する。
論文 参考訳(メタデータ) (2023-05-31T17:50:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。