論文の概要: PersonaLens: A Benchmark for Personalization Evaluation in Conversational AI Assistants
- arxiv url: http://arxiv.org/abs/2506.09902v1
- Date: Wed, 11 Jun 2025 16:16:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:03.12643
- Title: PersonaLens: A Benchmark for Personalization Evaluation in Conversational AI Assistants
- Title(参考訳): PersonaLens:会話型AIアシスタントのパーソナライズ評価ベンチマーク
- Authors: Zheng Zhao, Clara Vania, Subhradeep Kayal, Naila Khan, Shay B. Cohen, Emine Yilmaz,
- Abstract要約: タスク指向AIアシスタントのパーソナライゼーションを評価するベンチマークであるPersonaLensを紹介する。
本ベンチマークでは,リッチな嗜好とインタラクション履歴を備えた多様なユーザプロファイルと,2つの特殊なLDMベースのエージェントを特徴とする。
我々は、そのパーソナライゼーション能力に顕著な多様性を明らかにし、会話型AIシステムを進化させる上で重要な洞察を提供する。
- 参考スコア(独自算出の注目度): 31.486658078902025
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have advanced conversational AI assistants. However, systematically evaluating how well these assistants apply personalization--adapting to individual user preferences while completing tasks--remains challenging. Existing personalization benchmarks focus on chit-chat, non-conversational tasks, or narrow domains, failing to capture the complexities of personalized task-oriented assistance. To address this, we introduce PersonaLens, a comprehensive benchmark for evaluating personalization in task-oriented AI assistants. Our benchmark features diverse user profiles equipped with rich preferences and interaction histories, along with two specialized LLM-based agents: a user agent that engages in realistic task-oriented dialogues with AI assistants, and a judge agent that employs the LLM-as-a-Judge paradigm to assess personalization, response quality, and task success. Through extensive experiments with current LLM assistants across diverse tasks, we reveal significant variability in their personalization capabilities, providing crucial insights for advancing conversational AI systems.
- Abstract(参考訳): 大規模言語モデル(LLM)には高度な対話型AIアシスタントがある。
しかしながら、これらのアシスタントがパーソナライズをいかにうまく適用するかを体系的に評価する。
既存のパーソナライズベンチマークでは、チャット、非会話タスク、狭いドメインに重点を置いており、パーソナライズされたタスク指向のアシストの複雑さを捉えていない。
これを解決するために、タスク指向AIアシスタントのパーソナライゼーションを評価するための包括的なベンチマークであるPersonaLensを紹介する。
本ベンチマークでは、AIアシスタントとのリアルなタスク指向対話を行うユーザエージェントと、パーソナライズ、応答品質、タスク成功を評価するためにLLM-as-a-Judgeパラダイムを使用する判断エージェントの2つとともに、リッチな嗜好とインタラクション履歴を備えた多様なユーザプロファイルを特徴とする。
多様なタスクにわたる現在のLLMアシスタントによる広範な実験を通じて、パーソナライゼーション能力の大幅な多様性を明らかにし、会話型AIシステムの進化に重要な洞察を与える。
関連論文リスト
- A Personalized Conversational Benchmark: Towards Simulating Personalized Conversations [112.81207927088117]
PersonaConvBenchは、大規模言語モデル(LLM)とのマルチターン会話におけるパーソナライズされた推論と生成を評価するためのベンチマークである。
我々は,複数の商用およびオープンソース LLM を統一的なプロンプト設定でベンチマークし,パーソナライズされた履歴を組み込むことで大幅な性能向上が得られることを観察した。
論文 参考訳(メタデータ) (2025-05-20T09:13:22Z) - Strategic Prompting for Conversational Tasks: A Comparative Analysis of Large Language Models Across Diverse Conversational Tasks [23.34710429552906]
Llama, OPT, Falcon, Alpaca, MPTの5大言語モデルの性能と限界を評価する。
この研究は、予約、共感反応生成、メンタルヘルス、法的カウンセリング、説得、交渉など様々な会話的タスクを含む。
論文 参考訳(メタデータ) (2024-11-26T08:21:24Z) - User Modeling Challenges in Interactive AI Assistant Systems [3.1204913702660475]
Interactive Artificial Intelligent(AI)アシスタントシステムは、人間が様々なタスクを完了するのを助けるタイムリーなガイダンスを提供するように設計されている。
残りの課題の1つは、よりパーソナライズされたガイダンスのために、タスク中のユーザの精神状態を理解することである。
本研究では,タスク実行中のユーザの精神状態を分析し,よりパーソナライズされたユーザガイダンスのために,大規模言語モデルがユーザプロファイルを解釈する能力と課題について検討する。
論文 参考訳(メタデータ) (2024-03-29T11:54:13Z) - TaskBench: Benchmarking Large Language Models for Task Automation [82.2932794189585]
タスク自動化における大規模言語モデル(LLM)の機能を評価するためのフレームワークであるTaskBenchを紹介する。
具体的には、タスクの分解、ツールの選択、パラメータ予測を評価する。
提案手法は, 自動構築と厳密な人的検証を組み合わせることで, 人的評価との整合性を確保する。
論文 参考訳(メタデータ) (2023-11-30T18:02:44Z) - Decision-Oriented Dialogue for Human-AI Collaboration [62.367222979251444]
そこでは,大規模言語モデル(LM)のようなAIアシスタントが,自然言語を介して複数の人間と協調して複雑な意思決定を行うための,意思決定指向対話と呼ばれるタスクのクラスについて述べる。
日常的な意思決定に直面する3つの領域を定式化し,(1)レビュアーの会議論文への課題の選択,(2)都市における複数段階の旅程の計画,(3)友人集団の旅行計画の交渉を行う。
各タスクに対して、エージェントが到達した最終決定の質に基づいて報酬を受け取る対話環境を構築する。
論文 参考訳(メタデータ) (2023-05-31T17:50:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。