論文の概要: A Personalized Conversational Benchmark: Towards Simulating Personalized Conversations
- arxiv url: http://arxiv.org/abs/2505.14106v1
- Date: Tue, 20 May 2025 09:13:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:52.958598
- Title: A Personalized Conversational Benchmark: Towards Simulating Personalized Conversations
- Title(参考訳): パーソナライズされた会話ベンチマーク:パーソナライズされた会話のシミュレーションに向けて
- Authors: Li Li, Peilin Cai, Ryan A. Rossi, Franck Dernoncourt, Branislav Kveton, Junda Wu, Tong Yu, Linxin Song, Tiankai Yang, Yuehan Qin, Nesreen K. Ahmed, Samyadeep Basu, Subhojyoti Mukherjee, Ruiyi Zhang, Zhengmian Hu, Bo Ni, Yuxiao Zhou, Zichao Wang, Yue Huang, Yu Wang, Xiangliang Zhang, Philip S. Yu, Xiyang Hu, Yue Zhao,
- Abstract要約: PersonaConvBenchは、大規模言語モデル(LLM)とのマルチターン会話におけるパーソナライズされた推論と生成を評価するためのベンチマークである。
我々は,複数の商用およびオープンソース LLM を統一的なプロンプト設定でベンチマークし,パーソナライズされた履歴を組み込むことで大幅な性能向上が得られることを観察した。
- 参考スコア(独自算出の注目度): 112.81207927088117
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present PersonaConvBench, a large-scale benchmark for evaluating personalized reasoning and generation in multi-turn conversations with large language models (LLMs). Unlike existing work that focuses on either personalization or conversational structure in isolation, PersonaConvBench integrates both, offering three core tasks: sentence classification, impact regression, and user-centric text generation across ten diverse Reddit-based domains. This design enables systematic analysis of how personalized conversational context shapes LLM outputs in realistic multi-user scenarios. We benchmark several commercial and open-source LLMs under a unified prompting setup and observe that incorporating personalized history yields substantial performance improvements, including a 198 percent relative gain over the best non-conversational baseline in sentiment classification. By releasing PersonaConvBench with evaluations and code, we aim to support research on LLMs that adapt to individual styles, track long-term context, and produce contextually rich, engaging responses.
- Abstract(参考訳): 大規模言語モデル(LLM)を用いたマルチターン会話におけるパーソナライズされた推論と生成を評価するための大規模ベンチマークであるPersonaConvBenchを提案する。
PersonaConvBenchは、個別にパーソナライズまたは会話構造に焦点を当てた既存の作業と異なり、PersonaConvBenchはどちらも統合されており、文分類、インパクトレグレッション、ユーザー中心のテキスト生成という3つの中核的なタスクをRedditベースの10のドメインで提供する。
この設計は、現実的なマルチユーザシナリオにおいて、LLM出力のパーソナライズされた会話コンテキストの形状を体系的に分析することを可能にする。
我々は、統一的なプロンプト設定の下で、複数の商用およびオープンソースのLCMをベンチマークし、パーソナライズされた履歴を組み込むことで、感情分類における最高の非会話ベースラインに対する198%の相対的なゲインを含む、大幅なパフォーマンス改善が得られることを観察した。
評価とコードを備えたPersonaConvBenchをリリースすることにより、個々のスタイルに適応し、長期コンテキストを追跡し、コンテキスト的にリッチで魅力的な応答を生成するLLMの研究を支援することを目指している。
関連論文リスト
- Evaluating LLM-based Agents for Multi-Turn Conversations: A Survey [64.08485471150486]
本研究では,大規模言語モデル(LLM)に基づくマルチターン対話環境におけるエージェントの評価手法について検討する。
我々は250近い学術資料を体系的にレビューし、様々な出版場所から芸術の状態を捉えた。
論文 参考訳(メタデータ) (2025-03-28T14:08:40Z) - IRLab@iKAT24: Learned Sparse Retrieval with Multi-aspect LLM Query Generation for Conversational Search [6.974395116689502]
iKAT 2024は、対話アシスタントの進化に焦点を当て、対話と応答をパーソナライズされたユーザー知識から適応することができる。
このトラックには、Personal Textual Knowledge Base(PTKB)と会話型AIタスク(通訳ランキングや応答生成など)が組み込まれている。
論文 参考訳(メタデータ) (2024-11-22T05:18:35Z) - Aligning LLMs with Individual Preferences via Interaction [51.72200436159636]
調整可能な大きな言語モデル(LLM)をトレーニングします。
木構造における3K以上の多ターン会話を含む多ターン嗜好データセットを開発した。
評価のために、慎重に選択された100のサンプルと、会話中にカスタマイズされたアライメント性能を測定するために適切に設計されたメトリクスからなるALOEベンチマークを確立する。
論文 参考訳(メタデータ) (2024-10-04T17:48:29Z) - PersoBench: Benchmarking Personalized Response Generation in Large Language Models [6.8046587254152735]
我々はペルソベンチ(PersoBench)という,ペルソベンチ(PersoBench)という,個人認識対話生成における大規模言語モデル(LLM)のパーソナライズ能力を評価するベンチマークを提案する。
本分析は, 3つの人格認識データセットを用いて, 流布度, 多様性, 一貫性, パーソナライゼーションなど, 応答品質の多次元性を評価する。
論文 参考訳(メタデータ) (2024-10-04T07:29:41Z) - Doing Personal LAPS: LLM-Augmented Dialogue Construction for Personalized Multi-Session Conversational Search [9.243535345193711]
提案手法は,大規模言語モデルを用いて,個人化された対話を生成するために,一人の人間労働者を誘導する。
LAPSは大規模、人書き、マルチセッション、マルチドメインの会話を収集できる。
その結果,抽出された嗜好を用いて明示的に生成した応答は,ユーザの実際の嗜好と一致していることがわかった。
論文 参考訳(メタデータ) (2024-05-06T13:53:03Z) - Cue-CoT: Chain-of-thought Prompting for Responding to In-depth Dialogue
Questions with LLMs [59.74002011562726]
我々は、よりパーソナライズされ魅力的な応答を提供するために、新しい言語的キューに基づく思考の連鎖(textitCue-CoT)を提案する。
中国語と英語の6つのデータセットからなる詳細な対話質問を用いたベンチマークを構築した。
実験により,提案手法は,すべてのデータセットにおいて,テクステルパーフルネスとテクスチタアクセプタビリティの両方の観点から,標準的プロンプト法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-19T16:27:43Z) - Dialogue History Matters! Personalized Response Selectionin Multi-turn
Retrieval-based Chatbots [62.295373408415365]
本稿では,コンテキスト応答マッチングのためのパーソナライズドハイブリッドマッチングネットワーク(phmn)を提案する。
1) ユーザ固有の対話履歴からパーソナライズされた発話行動を付加的なマッチング情報として抽出する。
ユーザ識別による2つの大規模データセット,すなわちパーソナライズされた対話 Corpus Ubuntu (P-Ubuntu) とパーソナライズされたWeiboデータセット (P-Weibo) のモデルを評価する。
論文 参考訳(メタデータ) (2021-03-17T09:42:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。