Fugu-MT 論文翻訳(概要): $Ψ$-Bench: Evaluating Persona-Sensitive Influencing in Persuasive Dialogues

論文の概要: $Ψ$-Bench: Evaluating Persona-Sensitive Influencing in Persuasive Dialogues

arxiv url: http://arxiv.org/abs/2606.02754v1
Date: Mon, 01 Jun 2026 18:20:27 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-03 22:00:04.534731
Title: $Ψ$-Bench: Evaluating Persona-Sensitive Influencing in Persuasive Dialogues
Title（参考訳）: $$-Bench: 説得的対話におけるペルソナ感性の影響の評価
Authors: Peixuan Han, Hongyi Du, Jiayu Liu, Yihang Sun, Yutong Liu, Jiaxuan You,
Abstract要約: パーソナライゼーションは現代の言語エージェントにとって重要な能力である。現実的相互作用におけるこのような積極的パーソナライゼーションを体系的に評価するために,$$-Benchを提案する。我々は,$$-Benchの説得を含む3つの実世界の相互作用シナリオを設計する。
参考スコア（独自算出の注目度）: 29.06093760842317
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Personalization is a crucial capability of modern language agents. However, current research primarily positions personalized agents as passive responders to user preferences, limiting their ability to interact with users and provide suggestions or guidance proactively. To systematically evaluate such proactive personalization in realistic interactions, we propose $Ψ$-Bench, a benchmark for assessing LLMs' ability to influence realistic users through conversation. We design three real-world interaction scenarios that involve persuasion in $Ψ$-Bench, and endow simulated clients with personal characteristics through explicit user profiles derived from dialogue histories. We evaluate 10 frontier LLMs on $Ψ$-Bench and find that while most models can produce coherent and reasonable arguments, even state-of-the-art models still leave considerable room for improvement in persuasion. We also find that providing access to client profiles yields an average performance gain of 18.24\%, highlighting the importance of user-specific information for effective persuasion. Overall, our work highlights persona-sensitive influencing as a challenging yet practical direction for evaluating and developing more proactive personalized LLM agents. Codes are available at: https://github.com/Hanpx20/Psi-Bench.
Abstract（参考訳）: パーソナライゼーションは現代の言語エージェントにとって重要な能力である。しかし、現在の研究では、主にパーソナライズされたエージェントを、ユーザの好みに対する受動的応答者として位置づけ、ユーザと対話し、積極的に提案やガイダンスを提供する能力を制限する。そこで本研究では,現実的インタラクションにおけるこのような積極的パーソナライゼーションを体系的に評価するために,会話を通じて現実的ユーザに影響を与えるLLMの能力を評価するためのベンチマークである$$-Benchを提案する。実世界の対話シナリオを3つ設計し,対話履歴から抽出した明示的なユーザプロファイルを通じて,顧客を個人的特性でシミュレートした。我々は、$$$-Benchで10のフロンティアLEMを評価し、ほとんどのモデルは一貫性と合理的な議論を生成できるが、最先端のモデルでさえも説得力を改善する余地を残している。また,クライアントプロファイルへのアクセスが平均18.24\%となり,ユーザ固有の情報の重要性が強調された。本研究は,よりプロアクティブなパーソナライズされたLDMエージェントの評価・開発を行う上で,ペルソナ感受性の影響を挑戦的かつ実践的な方向として強調する。コードは、https://github.com/Hanpx20/Psi-Bench.comで入手できる。

関連論文リスト

Preference-Aware Rubric Learning for Personalized Evaluation [59.539429430690156]
既存の評価手法では、長期的なインタラクション履歴に埋め込まれたユーザ固有の嗜好をキャプチャできない。静的判断よりも学習問題としてパーソナライズされた評価を定式化するパラダイムであるパーソナライズド・アズ・ラーニングを提案する。実験により、PARLはユーザ対応の応答を確実に識別し、ユーザ間で一般化する高忠実なルーブリックを一貫して誘導することが示された。
論文参考訳（メタデータ） (2026-05-29T17:00:55Z)
VitaBench 2.0: Evaluating Personalized and Proactive Agents in Long-Term User Interactions [63.13827503828231]
我々は、長期ユーザーインタラクションにおけるパーソナライズされたプロアクティブなエージェント動作を評価するためのベンチマークであるVitaBench 2.0を紹介する。結果は、最先端のモデルでさえ、現実世界のパーソナライゼーションは非常に困難であることを示している。
論文参考訳（メタデータ） (2026-05-26T15:07:38Z)
Towards Realistic Personalization: Evaluating Long-Horizon Preference Following in Personalized User-LLM Interactions [50.70965714314064]
大規模言語モデル(LLM)は、ユーザが拡張されたインタラクションよりも複雑で多様な好みを共有するパーソナルアシスタントとして、ますます機能している。この研究は、パーソナライズされたユーザ-LLMインタラクションにおいて、リアルな嗜好フォローを評価するためのベンチマークであるRealPrefを提案する。
論文参考訳（メタデータ） (2026-03-04T15:42:43Z)
A Personalized Conversational Benchmark: Towards Simulating Personalized Conversations [112.81207927088117]
PersonaConvBenchは、大規模言語モデル(LLM)とのマルチターン会話におけるパーソナライズされた推論と生成を評価するためのベンチマークである。我々は,複数の商用およびオープンソース LLM を統一的なプロンプト設定でベンチマークし,パーソナライズされた履歴を組み込むことで大幅な性能向上が得られることを観察した。
論文参考訳（メタデータ） (2025-05-20T09:13:22Z)
Exploring the Impact of Personality Traits on Conversational Recommender Systems: A Simulation with Large Language Models [70.180385882195]
本稿では,対話型レコメンダシステム(CRS)のためのパーソナリティを考慮したユーザシミュレーションを提案する。ユーザエージェントはカスタマイズ可能な性格特性と嗜好を誘導し、システムエージェントはCRS内の現実的な相互作用をシミュレートする説得能力を有する。実験により,現在最先端のLCMは,特定の性格特性に適合した多様なユーザ応答を効果的に生成できることが示された。
論文参考訳（メタデータ） (2025-04-09T13:21:17Z)
Enhancing Personalized Multi-Turn Dialogue with Curiosity Reward [15.054368169735872]
本稿では,好奇心に基づく固有報酬をマルチターンRLHFに組み込むために,ユーザモデルを活用することを提案する。この新たな報酬機構により、LLMエージェントは会話を最適化してユーザモデルの精度を向上させることにより、ユーザ特性を積極的に推測することができる。提案手法の有効性は,会話推薦タスクにおけるパーソナライズ性能の大幅な向上と,教育環境における異なる学習スタイルにおける会話のパーソナライズという2つの領域で実証する。
論文参考訳（メタデータ） (2025-04-04T06:35:02Z)
Towards Personalized Conversational Sales Agents: Contextual User Profiling for Strategic Action [12.637812936971049]
本稿では,一貫した会話の枠組みの中で,嗜好の誘惑,推薦,説得を統合する新しいタスクである会話販売(CSALES)について紹介する。また,文脈的ユーザプロファイルを積極的に推測し,会話を通じて戦略的に行動を選択する対話販売エージェントであるCSIを提案する。
論文参考訳（メタデータ） (2025-03-28T15:49:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。