論文の概要: VitaBench 2.0: Evaluating Personalized and Proactive Agents in Long-Term User Interactions
- arxiv url: http://arxiv.org/abs/2605.27141v1
- Date: Tue, 26 May 2026 15:07:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:42.36353
- Title: VitaBench 2.0: Evaluating Personalized and Proactive Agents in Long-Term User Interactions
- Title(参考訳): VitaBench 2.0: 長期ユーザインタラクションにおける個人化エージェントとプロアクティブエージェントの評価
- Authors: Yuxin Chen, Yi Zhang, Zhengzhou Cai, Yaorui Shi, Zhiyuan Yao, Chenhang Cui, Jingnan Zheng, Yaqi Huo, Xi Su, Qi Gu, Xunliang Cai, Xiang Wang, An Zhang, Tat-Seng Chua,
- Abstract要約: 我々は、長期ユーザーインタラクションにおけるパーソナライズされたプロアクティブなエージェント動作を評価するためのベンチマークであるVitaBench 2.0を紹介する。
結果は、最先端のモデルでさえ、現実世界のパーソナライゼーションは非常に困難であることを示している。
- 参考スコア(独自算出の注目度): 63.13827503828231
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have evolved into interactive agents that collaborate with users in real-world tasks. Effective collaboration in such settings increasingly depends on understanding the user beyond what is explicitly stated, as user intent is often reflected in fragmented daily interactions and requires both personalized modeling and proactive interaction. However, existing agent benchmarks primarily evaluate reasoning and tool use, largely overlooking the challenges of inferring and leveraging user preferences in realistic scenarios. To address this gap, we introduce VitaBench 2.0, a benchmark for evaluating personalized and proactive agent behavior in long-term user interactions. In VitaBench 2.0, tasks are organized as temporally ordered sequences for individual users, where preferences are embedded in fragmented and heterogeneous interactions. Successful completion of tasks requires the agent to continuously extract, utilize, and update user preferences from these interactions. We further evaluate proactiveness through tasks that require agents to recognize missing information and actively acquire it from users or environments before making decisions. To support systematic analysis, we provide an extensible memory interface that enables controlled comparison across different memory architectures. We benchmark a diverse set of frontier proprietary and open-source LLMs. Results show that real-world personalization remains highly challenging even for state-of-the-art models, revealing a substantial gap between current capabilities and practical requirements. Extensive analysis further reveals the failure modes and capability bottlenecks of current agents in real-world personalized decision-making, providing insights for future model improvements.
- Abstract(参考訳): 大規模言語モデル(LLM)は、現実世界のタスクでユーザと協調する対話型エージェントへと進化してきた。
ユーザの意図は、しばしば断片化された日々のインタラクションに反映され、パーソナライズされたモデリングとプロアクティブなインタラクションの両方を必要とする。
しかし、既存のエージェントベンチマークは主に推論とツールの使用を評価し、現実的なシナリオでユーザーの好みを推論し活用するという課題を主に見落としている。
このギャップに対処するために、長期ユーザーインタラクションにおけるパーソナライズされたプロアクティブなエージェントの挙動を評価するベンチマークであるVitaBench 2.0を紹介する。
VitaBench 2.0では、タスクは個々のユーザの時間順のシーケンスとして整理される。
タスクの完了に成功するためには、エージェントがこれらのインタラクションからユーザの好みを継続的に抽出し、利用し、更新する必要がある。
我々は、エージェントが行方不明情報を認識し、意思決定を行う前にユーザーや環境から積極的に情報を取得することを要求するタスクを通じて、さらに積極性を評価する。
システム解析を支援するため,異なるメモリアーキテクチャ間の比較を制御可能な拡張可能なメモリインタフェースを提供する。
我々は、さまざまなフロンティアのプロプライエタリおよびオープンソース LLM をベンチマークする。
その結果、現状のモデルであっても現実のパーソナライゼーションは極めて困難であり、現在の能力と実践的な要件の間に大きなギャップがあることが判明した。
大規模な分析により、現実のパーソナライズされた意思決定において、現在のエージェントの障害モードと能力ボトルネックが明らかになり、将来のモデル改善の洞察が得られます。
関連論文リスト
- Long-term Task-oriented Agent: Proactive Long-term Intent Maintenance in Dynamic Environments [8.937298475124484]
現在の大規模言語モデルエージェントはリアクティブパラダイムの下で動作し、短期セッション内の即時ユーザクエリにのみ応答する。
本稿では,比較的静的なユーザニーズと動的環境とのギャップを埋めることのできる,アクティブなタスク指向エージェントのための新しいインタラクションパラダイムを提案する。
動的環境下で複雑なマルチターンダイアログデータを構築するための高品質なデータ合成パイプラインを提案する。
論文 参考訳(メタデータ) (2026-01-14T11:15:40Z) - Mem-PAL: Towards Memory-based Personalized Dialogue Assistants for Long-term User-Agent Interaction [55.24448139349266]
PAL-Benchは、長期ユーザエージェントインタラクションにおけるサービス指向アシスタントのパーソナライズ機能を評価するために設計された新しいベンチマークである。
サービス指向のインタラクションをパーソナライズするために、階層的で異質なメモリフレームワークであるH$2$Memoryを提案する。
論文 参考訳(メタデータ) (2025-11-17T14:22:32Z) - Enabling Personalized Long-term Interactions in LLM-based Agents through Persistent Memory and User Profiles [0.4885400580268118]
大規模言語モデル(LLM)はAIエージェントの中央制御ユニットとしての役割を担っている。
本稿では、パーソナライズされた長期的なインタラクションを実現するために、永続メモリ、動的コーディネーション、自己検証、およびユーザプロファイルの進化を統合するフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-09T08:22:16Z) - UserBench: An Interactive Gym Environment for User-Centric Agents [110.77212949007958]
LLM(Large Language Models)ベースのエージェントは、推論とツールの使用において、目覚ましい進歩を遂げてきたが、ユーザと積極的にコラボレーションする能力はまだ未熟である。
マルチターン、選好駆動インタラクションにおいてエージェントを評価するために設計されたユーザ中心のベンチマークであるUserBenchを紹介する。
論文 参考訳(メタデータ) (2025-07-29T17:34:12Z) - PersonaAgent: When Large Language Model Agents Meet Personalization at Test Time [87.99027488664282]
PersonaAgentは、汎用的なパーソナライゼーションタスクに対処するために設計されたフレームワークである。
パーソナライズされたメモリモジュールとパーソナライズされたアクションモジュールを統合する。
テストタイムのユーザ嗜好アライメント戦略は、リアルタイムのユーザの嗜好アライメントを保証する。
論文 参考訳(メタデータ) (2025-06-06T17:29:49Z) - AgentCF: Collaborative Learning with Autonomous Language Agents for
Recommender Systems [112.76941157194544]
本稿では,エージェントベースの協調フィルタリングにより,レコメンデータシステムにおけるユーザとイテムのインタラクションをシミュレートするエージェントCFを提案する。
我々は、ユーザだけでなく、アイテムをエージェントとして、創造的に考慮し、両方のエージェントを同時に最適化する協調学習アプローチを開発します。
全体として、最適化されたエージェントは、ユーザ・イテム、ユーザ・ユーザ・ユーザ、アイテム・イテム、集合的インタラクションなど、フレームワーク内での多様なインタラクションの振る舞いを示す。
論文 参考訳(メタデータ) (2023-10-13T16:37:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。