論文の概要: UserBench: An Interactive Gym Environment for User-Centric Agents
- arxiv url: http://arxiv.org/abs/2507.22034v1
- Date: Tue, 29 Jul 2025 17:34:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 17:08:56.775304
- Title: UserBench: An Interactive Gym Environment for User-Centric Agents
- Title(参考訳): UserBench: ユーザ中心エージェントのための対話型ジム環境
- Authors: Cheng Qian, Zuxin Liu, Akshara Prabhakar, Zhiwei Liu, Jianguo Zhang, Haolin Chen, Heng Ji, Weiran Yao, Shelby Heinecke, Silvio Savarese, Caiming Xiong, Huan Wang,
- Abstract要約: LLM(Large Language Models)ベースのエージェントは、推論とツールの使用において、目覚ましい進歩を遂げてきたが、ユーザと積極的にコラボレーションする能力はまだ未熟である。
マルチターン、選好駆動インタラクションにおいてエージェントを評価するために設計されたユーザ中心のベンチマークであるUserBenchを紹介する。
- 参考スコア(独自算出の注目度): 110.77212949007958
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs)-based agents have made impressive progress in reasoning and tool use, enabling them to solve complex tasks. However, their ability to proactively collaborate with users, especially when goals are vague, evolving, or indirectly expressed, remains underexplored. To address this gap, we introduce UserBench, a user-centric benchmark designed to evaluate agents in multi-turn, preference-driven interactions. UserBench features simulated users who start with underspecified goals and reveal preferences incrementally, requiring agents to proactively clarify intent and make grounded decisions with tools. Our evaluation of leading open- and closed-source LLMs reveals a significant disconnect between task completion and user alignment. For instance, models provide answers that fully align with all user intents only 20% of the time on average, and even the most advanced models uncover fewer than 30% of all user preferences through active interaction. These results highlight the challenges of building agents that are not just capable task executors, but true collaborative partners. UserBench offers an interactive environment to measure and advance this critical capability.
- Abstract(参考訳): 大きな言語モデル(LLM)ベースのエージェントは、推論とツールの使用において驚くべき進歩を遂げ、複雑なタスクを解決した。
しかし、特に目標が曖昧で、進化し、間接的に表現されている場合、ユーザーと積極的に協力する能力はいまだに未熟である。
このギャップに対処するために、マルチターン、嗜好駆動インタラクションにおけるエージェントの評価を目的とした、ユーザ中心のベンチマークであるUserBenchを紹介する。
UserBenchは、未特定の目標から始まり、徐々に好みを明らかにするシミュレートされたユーザーを特徴付けており、エージェントは積極的に意図を明確にし、ツールを使って決定を下す必要がある。
オープン・クローズド・ソース LLM の評価は,タスク完了とユーザアライメントの大幅な切り離しを明らかにした。
例えば、モデルがすべてのユーザの意図と完全に一致した回答を提供するのは、平均的な時間の20%に過ぎず、最も先進的なモデルでさえ、アクティブなインタラクションを通じてすべてのユーザの好みの30%未満を明らかにします。
これらの結果は、有能なタスク実行者だけでなく、真の協力的なパートナーであるエージェントを構築する際の課題を浮き彫りにしている。
UserBenchは、この重要な能力を測定し、前進するためのインタラクティブな環境を提供する。
関連論文リスト
- PersonaAgent: When Large Language Model Agents Meet Personalization at Test Time [87.99027488664282]
PersonaAgentは、汎用的なパーソナライゼーションタスクに対処するために設計されたフレームワークである。
パーソナライズされたメモリモジュールとパーソナライズされたアクションモジュールを統合する。
テストタイムのユーザ嗜好アライメント戦略は、リアルタイムのユーザの嗜好アライメントを保証する。
論文 参考訳(メタデータ) (2025-06-06T17:29:49Z) - Creating General User Models from Computer Use [62.91116265732001]
本稿では,コンピュータとのインタラクションを観察することでユーザについて学習する汎用ユーザモデル(GUM)のアーキテクチャを提案する。
GUMは、ユーザ(例えばデバイスのスクリーンショット)の非構造化観察を入力として受け取り、ユーザの知識と好みをキャプチャする信頼度重み付け命題を構築する。
論文 参考訳(メタデータ) (2025-05-16T04:00:31Z) - ReSpAct: Harmonizing Reasoning, Speaking, and Acting Towards Building Large Language Model-Based Conversational AI Agents [11.118991548784459]
大規模言語モデル(LLM)ベースのエージェントは、ますます外部環境との対話に使われている。
ReSpActは、タスク解決のための推論、意思決定、動的対話をシームレスに統合するように設計されている。
タスク指向対話システム(MultiWOZ)や意思決定タスク(ALFWorld, WebShop)を含むユーザインタラクション設定におけるReSpActの評価を行う。
論文 参考訳(メタデータ) (2024-11-01T15:57:45Z) - Tell Me More! Towards Implicit User Intention Understanding of Language
Model Driven Agents [110.25679611755962]
現在の言語モデル駆動エージェントは、しばしば効果的なユーザ参加のメカニズムを欠いている。
Intention-in-Interaction (IN3) は明示的なクエリを通してユーザの暗黙の意図を検査するための新しいベンチマークである。
私たちは、タスクの曖昧さを積極的に評価し、ユーザの意図を問う強力なモデルであるMistral-Interactを経験的に訓練し、それらを実行可能な目標へと洗練させます。
論文 参考訳(メタデータ) (2024-02-14T14:36:30Z) - AgentCF: Collaborative Learning with Autonomous Language Agents for
Recommender Systems [112.76941157194544]
本稿では,エージェントベースの協調フィルタリングにより,レコメンデータシステムにおけるユーザとイテムのインタラクションをシミュレートするエージェントCFを提案する。
我々は、ユーザだけでなく、アイテムをエージェントとして、創造的に考慮し、両方のエージェントを同時に最適化する協調学習アプローチを開発します。
全体として、最適化されたエージェントは、ユーザ・イテム、ユーザ・ユーザ・ユーザ、アイテム・イテム、集合的インタラクションなど、フレームワーク内での多様なインタラクションの振る舞いを示す。
論文 参考訳(メタデータ) (2023-10-13T16:37:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。