論文の概要: $π$-Bench: Evaluating Proactive Personal Assistant Agents in Long-Horizon Workflows
- arxiv url: http://arxiv.org/abs/2605.14678v3
- Date: Tue, 19 May 2026 02:06:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:08.357872
- Title: $π$-Bench: Evaluating Proactive Personal Assistant Agents in Long-Horizon Workflows
- Title(参考訳): $π$-Bench: 長期ワークフローにおけるアクティブなパーソナルアシスタントエージェントの評価
- Authors: Haoran Zhang, Luxin Xu, Zhilin Wang, Runquan Gui, Shunkai Zhang, Haodi Lei, Zihao He, Bingsu He, Chicheng Qin, Tong Zhu, Xiaoye Qu, Yang Yang, Yu Cheng, Yafu Li,
- Abstract要約: $$-Benchは、5つのドメイン固有のユーザペルソナにわたる100のマルチターンタスクからなるプロアクティブアシストのベンチマークである。
隠れたユーザインテント、タスク間の依存関係、セッション間の連続性によって、$$$-Benchは、拡張されたインタラクションよりもユーザニーズを予測し、対処するエージェントの能力を評価する。
- 参考スコア(独自算出の注目度): 42.58170802121853
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rise of personal assistant agents, e.g., OpenClaw, highlights the growing potential of large language models to support users across everyday life and work. A core challenge in these settings is proactive assistance, since users often begin with underspecified requests and leave important needs, constraints, or preferences unstated. However, existing benchmarks rarely evaluate whether agents can identify and act on such hidden intents before they are explicitly stated, especially in sustained multi-turn interactions where user needs emerge gradually. To address this gap, we introduce $π$-Bench, a benchmark for proactive assistance comprising 100 multi-turn tasks across 5 domain-specific user personas. By incorporating hidden user intents, inter-task dependencies, and cross-session continuity, $π$-Bench evaluates agents' ability to anticipate and address user needs over extended interactions, jointly measuring proactivity and task completion in long-horizon trajectories that better reflect real-world use. Experiments show (1) proactive assistance remains challenging, (2) a clear distinction between task completion and proactivity, and (3) the value of prior interaction for proactive intent resolution in later tasks.
- Abstract(参考訳): パーソナルアシスタントエージェント(例えばOpenClaw)の台頭は、日々の生活や仕事でユーザをサポートするための大きな言語モデルの増加の可能性を浮き彫りにしている。
ユーザが不特定なリクエストから始めて、重要なニーズや制約、選好を未定のままにしておくことが少なくないからだ。
しかし、既存のベンチマークでは、明示される前にエージェントがそのような隠された意図を識別し、行動できるかどうかをほとんど評価していない。
このギャップに対処するために,5つのドメイン固有のユーザ・ペルソナにまたがる100のマルチターンタスクからなるプロアクティブ・アシストのベンチマークである$π$-Benchを導入する。
隠れたユーザ意図、タスク間の依存関係、およびセッション間の連続性を取り入れることで、$π$-Benchは、エージェントがユーザニーズを予測し、拡張されたインタラクションに対処する能力を評価し、現実世界の使用をよりよく反映した長い水平軌跡における活動性とタスク完了を共同で測定する。
実験の結果,(1)能動支援は依然として困難であり,(2)課題完了と能動の明確な区別,(3)後続の課題における能動的意図解決のための先行的相互作用の価値が示された。
関連論文リスト
- Pro$^2$Assist: Continuous Step-Aware Proactive Assistance with Multimodal Egocentric Perception for Long-Horizon Procedural Tasks [3.0877037234777944]
Pro$2$Assistは、手続きタスクのためのステップアウェアなプロアクティブアシスタントである。
Pro$2$Assistは、タイムリーなアシストを提供するために、ユーザの進化状態に関するきめ細かいタスクの進捗と理由を追跡する。
Pro$2$Assistを、公開ソースからキュレートされたデータセットと、テストベッドでARメガネで収集された実世界のデータセットを用いて評価した。
論文 参考訳(メタデータ) (2026-05-05T19:12:11Z) - The PROPER Approach to Proactivity: Benchmarking and Advancing Knowledge Gap Navigation [17.97529450470058]
ほとんどの言語ベースのアシスタントはリアクティブなQ&Aパラダイムに従っており、ユーザは自身のニーズを明示的に表現する必要がある。
次元生成エージェント(DGA)と応答生成エージェント(RGA)を組み合わせた新しい2エージェントアーキテクチャであるProPerを紹介する。
RGAは明示的および暗黙的な次元のバランスをとり、タイムリーかつ積極的な介入でパーソナライズされた応答を調整する。
以上の結果から,ProPerはすべての領域における品質スコアと勝利率を改善し,シングルターン評価において最大84%,マルチターンインタラクションにおいて一貫した優位性を実現した。
論文 参考訳(メタデータ) (2026-01-14T23:13:01Z) - Completion $\neq$ Collaboration: Scaling Collaborative Effort with Agents [48.95020665909723]
タスク完了エージェントの構築と評価から,協調エージェントの開発への移行を議論する。
エージェントのユーティリティがユーザ関与の増加とともにどのように成長するかをキャプチャするフレームワークであるコラボレーティブ・ワーク・スケーリングを紹介します。
論文 参考訳(メタデータ) (2025-10-29T17:47:18Z) - UserBench: An Interactive Gym Environment for User-Centric Agents [110.77212949007958]
LLM(Large Language Models)ベースのエージェントは、推論とツールの使用において、目覚ましい進歩を遂げてきたが、ユーザと積極的にコラボレーションする能力はまだ未熟である。
マルチターン、選好駆動インタラクションにおいてエージェントを評価するために設計されたユーザ中心のベンチマークであるUserBenchを紹介する。
論文 参考訳(メタデータ) (2025-07-29T17:34:12Z) - ReSpAct: Harmonizing Reasoning, Speaking, and Acting Towards Building Large Language Model-Based Conversational AI Agents [11.118991548784459]
大規模言語モデル(LLM)ベースのエージェントは、ますます外部環境との対話に使われている。
ReSpActは、タスク解決のための推論、意思決定、動的対話をシームレスに統合するように設計されている。
タスク指向対話システム(MultiWOZ)や意思決定タスク(ALFWorld, WebShop)を含むユーザインタラクション設定におけるReSpActの評価を行う。
論文 参考訳(メタデータ) (2024-11-01T15:57:45Z) - Tell Me More! Towards Implicit User Intention Understanding of Language
Model Driven Agents [110.25679611755962]
現在の言語モデル駆動エージェントは、しばしば効果的なユーザ参加のメカニズムを欠いている。
Intention-in-Interaction (IN3) は明示的なクエリを通してユーザの暗黙の意図を検査するための新しいベンチマークである。
私たちは、タスクの曖昧さを積極的に評価し、ユーザの意図を問う強力なモデルであるMistral-Interactを経験的に訓練し、それらを実行可能な目標へと洗練させます。
論文 参考訳(メタデータ) (2024-02-14T14:36:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。