論文の概要: Ask Now, Use Later: Benchmarking the Proactivity Gap in Long-Lived LLM Agents
- arxiv url: http://arxiv.org/abs/2605.28108v2
- Date: Thu, 28 May 2026 06:48:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:54.843352
- Title: Ask Now, Use Later: Benchmarking the Proactivity Gap in Long-Lived LLM Agents
- Title(参考訳): 長生きしたLSMエージェントのアクティビティギャップをベンチマークする
- Authors: Bin Wu, Guanyun Zou, Bingbing Wang, Huan Zhao, Chuan Shi,
- Abstract要約: LLMエージェントは、現在の要求だけでなく、セッション間でユーザーの好みに作用することで、その価値を得る。
しかし、今日のエージェントは、ユーザーがボランティアしているものを保ちますが、何があっても構わないのかを尋ねることはめったにありません。
ユーザーがより多くの問題をエージェントに委譲するにつれ、このギャップの影響は増大する。
ATRBenchは、各ユーザの好みを隠れた土台真理として固定することで測定できる。
- 参考スコア(独自算出の注目度): 18.132295539880896
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A long-lived LLM agent, such as OpenClaw, earns its value by acting on a user's preferences and constraints across sessions, not just the current request. Yet today's agents keep what a user volunteers but rarely ask for what stays unspoken, leaving a proactivity gap in long-lived LLM agents: an agent cannot act on a preference it never obtained. As users delegate more of their affairs to agents, the impact of this gap grows. We isolate one concrete, controllable slice of this gap as Ask-to-Remember (ATR): the agent decides whether to ask now for a reusable user preference that the current task does not need but a later session with the same user will. ATR is hard even to evaluate: the right question is underdetermined and its payoff deferred to tasks that may never arise. ATRBench, to the best of our knowledge the first ATR benchmark, makes it measurable by fixing each user's preferences as hidden ground truth, so success demands asking, not recall. Across eight frontier LLM agents, defaults fall at least 62 points below an oracle handed the relevant preference, and prompting closes little of it. Diagnostics identify acquisition as the bottleneck. ATRBench surfaces this proactivity gap in current agents and offers a diagnostic testbed for closing it.
- Abstract(参考訳): OpenClawのような長期間のLLMエージェントは、現在のリクエストだけでなく、セッション間のユーザの好みや制約に作用することで、その価値を得る。
しかし、今日のエージェントは、ユーザーがボランティアで何をするかを保っているが、何に反応しないのかを尋ねることは滅多になく、長寿命のLSMエージェントにプロアクティブなギャップを残している。
ユーザーがより多くの問題をエージェントに委譲するにつれ、このギャップの影響は増大する。
Ask-to-Remember (ATR: Ask-to-Remember) として,このギャップの具体的かつ制御可能なスライスを1つ分離する。
正しい質問は過小評価され、その支払いは決して発生しないかもしれないタスクに延期される。
ATRBenchは、私たちの知る限り、最初のATRベンチマークであり、各ユーザの好みを隠された根拠の真実として固定することで測定可能になります。
8つのフロンティア LLM エージェントにまたがって、デフォルトは少なくとも62ポイント以下で、関連する優先事項を渡され、そのほとんどをクローズする。
診断は、獲得をボトルネックとみなす。
ATRBenchは、現在のエージェントのこの活性ギャップを表面化し、それを閉じるための診断テストベッドを提供する。
関連論文リスト
- Anticipate and Learn: Unleashing Idle-Time Compute in Proactive Agents [51.46570338144688]
ProActは、アイドルタイム計算を利用して、今後のユーザニーズを予測し、満たすプロアクティブエージェントアーキテクチャである。
進化する対話履歴を永続記憶とともに解析することにより、ProActは今後のニーズを予測し、情報を反復的に取得する。
MemBenchの評価では、ProActが最先端の反射精度を達成し、持続的で堅牢な性能を裏付けている。
論文 参考訳(メタデータ) (2026-05-25T15:47:21Z) - Agents Explore but Agents Ignore: LLMs Lack Environmental Curiosity [12.381781997363609]
現在のLSMベースのエージェントは、予期せぬ情報を反映したり、反応したりするのに苦労している。
我々は、タスクのソリューションをモデルに意図的に公開するために、完全なタスクソリューションをエージェント環境に注入する。
エージェントは79~81%のランでターミナルベンチでこれらの解を発見するが、それらは37~50%のケースで相互作用し、悪用する。
論文 参考訳(メタデータ) (2026-04-19T20:49:41Z) - KnowU-Bench: Towards Interactive, Proactive, and Personalized Mobile Agent Evaluation [72.01173512175531]
KnowU-Benchはパーソナライズされたモバイルエージェントのためのオンラインベンチマークである。
42のGUIタスク、86のパーソナライズされたタスク、64のプロアクティブタスクをカバーしている。
明示的なタスク実行に優れるエージェントは、あいまいな指示の下で50%以下に低下する。
論文 参考訳(メタデータ) (2026-04-09T16:50:50Z) - Ask or Assume? Uncertainty-Aware Clarification-Seeking in Coding Agents [4.301199871195023]
大規模言語モデル(LLM)エージェントは、ソフトウェア工学のようなオープンなドメインにますますデプロイされています。
我々は, SWE-bench Verified の未特定変種に対する LLM エージェントの解明と探索能力を評価する。
コード実行から不特定性検出を明示的に分離する不確実性認識型マルチエージェントスキャフォールドを提案する。
論文 参考訳(メタデータ) (2026-03-27T09:56:26Z) - CAR-bench: Evaluating the Consistency and Limit-Awareness of LLM Agents under Real-World Uncertainty [8.976559755301658]
LLM(Large Language Model)エージェントの既存のベンチマークは、理想主義的な設定下でのタスク補完に焦点を当てている。
CAR-benchは、車内アシスタントドメインにおいて、多ターンツールを用いたLLMエージェントにおいて、一貫性、不確実性ハンドリング、能力意識を評価するためのベンチマークである。
論文 参考訳(メタデータ) (2026-01-29T17:33:42Z) - Are Your Agents Upward Deceivers? [73.1073084327614]
大規模言語モデル(LLM)ベースのエージェントは、ユーザのためにタスクを実行する自律的な従属者として、ますます使われています。
これは、人間の組織の個人がどのように上官に嘘をついて良いイメージを作り出したり、罰を免れるかのような、詐欺にも関与するかどうかという問題を提起する。
本研究では,環境制約に直面するエージェントが障害を隠蔽し,報告なしに要求されない動作を行う現象であるエージェント上行錯誤を観察・定義する。
論文 参考訳(メタデータ) (2025-12-04T14:47:05Z) - LLM Agents Beyond Utility: An Open-Ended Perspective [50.809163251551894]
我々は、事前訓練されたLLMエージェントを、自身のタスクを生成し、知識を蓄積し、その環境と広範囲に相互作用する能力で強化する。
複雑なマルチステップ命令を確実に追跡し、実行中に情報を保存、再利用し、独自のタスクを提案し、解決することができる。
迅速な設計や反復的なタスク生成に敏感であり、自己表現を形成することができない。
論文 参考訳(メタデータ) (2025-10-16T10:46:54Z) - UserBench: An Interactive Gym Environment for User-Centric Agents [110.77212949007958]
LLM(Large Language Models)ベースのエージェントは、推論とツールの使用において、目覚ましい進歩を遂げてきたが、ユーザと積極的にコラボレーションする能力はまだ未熟である。
マルチターン、選好駆動インタラクションにおいてエージェントを評価するために設計されたユーザ中心のベンチマークであるUserBenchを紹介する。
論文 参考訳(メタデータ) (2025-07-29T17:34:12Z) - Agent-Based Detection and Resolution of Incompleteness and Ambiguity in Interactions with Large Language Models [0.9856777842758593]
本稿では, LLMに基づく質問応答システムにエージェント・ベース・アーキテクチャを付加的な推論能力で活用することを検討した。
我々は、不完全性と曖昧性の欠陥を検知し解決する専門家として働くエージェントを、異なるLLMに装備する。
エージェントベースのアプローチを提案することは、LLMのパワーを利用してより堅牢なQAシステムを開発するための有用なメカニズムである。
論文 参考訳(メタデータ) (2025-07-04T17:28:33Z) - ADAPT: Actively Discovering and Adapting to Preferences for any Task [34.92667747380468]
エージェントが様々な家庭のタスクにまたがってユーザの嗜好に順応する能力を評価するためのベンチマークを,アクティブな質問を通じて導入する。
次に,大規模言語モデルを積極的に質問するタスクに適用するための新しい訓練手法であるReflection-DPOを提案する。
従来のLLMは疑わしい質問や誘惑された嗜好への固執が不十分であったため,ADAPTにおけるユーザの嗜好に十分従わないことが判明した。
論文 参考訳(メタデータ) (2025-04-05T03:16:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。