論文の概要: Claw-Anything: Benchmarking Always-On Personal Assistants with Broader Access to User's Digital World
- arxiv url: http://arxiv.org/abs/2605.26086v1
- Date: Mon, 25 May 2026 17:50:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:20.630085
- Title: Claw-Anything: Benchmarking Always-On Personal Assistants with Broader Access to User's Digital World
- Title(参考訳): Claw-Anything: ユーザのデジタルワールドへのより広いアクセスが可能なパーソナルアシスタントのベンチマーク
- Authors: Yusong Lin, Xinyuan Liang, Haiyang Wang, Qipeng Gu, Siqi Cheng, Jiangui Chen, Shuzhe Wu, Feiyang Pan, Lue Fan, Sanyuan Zhao, Dandan Tu,
- Abstract要約: 大規模言語モデルエージェントは、ユーザのデジタル世界に関連するものにアクセス可能な、常時オンのパーソナルアシスタントとして想定される。
エージェントコンテキストを3次元に拡張するベンチマークであるClaw-Anythingを紹介する。
複数ラウンドのイベントインジェクションによって数ヶ月のユーザアクティビティをシミュレートし、複雑な世界状態と現実的なノイズを発生させる。
- 参考スコア(独自算出の注目度): 24.419180290465892
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language model agents are increasingly envisioned as always-on personal assistants with access to anything relevant in the user's digital world. Yet current systems operate over only narrow slices of that world, limiting context-sensitive reasoning and effective assistance. Existing benchmarks similarly provide only partial user state and therefore fail to capture performance in such a broad, always-on setting. To address this gap, we introduce Claw-Anything, a benchmark that expands agent context along three dimensions: long-horizon activity histories, interdependent backend services, and integrated GUI and CLI interaction across multiple devices. To instantiate this setting, we simulate months of user activity through multi-round event injection, producing complex world states and realistic noise, including irrelevant events and conflicting signals. Agents must reason over rich contextual environments while remaining robust to such noise. This expanded scope also enables the evaluation of proactive assistance, requiring agents to anticipate user needs and deliver timely recommendations. Experiments show that GPT-5.5 achieves only 34.5% pass@1, substantially below prior benchmarks, underscoring a gap between current agent capabilities and the demands of always-on personal assistance. Alongside the benchmark, we release an automated data-generation pipeline that yields 2,000 training environments and improves the base model by 23.7%, demonstrating its utility of scalable data infrastructure.
- Abstract(参考訳): 大規模言語モデルエージェントは、ユーザのデジタル世界に関連するものにアクセス可能な常時オンのパーソナルアシスタントとして、ますます想定されている。
しかし、現在のシステムは、文脈に敏感な推論と効果的な支援を制限して、その世界の狭い部分でのみ動作する。
既存のベンチマークも同様に、部分的なユーザ状態しか提供しないため、このような広範かつ常時オンな環境でのパフォーマンスをキャプチャできない。
このギャップに対処するため、私たちはClaw-Anythingという3つの次元に沿ってエージェントコンテキストを拡張するベンチマークを紹介した。
この設定をインスタンス化するために、複数ラウンドのイベントインジェクションによって数ヶ月のユーザアクティビティをシミュレートし、無関係なイベントや競合する信号を含む複雑な世界状態と現実的なノイズを発生させる。
エージェントは、そのようなノイズに頑健でありながら、リッチなコンテキスト環境を推論しなければなりません。
この拡張されたスコープはまた、積極的な支援の評価を可能にし、エージェントはユーザーニーズを予測し、タイムリーなレコメンデーションを提供する必要がある。
実験の結果、GPT-5.5は34.5%のパス@1しか達成せず、これは前回のベンチマークよりかなり低い結果であり、現在のエージェント能力と常駐の個人支援の需要とのギャップを浮き彫りにしている。
ベンチマークに加えて、2000のトレーニング環境を生成し、ベースモデルを23.7%改善する自動データ生成パイプラインをリリースし、スケーラブルなデータインフラストラクチャの有用性を実証しています。
関連論文リスト
- LiveAgentBench: Comprehensive Benchmarking of Agentic Systems Across 104 Real-World Challenges [34.17635007594549]
実ユーザ要求を反映した104のシナリオを備えた総合ベンチマークであるLiveAgentBenchを紹介します。
ソーシャルメディアや現実世界の製品に関する公開の質問から構築されている。
このリリースには374のタスクと125のバリデーション、249のテストが含まれている。
論文 参考訳(メタデータ) (2026-03-03T04:03:05Z) - User-Oriented Multi-Turn Dialogue Generation with Tool Use at scale [5.641245411366927]
タスク指向型マルチターン対話を大規模に自動生成するフレームワークを開発した。
我々の生成パイプラインは、任意の状態から生成を開始することができる汎用的なプラグイン・アンド・プレイモジュールとして動作します。
実世界の人間とエージェントの相互作用の多面的要求を反映した高密度データセットを提供する。
論文 参考訳(メタデータ) (2026-01-13T05:14:09Z) - Mem-PAL: Towards Memory-based Personalized Dialogue Assistants for Long-term User-Agent Interaction [55.24448139349266]
PAL-Benchは、長期ユーザエージェントインタラクションにおけるサービス指向アシスタントのパーソナライズ機能を評価するために設計された新しいベンチマークである。
サービス指向のインタラクションをパーソナライズするために、階層的で異質なメモリフレームワークであるH$2$Memoryを提案する。
論文 参考訳(メタデータ) (2025-11-17T14:22:32Z) - VitaBench: Benchmarking LLM Agents with Versatile Interactive Tasks in Real-world Applications [20.065087936770215]
実世界の環境に根ざした多目的対話型タスクのエージェントを評価するベンチマークであるVitaBenchを紹介する。
VitaBenchは、66のツールを含む、これまでで最も複雑な生命維持シミュレーション環境を持つエージェントを提示する。
総合評価の結果,最も先進的なモデルでさえ,クロスシナリオタスクにおいて30%の成功率しか達成できないことがわかった。
論文 参考訳(メタデータ) (2025-09-30T16:33:49Z) - AgentCPM-GUI: Building Mobile-Use Agents with Reinforcement Fine-Tuning [82.42421823672954]
AgentCPM-GUIは、堅牢で効率的なオンデバイスGUIインタラクションのために構築されている。
私たちのトレーニングパイプラインには、知覚を高めるためのグラウンドアウェア事前トレーニングが含まれています。
AgentCPM-GUIは5つの公開ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-06-02T07:30:29Z) - Iris: Breaking GUI Complexity with Adaptive Focus and Self-Refining [67.87810796668981]
インフォメーション・インフォメーション・インフォメーション・クロッピング(ISC)と自己精製デュアルラーニング(SRDL)
Irisは850KのGUIアノテーションだけで、複数のベンチマークで最先端のパフォーマンスを実現している。
これらの改善は、WebとOSエージェントの両方の下流タスクで大幅に向上した。
論文 参考訳(メタデータ) (2024-12-13T18:40:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。