論文の概要: On the Reliability of Computer Use Agents
- arxiv url: http://arxiv.org/abs/2604.17849v1
- Date: Mon, 20 Apr 2026 05:59:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.720908
- Title: On the Reliability of Computer Use Agents
- Title(参考訳): コンピュータ利用エージェントの信頼性について
- Authors: Gonzalo Gonzalez-Pumariega, Saaket Agashe, Jiachen Yang, Ang Li, Xin Eric Wang,
- Abstract要約: コンピュータ利用エージェントの信頼性の低下の原因を3つの要因から検討する。
信頼性は、タスクの指定方法と、エージェントの動作が実行毎に変化する方法の両方に依存します。
- 参考スコア(独自算出の注目度): 47.20065484006984
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Computer-use agents have rapidly improved on real-world tasks such as web navigation, desktop automation, and software interaction, in some cases surpassing human performance. Yet even when the task and model are unchanged, an agent that succeeds once may fail on a repeated execution of the same task. This raises a fundamental question: if an agent can succeed at a task once, what prevents it from doing so reliably? In this work, we study the sources of unreliability in computer-use agents through three factors: stochasticity during execution, ambiguity in task specification, and variability in agent behavior. We analyze these factors on OSWorld using repeated executions of the same task together with paired statistical tests that capture task-level changes across settings. Our analysis shows that reliability depends on both how tasks are specified and how agent behavior varies across executions. These findings suggest the need to evaluate agents under repeated execution, to allow agents to resolve task ambiguity through interaction, and to favor strategies that remain stable across runs.
- Abstract(参考訳): コンピュータ利用エージェントは、Webナビゲーション、デスクトップ自動化、ソフトウェアインタラクションといった現実世界のタスクで急速に改善されている。
しかし、タスクとモデルが変更されていない場合でも、一度成功したエージェントは、同じタスクの繰り返し実行で失敗する可能性がある。
エージェントが一度タスクを成功させることができれば、それが確実にできないのはなぜか、という根本的な疑問が提起される。
本研究では,実行時の確率性,タスク仕様のあいまいさ,エージェント動作のばらつきという3つの要因を通じて,コンピュータ利用エージェントの不確実性の原因について検討する。
我々は、同じタスクを繰り返し実行するOSWorld上のこれらの要因を、設定間でタスクレベルの変化をキャプチャするペア統計テストと共に分析する。
我々の分析によると、信頼性はタスクの指定方法とエージェントの動作が実行毎に異なることの両方に依存している。
これらの知見は、繰り返し実行されるエージェントを評価すること、エージェントが相互作用を通してタスクのあいまいさを解決すること、そして実行中に安定した戦略を選択することの必要性を示唆している。
関連論文リスト
- Agent Mentor: Framing Agent Knowledge through Semantic Trajectory Analysis [4.365760422569902]
我々は、Agent Mentorオープンソースライブラリの一部として実装された分析パイプラインを紹介する。
システムの監視と漸進的な適応によって、他のエージェントの振る舞いを定義する。
パイプラインは、エージェントの知識に修正命令を体系的に注入することで、パフォーマンスを向上させる。
論文 参考訳(メタデータ) (2026-04-12T08:02:54Z) - Persuasion Propagation in LLM Agents [23.64887423923855]
教義レベルの介入が下流の作業行動にどのように影響するかを考察する。
ウェブ調査やコーディングタスクを通じて、オンザフライの説得は弱く一貫性のない行動効果をもたらすことが判明した。
信念状態がタスク時に明示的に指定されると、信念に満たされたエージェントは、平均26.9%の検索率で行動し、16.9%のユニークソースを中立に満たされたエージェントより訪問する。
論文 参考訳(メタデータ) (2026-01-31T18:33:14Z) - The Why Behind the Action: Unveiling Internal Drivers via Agentic Attribution [63.61358761489141]
LLM(Large Language Model)ベースのエージェントは、カスタマーサービス、Webナビゲーション、ソフトウェアエンジニアリングといった現実世界のアプリケーションで広く使われている。
本稿では,タスク結果に関係なく,エージェントの動作を駆動する内部要因を識別する,テキスト汎用エージェント属性のための新しいフレームワークを提案する。
標準ツールの使用やメモリ誘起バイアスのような微妙な信頼性リスクなど、さまざまなエージェントシナリオでフレームワークを検証する。
論文 参考訳(メタデータ) (2026-01-21T15:22:21Z) - Understanding Code Agent Behaviour: An Empirical Study of Success and Failure Trajectories [10.751728274263536]
本稿では,エージェントのトラジェクトリ,すなわちソフトウェア問題の解決に際し,エージェントが行うステップを捉えた実行トレースについて,実証的研究を行う。
我々は、SWE-Benchベンチマークで、最先端の3つのコードエージェント(OpenHands、SWE-agent、Prometheus)の軌跡を分析し、成功と失敗の両方について検討した。
論文 参考訳(メタデータ) (2025-10-31T18:58:13Z) - Impatient Users Confuse AI Agents: High-fidelity Simulations of Human Traits for Testing Agents [58.00130492861884]
TraitBasisは、AIエージェントを体系的にストレステストするための軽量でモデルに依存しない方法である。
TraitBasisは、ステアブルなユーザ特性に対応するアクティベーション空間で方向を学習する。
We observed on average a 2%-30% performance degradation on $tau$-Trait across frontier model。
論文 参考訳(メタデータ) (2025-10-06T05:03:57Z) - XAgents: A Unified Framework for Multi-Agent Cooperation via IF-THEN Rules and Multipolar Task Processing Graph [14.273739638741139]
XAgentsはマルチポーラタスク処理グラフとIF-THENルールに基づいて構築された統合マルチエージェント協調フレームワークである。
XAgentsは、知識型および論理型問合せタスクの両方において、最先端のシングルエージェントおよびマルチエージェントアプローチを一貫して超越している。
論文 参考訳(メタデータ) (2025-09-12T08:40:58Z) - Preventing Rogue Agents Improves Multi-Agent Collaboration [21.955058255432974]
本稿では,アクション予測中にエージェントを監視し,将来エラーが発生する可能性がある場合に介入することを提案する。
WhoDunitEnv、コード生成タスク、そしてリソース持続可能性のためのGovSim環境の実験は、我々のアプローチがパフォーマンスを大幅に向上させることを示している。
論文 参考訳(メタデータ) (2025-02-09T18:35:08Z) - On the Resilience of LLM-Based Multi-Agent Collaboration with Faulty Agents [58.79302663733703]
大規模言語モデルに基づくマルチエージェントシステムは、専門家エージェントの協力により、様々なタスクにまたがる優れた能力を示している。
不器用なエージェントや悪意のあるエージェントが与える影響 - システム全体のパフォーマンスにおいて、頻繁にタスクでエラーを犯すものは、いまだに過小評価されていない。
本稿では,下流タスクにおける障害要因下での各種システム構造のレジリエンスについて検討する。
論文 参考訳(メタデータ) (2024-08-02T03:25:20Z) - Explaining Reinforcement Learning Policies through Counterfactual
Trajectories [147.7246109100945]
人間の開発者は、RLエージェントがテスト時にうまく機能することを検証しなければならない。
本手法では, エージェントの挙動をより広い軌道分布で示すことにより, エージェントの挙動を分布変化下で表現する。
本研究では,2つのエージェント検証タスクのうちの1つに対して,ベースライン法よりも優れたスコアを得られることを示す。
論文 参考訳(メタデータ) (2022-01-29T00:52:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。