論文の概要: Step-level Optimization for Efficient Computer-use Agents
- arxiv url: http://arxiv.org/abs/2604.27151v1
- Date: Wed, 29 Apr 2026 19:59:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-01 16:31:53.784858
- Title: Step-level Optimization for Efficient Computer-use Agents
- Title(参考訳): 効率的なコンピュータ利用エージェントのステップレベル最適化
- Authors: Jinbiao Wei, Kangqi Ni, Yilun Zhao, Guo Gan, Arman Cohan,
- Abstract要約: 我々は、強力なコンピュータ利用エージェントは、実際は高価で遅いと論じている。
本稿では,コンピュータ利用エージェントのためのイベント駆動ステップレベルカスケードを提案する。
- 参考スコア(独自算出の注目度): 51.29573359027217
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Computer-use agents provide a promising path toward general software automation because they can interact directly with arbitrary graphical user interfaces instead of relying on brittle, application-specific integrations. Despite recent advances in benchmark performance, strong computer-use agents remain expensive and slow in practice, since most systems invoke large multimodal models at nearly every interaction step. We argue that this uniform allocation of compute is fundamentally inefficient for long-horizon GUI tasks. Such trajectories are highly heterogeneous: many steps are routine and can be handled reliably by smaller, cheaper policies, while errors tend to concentrate at a relatively small number of high-risk moments. Across computer-use benchmarks, these failures repeatedly take two forms: progress stalls, where the agent loops, repeats ineffective actions, or fails to make meaningful progress, and silent semantic drift, where the agent continues taking locally plausible actions after already deviating from the user's true goal. To address this inefficiency, we propose an event-driven, step-level cascade for computer-use agents that runs a small policy by default and escalates to a stronger model only when lightweight learned monitors detect elevated risk. Our framework combines two complementary signals: a Stuck Monitor that detects degraded progress from recent reasoning-action history and triggers recovery, and a Milestone Monitor that identifies semantically meaningful checkpoints where sparse verification is most informative for catching drift. This design turns always-on frontier-model inference into adaptive, on-demand compute allocation over the course of an evolving interaction. The framework is modular and deployment-oriented: it can be layered on top of existing computer-use agents without changing the underlying agent architecture or retraining the large model.
- Abstract(参考訳): コンピュータ利用エージェントは、不安定でアプリケーション固有の統合に頼るのではなく、任意のグラフィカルユーザインターフェースと直接対話できるため、一般的なソフトウェア自動化への有望な道を提供する。
近年のベンチマーク性能の進歩にもかかわらず、強力なコンピュータ利用エージェントは、ほとんどすべてのインタラクションステップにおいて大きなマルチモーダルモデルを呼び出すため、高価で実行が遅いままである。
この均一な計算割り当ては、長期GUIタスクには基本的に非効率である、と我々は主張する。
このような軌道は非常に異種であり、多くのステップはルーチンであり、より小さく安価なポリシーによって確実に処理できるが、エラーは比較的少数の高リスクモーメントに集中する傾向がある。
コンピュータ使用ベンチマーク全体で、これらの障害は2つの形式を繰り返す。プログレス・ストール(progress stalls)、エージェントがループを繰り返す、非効果的なアクションを繰り返す、あるいは意味のある進歩をしない、サイレント・セマンティック・ドリフト(Science semantic drift)。
この非効率性に対処するために、我々は、標準で小さなポリシーを実行し、軽量な学習モニタが高リスクを検出する場合にのみ、より強力なモデルにエスカレートする、コンピュータ利用エージェントのためのイベント駆動のステップレベルカスケードを提案する。
我々のフレームワークは2つの補完的な信号を組み合わせており、最近の推論行動履歴から劣化した進行を検知し、回復をトリガーするStuck Monitorと、漂流をキャッチするのに最も有効なスパース検証を行う意味的に意味のあるチェックポイントを識別するMilestone Monitorである。
この設計は、常にオンのフロンティアモデル推論を、進化する相互作用の過程で適応的でオンデマンドな計算割り当てに変換する。
基盤となるエージェントアーキテクチャを変更したり、大きなモデルを再トレーニングしたりすることなく、既存のコンピュータ利用エージェントの上にレイヤ化することができる。
関連論文リスト
- Anticipatory Planning for Multimodal AI Agents [77.62643381558613]
予測推論を明示的に訓練する2段階強化学習フレームワークであるTraceR1を紹介する。
TraceR1は、オンラインコンピュータ使用、オフラインコンピュータ使用ベンチマーク、マルチモーダルツール使用推論タスクを含む、7つのベンチマークで評価されている。
以上の結果から,予測軌道推論は,複雑な実環境において効果的に推論,計画,行動が可能なマルチモーダルエージェント構築の鍵となる原理であることが示唆された。
論文 参考訳(メタデータ) (2026-03-17T16:55:11Z) - AgentProcessBench: Diagnosing Step-Level Process Quality in Tool-Using Agents [50.481033105867205]
我々はAgentProcessBenchを紹介した。AgentProcessBenchは、現実的なツール拡張トラジェクトリにおけるステップレベルの有効性を評価するための最初のベンチマークである。
ベンチマークは、1,000の多様な軌跡と8,509の人間ラベル付きステップアノテーションと89.1%のアノテーション間合意で構成されている。
探索をキャプチャする3つのラベリングスキームと、ラベルのあいまいさを減らすためのエラー伝搬ルールを備えている。
論文 参考訳(メタデータ) (2026-03-15T16:13:58Z) - ANCHOR: Branch-Point Data Generation for GUI Agents [52.22377425487]
デスクトップ環境向けのエンドツーエンドGUIエージェントは、大量の高品質なインタラクションデータを必要とする。
本稿では,拡張フレームワークであるAnchorについて紹介する。このフレームワークは,小規模で検証済みのシードデモから,スケーラブルなデスクトップ監視をブートストラップする。
OSWorldとWindowsAgentArenaの標準デスクトップベンチマークの実験では、拡張されたコーパスに微調整されたモデルが一貫した改善を実現している。
論文 参考訳(メタデータ) (2026-02-06T19:55:26Z) - UltraCUA: A Foundation Model for Computer Use Agents with Hybrid Action [77.63125913907771]
本稿では,GUIプリミティブと高レベルのプログラムツールコールのギャップを埋める基盤モデルであるUltraCUAを提案する。
7Bおよび32Bモデルによる実験は、最先端のエージェントよりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-10-20T17:48:26Z) - Metacognitive Self-Correction for Multi-Agent System via Prototype-Guided Next-Execution Reconstruction [58.51530390018909]
大規模言語モデルに基づくマルチエージェントシステムは、協調的な問題解決において優れているが、エラーのカスケードには脆弱である。
我々は,MASにリアルタイム,教師なし,ステップレベルの誤り検出と自己補正を付与するメタ認知フレームワークMASCを提案する。
論文 参考訳(メタデータ) (2025-10-16T05:35:37Z) - AppAgentX: Evolving GUI Agents as Proficient Smartphone Users [34.70342284525283]
本稿では,インテリジェンスと柔軟性を維持しつつ,操作効率を向上させるGUIエージェントの進化的フレームワークを提案する。
本手法は,エージェントのタスク実行履歴を記録するメモリ機構を組み込んだものである。
複数のベンチマークタスクに対する実験結果から,本手法は既存の手法よりも効率と精度が優れていることが示された。
論文 参考訳(メタデータ) (2025-03-04T04:34:09Z) - Collaborative Inference for Efficient Remote Monitoring [34.27630312942825]
これをモデルレベルで解決するための簡単なアプローチは、より単純なアーキテクチャを使用することです。
本稿では,局所的なモニタリングツールとして機能する単純な関数の和として,予測モデルを分解した代替手法を提案する。
ローカル監視機能が安全であることを保証するために、後者にサイン要求が課される。
論文 参考訳(メタデータ) (2020-02-12T01:57:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。