論文の概要: Recovering Policy-Induced Errors: Benchmarking and Trajectory Synthesis for Robust GUI Agents
- arxiv url: http://arxiv.org/abs/2605.29447v1
- Date: Thu, 28 May 2026 06:40:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:55.860843
- Title: Recovering Policy-Induced Errors: Benchmarking and Trajectory Synthesis for Robust GUI Agents
- Title(参考訳): ポリシー誘発エラーの回復:ロバストGUIエージェントのベンチマークと軌道合成
- Authors: Tianpeng Bu, Xin Liu, Qihua Chen, Hao Jiang, Shurui Li, Hongtao Duan, Lu Jiang, Lulu Hu, Bin Yang, Minying Zhang,
- Abstract要約: GUI-RobustEvalには、エラー回復能力を計測する実行可能なテストケースが1216ドル含まれている。
データレベルでは、RoTSはスケーラブルな合成フレームワークであり、800k$の高品質なデータを生成する。
RoTS-32BはOSWorldで最先端のパフォーマンスを達成し、成功率は47.4%、All-Pass@4スコアは33.8%だった。
- 参考スコア(独自算出の注目度): 17.114996823624907
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While GUI agents have advanced rapidly, they often lack the robustness to recover from their own errors, hindering real-world deployment. To bridge this gap at both the evaluation and data levels, we introduce GUI-RobustEval and propose Robustness-driven Trajectory Synthesis. GUI-RobustEval contains $1,216$ executable test cases that systematically measure error recovery capabilities across a broad and realistic spectrum of error modes. At the data level, RoTS is a scalable synthesis framework that creates $800k$ high-quality data via a tree-based pipeline that proactively discovers diverse error modes and synthesizes corresponding recovery steps. Our two models, RoTS-7B and RoTS-32B, fine-tuned on our dataset, both demonstrate significant gains on GUI-RobustEval and traditional GUI benchmarks. Notably, RoTS-32B achieves state-of-the-art performance on OSWorld, with a $47.4\%$ success rate and a $33.8\%$ All-Pass@4 score, suggesting that improved long-horizon error recovery ability contributes to both robustness and overall performance. Our code is available at https://github.com/AlibabaResearch/RoTS.
- Abstract(参考訳): GUIエージェントは急速に進歩しているが、しばしば自身のエラーから回復する堅牢さに欠け、現実世界のデプロイメントを妨げている。
このギャップを評価レベルとデータレベルの両方で埋めるため、GUI-RobustEvalを導入し、ロバストネス駆動軌道合成を提案する。
GUI-RobustEvalには、広範かつ現実的なエラーモードの範囲でエラー回復能力を体系的に測定する、1216ドルの実行可能なテストケースが含まれている。
データレベルでは、RoTSはスケーラブルな合成フレームワークで、ツリーベースのパイプラインを通じて800k$の高品質なデータを生成し、さまざまなエラーモードを積極的に検出し、対応するリカバリステップを合成する。
当社の2つのモデルであるRoTS-7BとRoTS-32Bは,いずれもGUI-RobustEvalと従来のGUIベンチマークで大きく向上している。
特に、RoTS-32BはOSWorldの最先端のパフォーマンスを実現し、47.4\%の成功率と33.8\%のAll-Pass@4スコアを持つ。
私たちのコードはhttps://github.com/AlibabaResearch/RoTS.comで利用可能です。
関連論文リスト
- Executable Agentic Memory for GUI Agent [14.354806365195854]
構造化知識グラフ(KG)であるExecutable Agentic Memory(EAM)を提案する。
EAMはGUIプランニングをフリーフォーム生成から堅牢な検索・実行プロセスに移行する。
平均レイテンシが2.8ドルで、EAMは信頼性、迅速、長期のGUI自動化を可能にする。
論文 参考訳(メタデータ) (2026-05-12T15:48:44Z) - TermiGen: High-Fidelity Environment and Robust Trajectory Synthesis for Terminal Agents [70.68963723787424]
TermiGenは検証可能な環境とレジリエントな専門家軌道を合成するためのエンドツーエンドパイプラインである。
TermiGen-Qwen2.5-Coder-32B は TerminalBench 上で 31.3% のパスレートを達成した。
論文 参考訳(メタデータ) (2026-02-06T23:56:50Z) - OS-Oracle: A Comprehensive Framework for Cross-Platform GUI Critic Models [54.44308299945632]
クロスプラットフォームGUI批判データのためのスケーラブルなデータパイプライン、教師付き微調整と一貫性保護グループによる相対的なポリシー最適化を組み合わせた2段階のトレーニングパラダイム、モバイル、Web、デスクトッププラットフォームにおける批判モデルのパフォーマンスを評価するための総合ベンチマークであるOS-Critic Benchの3つのコアコントリビューションを紹介します。
結果として得られた批判モデルであるOS-Oracle-7Bは、OS-Critic Bench上のオープンソースのVLMの最先端のパフォーマンスを達成し、モバイルドメインのプロプライエタリモデルを上回っている。
論文 参考訳(メタデータ) (2025-12-18T08:29:50Z) - GUI-360$^\circ$: A Comprehensive Dataset and Benchmark for Computer-Using Agents [59.107657859025586]
GUI-360$circ$は、コンピュータ利用エージェント(CUA)を進化させるために設計された大規模で包括的なデータセットとベンチマークスイートである。
リリースされたコーパスには、人気のあるWindowsオフィスアプリケーションにおける数千のトラジェクトリにわたる1.2万以上の実行されたアクションステップが含まれている。
このデータセットは、3つの標準タスク、GUIグラウンド、スクリーン解析、アクション予測、ハイブリッドGUI+APIアクションスペースをサポートする。
論文 参考訳(メタデータ) (2025-11-06T12:19:02Z) - UI-TARS-2 Technical Report: Advancing GUI Agent with Multi-Turn Reinforcement Learning [155.51875080423883]
グラフィカルユーザインタフェースのための自律エージェントの開発は、人工知能における大きな課題を示している。
本稿では,GUI中心のエージェントモデルであるUI-TARS-2を提案する。
実証的な評価では、UI-TARS-2は以前のUI-TARS-1.5よりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-09-02T17:44:45Z) - NatureGAIA: Pushing the Frontiers of GUI Agents with a Challenging Benchmark and High-Quality Trajectory Dataset [16.676904484703]
本稿ではCausal Pathwaysの原理に基づく新しいベンチマークであるNaturalGAIAを紹介する。
このパラダイムは複雑なタスクを検証可能な一連の原子ステップに構造化し、厳密で完全に自動化され、再現可能な評価基準を保証する。
次に、このデータセットを用いて、Q2.5-VL-7Bモデル上でReinforcement FineTuning(RFT)を行う。
論文 参考訳(メタデータ) (2025-08-02T11:53:41Z) - GUI-Robust: A Comprehensive Dataset for Testing GUI Agent Robustness in Real-World Anomalies [34.63675989928621]
本稿ではGUIエージェント評価のための新しいデータセットであるGUI-Robustを紹介する。
また、RPAツールを介して自然なインタラクションからユーザアクションシーケンスを収集する半自動データセット構築パラダイムを提案する。
このパラダイムは、アノテーションの時間コストを19倍以上削減します。
GUI-Robustデータセットを用いて最先端のGUIエージェントを評価し,異常なシナリオにおける性能劣化を明らかにした。
論文 参考訳(メタデータ) (2025-06-17T12:50:35Z) - SWE-Synth: Synthesizing Verifiable Bug-Fix Data to Enable Large Language Models in Resolving Real-World Bugs [10.70881967278009]
本稿では,現実的な検証可能な,プロセス対応のバグフィックスデータセットをリポジトリレベルで合成するフレームワークであるSWE- Synthを紹介する。
手作業で収集したデータセットと比較して、文脈的豊かさと正確さを保ちながら、最小限の人的労力でスケールする。
この結果から,APRとソフトウェア工学の自動化の最先端を推し進めるために,人工エージェント生成データの可能性を強調した。
論文 参考訳(メタデータ) (2025-04-20T22:37:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。