論文の概要: ANCHOR: Branch-Point Data Generation for GUI Agents
- arxiv url: http://arxiv.org/abs/2602.07153v1
- Date: Fri, 06 Feb 2026 19:55:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.476748
- Title: ANCHOR: Branch-Point Data Generation for GUI Agents
- Title(参考訳): ANCHOR:GUIエージェントのための分岐点データ生成
- Authors: Jinbiao Wei, Yilun Zhao, Kangqi Ni, Arman Cohan,
- Abstract要約: デスクトップ環境向けのエンドツーエンドGUIエージェントは、大量の高品質なインタラクションデータを必要とする。
本稿では,拡張フレームワークであるAnchorについて紹介する。このフレームワークは,小規模で検証済みのシードデモから,スケーラブルなデスクトップ監視をブートストラップする。
OSWorldとWindowsAgentArenaの標準デスクトップベンチマークの実験では、拡張されたコーパスに微調整されたモデルが一貫した改善を実現している。
- 参考スコア(独自算出の注目度): 52.22377425487
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: End-to-end GUI agents for real desktop environments require large amounts of high-quality interaction data, yet collecting human demonstrations is expensive and existing synthetic pipelines often suffer from limited task diversity or noisy, goal-drifting trajectories. We present a trajectory expansion framework Anchor that bootstraps scalable desktop supervision from a small set of verified seed demonstrations. Starting from each seed, we identify branch points that correspond to meaningful state changes and propose new, state-grounded task variants conditioned on the current GUI context. An executing agent then follows the proposed instructions to generate new trajectories, while a verifier enforces task completion via state-aware checks and trajectory-level consistency. To improve supervision quality, we further apply task-conditioned step-level filtering to remove ungrounded actions and denoise post-branch segments to maintain coherent intent. Experiments on standard desktop benchmarks, OSWorld and WindowsAgentArena, show that models fine-tuned on our expanded corpus achieve consistent improvements over zero-shot agents and representative synthesis baselines, and generalize across applications and operating systems.
- Abstract(参考訳): 実際のデスクトップ環境でのエンドツーエンドのGUIエージェントは、大量の高品質なインタラクションデータを必要とするが、人間のデモの収集は高価であり、既存の合成パイプラインはタスクの多様性やノイズに悩まされることが多い。
本稿では,拡張フレームワークであるAnchorについて紹介する。このフレームワークは,小規模で検証済みのシードデモから,スケーラブルなデスクトップ監視をブートストラップする。
各シードから、意味のある状態変化に対応する分岐点を特定し、現在のGUIコンテキストで条件付けられた新しい状態基底タスク変種を提案する。
実行エージェントは提案された命令に従って新しいトラジェクトリを生成し、検証者はステートアウェアチェックとトラジェクトリレベルの一貫性によってタスク完了を実行する。
さらに、タスク条件付きステップレベルのフィルタリングを適用し、アングラウンドアクションを除去し、コヒーレントな意図を維持するためにブランチ後セグメントを装飾する。
標準デスクトップベンチマークであるOSWorldとWindowsAgentArenaの実験は、拡張コーパスに微調整されたモデルがゼロショットエージェントや代表合成ベースラインよりも一貫した改善を実現し、アプリケーションやオペレーティングシステムをまたいだ一般化を実現していることを示している。
関連論文リスト
- ProBench: Benchmarking GUI Agents with Accurate Process Information [15.519853892615272]
ProBenchは、広く使われているシナリオをカバーする200以上のGUIタスクからなる包括的なベンチマークである。
データセットをプロセス関連タスクに拡張し、特殊な評価手法を設計する。
先進的なGUIエージェントを評価した結果,現実のGUIシナリオには大きな制限があることがわかった。
論文 参考訳(メタデータ) (2025-11-12T09:49:31Z) - GUI-360$^\circ$: A Comprehensive Dataset and Benchmark for Computer-Using Agents [59.107657859025586]
GUI-360$circ$は、コンピュータ利用エージェント(CUA)を進化させるために設計された大規模で包括的なデータセットとベンチマークスイートである。
リリースされたコーパスには、人気のあるWindowsオフィスアプリケーションにおける数千のトラジェクトリにわたる1.2万以上の実行されたアクションステップが含まれている。
このデータセットは、3つの標準タスク、GUIグラウンド、スクリーン解析、アクション予測、ハイブリッドGUI+APIアクションスペースをサポートする。
論文 参考訳(メタデータ) (2025-11-06T12:19:02Z) - XBOUND: Exploring Capability Boundaries of Device-Control Agents at the State Level [43.73689966281675]
Device-Control Agents(DCエージェント)はグラフィカルユーザインタフェース(GUI)を管理する
状態ごとの命令完了の精度を評価するための新しい評価手法 XBOUND を提案する。
UI-TARSは最強の7Bモデルであり、現在のエージェントは命令統一においてバイモーダルなパフォーマンスパターンを示し、サブ7Bモデルは状態熟達において制限されている。
論文 参考訳(メタデータ) (2025-05-27T14:49:30Z) - OS-Genesis: Automating GUI Agent Trajectory Construction via Reverse Task Synthesis [55.390060529534644]
グラフィカルユーザインタフェース(GUI)エージェントのための新しいデータ合成パイプラインであるOS-Genesisを提案する。
事前に定義されたタスクに頼る代わりに、OS-Genesisはエージェントがまず環境を認識し、ステップワイドなインタラクションを実行することを可能にする。
我々は,OS-Genesisを用いたGUIエージェントのトレーニングにより,高度に挑戦するオンラインベンチマークの性能が大幅に向上することが実証された。
論文 参考訳(メタデータ) (2024-12-27T16:21:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。