Fugu-MT 論文翻訳(概要): ANCHOR: Branch-Point Data Generation for GUI Agents

論文の概要: ANCHOR: Branch-Point Data Generation for GUI Agents

arxiv url: http://arxiv.org/abs/2602.07153v1
Date: Fri, 06 Feb 2026 19:55:26 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-10 20:26:24.476748
Title: ANCHOR: Branch-Point Data Generation for GUI Agents
Title（参考訳）: ANCHOR:GUIエージェントのための分岐点データ生成
Authors: Jinbiao Wei, Yilun Zhao, Kangqi Ni, Arman Cohan,
Abstract要約: デスクトップ環境向けのエンドツーエンドGUIエージェントは、大量の高品質なインタラクションデータを必要とする。本稿では,拡張フレームワークであるAnchorについて紹介する。このフレームワークは,小規模で検証済みのシードデモから,スケーラブルなデスクトップ監視をブートストラップする。 OSWorldとWindowsAgentArenaの標準デスクトップベンチマークの実験では、拡張されたコーパスに微調整されたモデルが一貫した改善を実現している。
参考スコア（独自算出の注目度）: 52.22377425487
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: End-to-end GUI agents for real desktop environments require large amounts of high-quality interaction data, yet collecting human demonstrations is expensive and existing synthetic pipelines often suffer from limited task diversity or noisy, goal-drifting trajectories. We present a trajectory expansion framework Anchor that bootstraps scalable desktop supervision from a small set of verified seed demonstrations. Starting from each seed, we identify branch points that correspond to meaningful state changes and propose new, state-grounded task variants conditioned on the current GUI context. An executing agent then follows the proposed instructions to generate new trajectories, while a verifier enforces task completion via state-aware checks and trajectory-level consistency. To improve supervision quality, we further apply task-conditioned step-level filtering to remove ungrounded actions and denoise post-branch segments to maintain coherent intent. Experiments on standard desktop benchmarks, OSWorld and WindowsAgentArena, show that models fine-tuned on our expanded corpus achieve consistent improvements over zero-shot agents and representative synthesis baselines, and generalize across applications and operating systems.
Abstract（参考訳）: 実際のデスクトップ環境でのエンドツーエンドのGUIエージェントは、大量の高品質なインタラクションデータを必要とするが、人間のデモの収集は高価であり、既存の合成パイプラインはタスクの多様性やノイズに悩まされることが多い。本稿では,拡張フレームワークであるAnchorについて紹介する。このフレームワークは,小規模で検証済みのシードデモから,スケーラブルなデスクトップ監視をブートストラップする。各シードから、意味のある状態変化に対応する分岐点を特定し、現在のGUIコンテキストで条件付けられた新しい状態基底タスク変種を提案する。実行エージェントは提案された命令に従って新しいトラジェクトリを生成し、検証者はステートアウェアチェックとトラジェクトリレベルの一貫性によってタスク完了を実行する。さらに、タスク条件付きステップレベルのフィルタリングを適用し、アングラウンドアクションを除去し、コヒーレントな意図を維持するためにブランチ後セグメントを装飾する。標準デスクトップベンチマークであるOSWorldとWindowsAgentArenaの実験は、拡張コーパスに微調整されたモデルがゼロショットエージェントや代表合成ベースラインよりも一貫した改善を実現し、アプリケーションやオペレーティングシステムをまたいだ一般化を実現していることを示している。

関連論文リスト

Constitutional Black-Box Monitoring for Scheming in LLM Agents [1.4619913143519836]
我々は言語モデルを用いて不審な行為に対するエージェントの行動を調べる。本研究では,外部観測可能な入力と出力のみを用いて,スケジューリングを検出する構成的ブラックボックスモニタについて検討する。我々の設定では、より広範な最適化の結果と一致する単純なプロンプトスイープによって、パフォーマンスが急速に飽和していることが分かりました。
論文参考訳（メタデータ） (2026-02-28T22:31:32Z)
Computer-Using World Model [58.59112582915026]
我々は,次のユーザインタフェース(UI)状態を予測するデスクトップソフトウェアのための世界モデルであるComputer-Using World Model (CUWM)を紹介する。 CUWMはまずエージェント関連状態変化のテキスト記述を予測し、次に次のスクリーンショットを合成するために視覚的にこれらの変化を実現する。テスト時間動作探索を用いてCUWMを評価し、凍結エージェントが世界モデルを用いて実行前の候補動作をシミュレートし比較する。
論文参考訳（メタデータ） (2026-02-19T13:48:29Z)
AgentSkiller: Scaling Generalist Agent Intelligence through Semantically Integrated Cross-Domain Data Synthesis [30.512393568258105]
大規模言語モデルエージェントは、ツールを介して現実世界の問題を解決する可能性を実証するが、汎用的な知性は、質の低い長期データによってボトルネックとなる。本稿では,現実的なセマンティックなドメイン間でのマルチターンインタラクションデータを合成する,完全に自動化されたフレームワークであるAgentSkillerを提案する。
論文参考訳（メタデータ） (2026-02-10T03:21:42Z)
GEBench: Benchmarking Image Generation Models as GUI Environments [49.513441724802135]
GUI生成における動的相互作用と時間的コヒーレンスを評価するためのベンチマークであるGEBenchを紹介する。 GE-Scoreは、ゴール達成、インタラクションロジック、コンテンツ一貫性、UIの可視性、視覚品質を評価する新しい5次元メトリックである。そこで本研究では,アイコンの解釈,テキストレンダリング,局所化精度を重要なボトルネックとして認識した。
論文参考訳（メタデータ） (2026-02-09T18:52:02Z)
ProBench: Benchmarking GUI Agents with Accurate Process Information [15.519853892615272]
ProBenchは、広く使われているシナリオをカバーする200以上のGUIタスクからなる包括的なベンチマークである。データセットをプロセス関連タスクに拡張し、特殊な評価手法を設計する。先進的なGUIエージェントを評価した結果,現実のGUIシナリオには大きな制限があることがわかった。
論文参考訳（メタデータ） (2025-11-12T09:49:31Z)
GUI-360$^\circ$: A Comprehensive Dataset and Benchmark for Computer-Using Agents [59.107657859025586]
GUI-360$circ$は、コンピュータ利用エージェント(CUA)を進化させるために設計された大規模で包括的なデータセットとベンチマークスイートである。リリースされたコーパスには、人気のあるWindowsオフィスアプリケーションにおける数千のトラジェクトリにわたる1.2万以上の実行されたアクションステップが含まれている。このデータセットは、3つの標準タスク、GUIグラウンド、スクリーン解析、アクション予測、ハイブリッドGUI+APIアクションスペースをサポートする。
論文参考訳（メタデータ） (2025-11-06T12:19:02Z)
XBOUND: Exploring Capability Boundaries of Device-Control Agents at the State Level [43.73689966281675]
Device-Control Agents(DCエージェント)はグラフィカルユーザインタフェース(GUI)を管理する状態ごとの命令完了の精度を評価するための新しい評価手法 XBOUND を提案する。 UI-TARSは最強の7Bモデルであり、現在のエージェントは命令統一においてバイモーダルなパフォーマンスパターンを示し、サブ7Bモデルは状態熟達において制限されている。
論文参考訳（メタデータ） (2025-05-27T14:49:30Z)
OS-Genesis: Automating GUI Agent Trajectory Construction via Reverse Task Synthesis [55.390060529534644]
グラフィカルユーザインタフェース(GUI)エージェントのための新しいデータ合成パイプラインであるOS-Genesisを提案する。事前に定義されたタスクに頼る代わりに、OS-Genesisはエージェントがまず環境を認識し、ステップワイドなインタラクションを実行することを可能にする。我々は,OS-Genesisを用いたGUIエージェントのトレーニングにより,高度に挑戦するオンラインベンチマークの性能が大幅に向上することが実証された。
論文参考訳（メタデータ） (2024-12-27T16:21:58Z)
Robust Object Detection via Instance-Level Temporal Cycle Confusion [89.1027433760578]
物体検出器の分布外一般化を改善するための補助的自己監視タスクの有効性を検討する。最大エントロピーの原理に触発されて,新しい自己監督タスクであるインスタンスレベル時間サイクル混乱(cycconf)を導入する。それぞれのオブジェクトに対して、タスクは、ビデオ内の隣接するフレームで最も異なるオブジェクトの提案を見つけ、自己スーパービジョンのために自分自身にサイクルバックすることです。
論文参考訳（メタデータ） (2021-04-16T21:35:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。