論文の概要: Building Autonomous GUI Navigation via Agentic-Q Estimation and Step-Wise Policy Optimization
- arxiv url: http://arxiv.org/abs/2602.13653v1
- Date: Sat, 14 Feb 2026 07:44:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:28.316697
- Title: Building Autonomous GUI Navigation via Agentic-Q Estimation and Step-Wise Policy Optimization
- Title(参考訳): エージェントQ推定とステップウェイズポリシ最適化による自律的GUIナビゲーションの構築
- Authors: Yibo Wang, Guangda Huzhang, Yuwei Hu, Yu Xia, Shiyin Lu, Qing-Guo Chen, Zhao Xu, Weihua Luo, Kaifu Zhang, Lijun Zhang,
- Abstract要約: 本稿では,エージェントQ推定とステップワイドポリシ最適化という2つのコンポーネントで構成される,GUIエージェントのためのMLLM中心のフレームワークを紹介する。
Ovis2.5-9Bには強力なGUIインタラクション機能があり、GUIナビゲーションやグラウンドベンチマークでの優れたパフォーマンスを実現しています。
- 参考スコア(独自算出の注目度): 38.863014369090074
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in Multimodal Large Language Models (MLLMs) have substantially driven the progress of autonomous agents for Graphical User Interface (GUI). Nevertheless, in real-world applications, GUI agents are often faced with non-stationary environments, leading to high computational costs for data curation and policy optimization. In this report, we introduce a novel MLLM-centered framework for GUI agents, which consists of two components: agentic-Q estimation and step-wise policy optimization. The former one aims to optimize a Q-model that can generate step-wise values to evaluate the contribution of a given action to task completion. The latter one takes step-wise samples from the state-action trajectory as inputs, and optimizes the policy via reinforcement learning with our agentic-Q model. It should be noticed that (i) all state-action trajectories are produced by the policy itself, so that the data collection costs are manageable; (ii) the policy update is decoupled from the environment, ensuring stable and efficient optimization. Empirical evaluations show that our framework endows Ovis2.5-9B with powerful GUI interaction capabilities, achieving remarkable performances on GUI navigation and grounding benchmarks and even surpassing contenders with larger scales.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)の最近の進歩は、グラフィカルユーザインタフェース(GUI)のための自律エージェントの進歩を著しく推進している。
それでも、現実世界のアプリケーションでは、GUIエージェントは非定常環境に直面し、データキュレーションとポリシー最適化の計算コストが高くなる。
本稿では,エージェントQ推定とステップワイドポリシー最適化という,GUIエージェントのための新しいMLLM中心のフレームワークを紹介する。
前者の目的は、タスク完了に対する与えられたアクションの貢献を評価するためにステップワイズな値を生成することができるQモデルを最適化することである。
後者は、状態行動軌跡からのステップワイズサンプルを入力とし、エージェントQモデルによる強化学習を通じてポリシーを最適化する。
注意すべき点
(i)すべての状態行動軌跡は、ポリシー自体によって作成され、データ収集コストが管理可能であること。
(II) ポリシー更新は環境から切り離され、安定的で効率的な最適化が保証される。
実験的な評価の結果,Ovis2.5-9Bに強力なGUIインタラクション機能を備え,GUIナビゲーションやグラウンドベンチマークにおいて優れたパフォーマンスを達成し,さらに大規模で競合者を上回る結果が得られた。
関連論文リスト
- NatureGAIA: Pushing the Frontiers of GUI Agents with a Challenging Benchmark and High-Quality Trajectory Dataset [16.676904484703]
本稿ではCausal Pathwaysの原理に基づく新しいベンチマークであるNaturalGAIAを紹介する。
このパラダイムは複雑なタスクを検証可能な一連の原子ステップに構造化し、厳密で完全に自動化され、再現可能な評価基準を保証する。
次に、このデータセットを用いて、Q2.5-VL-7Bモデル上でReinforcement FineTuning(RFT)を行う。
論文 参考訳(メタデータ) (2025-08-02T11:53:41Z) - Look Before You Leap: A GUI-Critic-R1 Model for Pre-Operative Error Diagnosis in GUI Automation [83.92224427735859]
実際の実行に先立って効果的なフィードバックを提供する事前の批判機構を導入する。
そこで我々は,GUI-Critic-TrainとGUI-Critic-Testを作成するために,推論ブートストラップに基づくデータ収集パイプラインを開発した。
我々のモデルは、現在のMLLMと比較して、批評家の精度に大きな利点をもたらす。
論文 参考訳(メタデータ) (2025-06-05T04:12:36Z) - ARPO:End-to-End Policy Optimization for GUI Agents with Experience Replay [88.74638385288773]
Agentic Replay Policy Optimizationは、複雑で長期のコンピュータタスクのパフォーマンスを改善する。
本稿では,ベースラインエージェントの性能に基づいてタスクをフィルタリングするタスク選択戦略を提案する。
OSWorldベンチマークの実験では、ARPOが競争結果を達成することを示した。
論文 参考訳(メタデータ) (2025-05-22T06:24:32Z) - A Survey on GUI Agents with Foundation Models Enhanced by Reinforcement Learning [13.091740188171915]
まず、GUIエージェントタスクをマルコフ決定プロセスとして定式化し、典型的な実行環境と評価指標について議論する。
次に、(M)LLMベースのGUIエージェントのモジュールアーキテクチャをレビューし、パーセプション、プランニング、アクティベーションモジュールをカバーし、それらの進化を代表的作業を通して追跡する。
本稿では, 複合現実環境におけるGUIエージェントの一般化とロバスト性について, マルチモーダル認識, 決定推論, 適応行動生成における最近の革新が, どのようにして大幅に向上したかを述べる。
論文 参考訳(メタデータ) (2025-04-29T06:55:15Z) - Guiding VLM Agents with Process Rewards at Inference Time for GUI Navigation [101.09478572153239]
本稿では,GUIナビゲーションにおける報酬モデルと推論時の制御により,VLMエージェントをプロセス監視で誘導する手法を提案する。
このガイダンスにより、VLMエージェントは各推論ステップでのアクションを最適化し、静的環境と動的環境の両方のパフォーマンスを改善することができる。
論文 参考訳(メタデータ) (2025-04-22T17:52:42Z) - DARS: Dynamic Action Re-Sampling to Enhance Coding Agent Performance by Adaptive Tree Traversal [55.13854171147104]
大規模言語モデル(LLM)は、自然言語処理、データ分析、ソフトウェア開発など、さまざまな領域に革命をもたらした。
符号化エージェントのための新しい推論時間計算スケーリングアプローチである動的アクション再サンプリング(DARS)を提案する。
我々は、SWE-Bench Liteベンチマークに対する我々のアプローチを評価し、このスケーリング戦略がClude 3.5 Sonnet V2で55%のパス@kスコアを達成したことを実証した。
論文 参考訳(メタデータ) (2025-03-18T14:02:59Z) - QLASS: Boosting Language Agent Inference via Q-Guided Stepwise Search [89.97082652805904]
提案するQLASS(Q-guided Language Agent Stepwise Search)は,Q-valueを推定してアノテーションを自動的に生成する。
ステップワイズガイダンスにより、言語エージェントが長期的価値に適応できるようにQ誘導型生成戦略を提案する。
我々はQLASSが質的分析によってより効果的な意思決定につながることを実証的に実証した。
論文 参考訳(メタデータ) (2025-02-04T18:58:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。