論文の概要: Retrieval-augmented GUI Agents with Generative Guidelines
- arxiv url: http://arxiv.org/abs/2509.24183v1
- Date: Mon, 29 Sep 2025 02:04:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.68503
- Title: Retrieval-augmented GUI Agents with Generative Guidelines
- Title(参考訳): ジェネレーティブガイドラインを用いた検索型GUIエージェント
- Authors: Ran Xu, Kaixin Ma, Wenhao Yu, Hongming Zhang, Joyce C. Ho, Carl Yang, Dong Yu,
- Abstract要約: 本稿では,推論時にWebチュートリアルを利用する軽量なVLMであるRAG-GUIを提案する。
RAG-GUIは、まず教師付き微調整(SFT)によりウォームスタートし、さらに自己誘導型リジェクションサンプリング微調整(RSF)により改良される。
一貫してベースラインエージェントを上回り、2つのモデルサイズで他の推論ベースラインを2.6%から13.3%上回る。
- 参考スコア(独自算出の注目度): 45.75975553907856
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: GUI agents powered by vision-language models (VLMs) show promise in automating complex digital tasks. However, their effectiveness in real-world applications is often limited by scarce training data and the inherent complexity of these tasks, which frequently require long-tailed knowledge covering rare, unseen scenarios. We propose RAG-GUI , a lightweight VLM that leverages web tutorials at inference time. RAG-GUI is first warm-started via supervised finetuning (SFT) and further refined through self-guided rejection sampling finetuning (RSF). Designed to be model-agnostic, RAG-GUI functions as a generic plug-in that enhances any VLM-based agent. Evaluated across three distinct tasks, it consistently outperforms baseline agents and surpasses other inference baselines by 2.6% to 13.3% across two model sizes, demonstrating strong generalization and practical plug-and-play capabilities in real-world scenarios.
- Abstract(参考訳): 視覚言語モデル(VLM)を利用したGUIエージェントは、複雑なデジタルタスクを自動化することを約束する。
しかし、実世界のアプリケーションにおけるそれらの有効性は、希少で目に見えないシナリオをカバーする長い知識を必要とする、訓練データやこれらのタスク固有の複雑さによって制限されることが多い。
本稿では,推論時にWebチュートリアルを利用する軽量なVLMであるRAG-GUIを提案する。
RAG-GUIは、まず教師付きファインタニング(SFT)によりウォームスタートし、自己誘導型リジェクションサンプリングファインタニング(RSF)によりさらに洗練される。
RAG-GUIはモデルに依存しないように設計され、VLMベースのエージェントを強化する汎用的なプラグインとして機能する。
3つの異なるタスクで評価され、ベースラインエージェントを一貫して上回り、他の推論ベースラインを2つのモデルサイズで2.6%から13.3%上回り、現実世界のシナリオにおいて強力な一般化と実用的なプラグアンドプレイ能力を示す。
関連論文リスト
- Look Before You Leap: A GUI-Critic-R1 Model for Pre-Operative Error Diagnosis in GUI Automation [83.92224427735859]
実際の実行に先立って効果的なフィードバックを提供する事前の批判機構を導入する。
そこで我々は,GUI-Critic-TrainとGUI-Critic-Testを作成するために,推論ブートストラップに基づくデータ収集パイプラインを開発した。
我々のモデルは、現在のMLLMと比較して、批評家の精度に大きな利点をもたらす。
論文 参考訳(メタデータ) (2025-06-05T04:12:36Z) - GUI-R1 : A Generalist R1-Style Vision-Language Action Model For GUI Agents [16.72683291432717]
nameは、高レベルな現実世界のタスクシナリオにおけるLVLMの能力を高めるために設計された最初の強化学習フレームワークである。
従来のOS-Atlasのような最先端のメソッドと比較して、データの0.02%しか使っていない。
論文 参考訳(メタデータ) (2025-04-14T17:45:54Z) - Iris: Breaking GUI Complexity with Adaptive Focus and Self-Refining [67.87810796668981]
インフォメーション・インフォメーション・インフォメーション・クロッピング(ISC)と自己精製デュアルラーニング(SRDL)
Irisは850KのGUIアノテーションだけで、複数のベンチマークで最先端のパフォーマンスを実現している。
これらの改善は、WebとOSエージェントの両方の下流タスクで大幅に向上した。
論文 参考訳(メタデータ) (2024-12-13T18:40:10Z) - AgentTrek: Agent Trajectory Synthesis via Guiding Replay with Web Tutorials [53.376263056033046]
既存のアプローチは高価な人間のアノテーションに依存しており、大規模には持続不可能である。
本稿では,Webエージェントトラジェクトリを生成するスケーラブルなデータ合成パイプラインであるAgentTrekを提案する。
完全に自動化されたアプローチは、データ収集コストを大幅に削減し、人間のアノテータを使わずに、高品質な軌道を0.55ドルに抑えることができます。
論文 参考訳(メタデータ) (2024-12-12T18:59:27Z) - Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction [69.57190742976091]
Aguvisは、自律的なGUIエージェントのためのビジョンベースのフレームワークである。
クロスプラットフォームのインタラクションを標準化し、内部モノローグによる構造化推論を取り入れている。
オフラインおよび実世界のオンラインベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-12-05T18:58:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。