Fugu-MT 論文翻訳(概要): Retrieval-augmented GUI Agents with Generative Guidelines

論文の概要: Retrieval-augmented GUI Agents with Generative Guidelines

arxiv url: http://arxiv.org/abs/2509.24183v1
Date: Mon, 29 Sep 2025 02:04:20 GMT
ステータス: 翻訳完了
システム内更新日: 2025-09-30 22:32:19.68503
Title: Retrieval-augmented GUI Agents with Generative Guidelines
Title（参考訳）: ジェネレーティブガイドラインを用いた検索型GUIエージェント
Authors: Ran Xu, Kaixin Ma, Wenhao Yu, Hongming Zhang, Joyce C. Ho, Carl Yang, Dong Yu,
Abstract要約: 本稿では,推論時にWebチュートリアルを利用する軽量なVLMであるRAG-GUIを提案する。 RAG-GUIは、まず教師付き微調整(SFT)によりウォームスタートし、さらに自己誘導型リジェクションサンプリング微調整(RSF)により改良される。一貫してベースラインエージェントを上回り、2つのモデルサイズで他の推論ベースラインを2.6%から13.3%上回る。
参考スコア（独自算出の注目度）: 45.75975553907856
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: GUI agents powered by vision-language models (VLMs) show promise in automating complex digital tasks. However, their effectiveness in real-world applications is often limited by scarce training data and the inherent complexity of these tasks, which frequently require long-tailed knowledge covering rare, unseen scenarios. We propose RAG-GUI , a lightweight VLM that leverages web tutorials at inference time. RAG-GUI is first warm-started via supervised finetuning (SFT) and further refined through self-guided rejection sampling finetuning (RSF). Designed to be model-agnostic, RAG-GUI functions as a generic plug-in that enhances any VLM-based agent. Evaluated across three distinct tasks, it consistently outperforms baseline agents and surpasses other inference baselines by 2.6% to 13.3% across two model sizes, demonstrating strong generalization and practical plug-and-play capabilities in real-world scenarios.
Abstract（参考訳）: 視覚言語モデル(VLM)を利用したGUIエージェントは、複雑なデジタルタスクを自動化することを約束する。しかし、実世界のアプリケーションにおけるそれらの有効性は、希少で目に見えないシナリオをカバーする長い知識を必要とする、訓練データやこれらのタスク固有の複雑さによって制限されることが多い。本稿では,推論時にWebチュートリアルを利用する軽量なVLMであるRAG-GUIを提案する。 RAG-GUIは、まず教師付きファインタニング(SFT)によりウォームスタートし、自己誘導型リジェクションサンプリングファインタニング(RSF)によりさらに洗練される。 RAG-GUIはモデルに依存しないように設計され、VLMベースのエージェントを強化する汎用的なプラグインとして機能する。 3つの異なるタスクで評価され、ベースラインエージェントを一貫して上回り、他の推論ベースラインを2つのモデルサイズで2.6%から13.3%上回り、現実世界のシナリオにおいて強力な一般化と実用的なプラグアンドプレイ能力を示す。

論文の概要: Retrieval-augmented GUI Agents with Generative Guidelines

関連論文リスト