論文の概要: GUI-Reflection: Empowering Multimodal GUI Models with Self-Reflection Behavior
- arxiv url: http://arxiv.org/abs/2506.08012v1
- Date: Mon, 09 Jun 2025 17:59:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:11.119487
- Title: GUI-Reflection: Empowering Multimodal GUI Models with Self-Reflection Behavior
- Title(参考訳): GUI-リフレクション:自己回帰行動を用いた多モードGUIモデルの構築
- Authors: Penghao Wu, Shengnan Ma, Bo Wang, Jiaheng Yu, Lewei Lu, Ziwei Liu,
- Abstract要約: 本稿では,自己回帰と誤り訂正機能をエンド・ツー・エンドのマルチモーダルGUIモデルに統合する新しいフレームワークを提案する。
Gui-Reflectionは、完全に自動化されたデータ生成と学習プロセスによる自己回帰行動の出現を可能にする。
当社のフレームワークは,GUIエージェントに自己反映と修正機能を備え,より堅牢で適応性があり,インテリジェントなGUI自動化を実現する。
- 参考スコア(独自算出の注目度): 35.66699845572299
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Large Language Models (MLLMs) have shown great potential in revolutionizing Graphical User Interface (GUI) automation. However, existing GUI models mostly rely on learning from nearly error-free offline trajectories, thus lacking reflection and error recovery capabilities. To bridge this gap, we propose GUI-Reflection, a novel framework that explicitly integrates self-reflection and error correction capabilities into end-to-end multimodal GUI models throughout dedicated training stages: GUI-specific pre-training, offline supervised fine-tuning (SFT), and online reflection tuning. GUI-reflection enables self-reflection behavior emergence with fully automated data generation and learning processes without requiring any human annotation. Specifically, 1) we first propose scalable data pipelines to automatically construct reflection and error correction data from existing successful trajectories. While existing GUI models mainly focus on grounding and UI understanding ability, we propose the GUI-Reflection Task Suite to learn and evaluate reflection-oriented abilities explicitly. 2) Furthermore, we built a diverse and efficient environment for online training and data collection of GUI models on mobile devices. 3) We also present an iterative online reflection tuning algorithm leveraging the proposed environment, enabling the model to continuously enhance its reflection and error correction abilities. Our framework equips GUI agents with self-reflection and correction capabilities, paving the way for more robust, adaptable, and intelligent GUI automation, with all data, models, environments, and tools to be released publicly.
- Abstract(参考訳): マルチモーダル大言語モデル(MLLM)はグラフィカルユーザインタフェース(GUI)の自動化に革命をもたらす可能性を示している。
しかし、既存のGUIモデルは、ほとんどエラーのないオフライン軌道からの学習に大きく依存しているため、リフレクションとエラー回復機能が欠如している。
このギャップを埋めるために、GUI-Reflectionは、GUI固有の事前トレーニング、オフライン教師あり微調整(SFT)、オンラインリフレクションチューニングといった、エンド・ツー・エンドのマルチモーダルGUIモデルに自己回帰と誤り訂正機能を明示的に統合する新しいフレームワークを提案する。
GUI-リフレクションは、人間のアノテーションを必要とせずに、完全に自動化されたデータ生成と学習プロセスで自己回帰行動の出現を可能にする。
具体的には
1) 既存の軌道から反射・誤差補正データを自動的に構築するスケーラブルなデータパイプラインを提案する。
既存のGUIモデルは、主にグラウンドディングとUI理解能力に重点を置いているが、リフレクション指向能力の学習と評価を明示的に行うGUI-リフレクションタスクスイートを提案する。
さらに,モバイル端末上でのGUIモデルのオンライントレーニングとデータ収集のための多様で効率的な環境を構築した。
また,提案した環境を利用した反復的オンラインリフレクションチューニングアルゴリズムを提案する。
当社のフレームワークは,GUIエージェントに自己反映と修正機能を備え,より堅牢で適応性があり,インテリジェントなGUI自動化を実現するため,すべてのデータ,モデル,環境,ツールを公開しています。
関連論文リスト
- Look Before You Leap: A GUI-Critic-R1 Model for Pre-Operative Error Diagnosis in GUI Automation [83.92224427735859]
実際の実行に先立って効果的なフィードバックを提供する事前の批判機構を導入する。
そこで我々は,GUI-Critic-TrainとGUI-Critic-Testを作成するために,推論ブートストラップに基づくデータ収集パイプラインを開発した。
我々のモデルは、現在のMLLMと比較して、批評家の精度に大きな利点をもたらす。
論文 参考訳(メタデータ) (2025-06-05T04:12:36Z) - ZeroGUI: Automating Online GUI Learning at Zero Human Cost [75.21128388931945]
我々は、ZeroGUIを提案する。ZeroGUIは、Zeroの人的コストでGUIエージェントのトレーニングを自動化する、スケーラブルでオンライン学習フレームワークである。
具体的には、(i)VLMベースの自動タスク生成を統合して、現在の環境状態から多様なトレーニング目標を生成するとともに、(ii)手作り評価機能なしでタスク成功を評価するためのVLMベースの自動報酬推定と、(iii)GUI環境と継続的に対話し学習するための2段階オンライン強化学習を統合する。
論文 参考訳(メタデータ) (2025-05-29T17:59:51Z) - UIShift: Enhancing VLM-based GUI Agents through Self-supervised Reinforcement Learning [4.18969040567543]
GUIエージェントのための効果的なビジョン言語モデル(VLM)のトレーニングは通常、大規模な注釈付きデータセットよりも教師付き微調整(SFT)に依存している。
本稿では,その遷移の原因となる動作を推定することにより,VLMがGUIトランジションペアから学習できるようにする,自己教師型逆動的タスクを提案する。
VLMベースのGUIエージェントを自己教師付き強化学習により拡張するフレームワークであるUI-shiftを提案する。
論文 参考訳(メタデータ) (2025-05-18T16:34:30Z) - UI-TARS: Pioneering Automated GUI Interaction with Native Agents [58.18100825673032]
本稿では,GUIエージェントのネイティブモデルであるUI-TARSを紹介する。
OSWorldベンチマークでは、UI-TARSはスコアが24.6、50ステップが22.7、15ステップが22.7でクロード(それぞれ22.0と14.9)を上回っている。
論文 参考訳(メタデータ) (2025-01-21T17:48:10Z) - Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction [69.57190742976091]
Aguvisは、自律的なGUIエージェントのためのビジョンベースのフレームワークである。
クロスプラットフォームのインタラクションを標準化し、内部モノローグによる構造化推論を取り入れている。
オフラインおよび実世界のオンラインベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-12-05T18:58:26Z) - Improved GUI Grounding via Iterative Narrowing [0.03922370499388702]
本稿では,GUIグラウンディングにおける汎用モデルと微調整モデルの両方の性能向上のために,反復的絞り機構を用いた視覚的プロンプトフレームワークを提案する。
評価のために、様々なUIプラットフォームからなる包括的なベンチマークで手法を検証し、その結果を再現するコードを提供した。
論文 参考訳(メタデータ) (2024-11-18T05:47:12Z) - GUICourse: From General Vision Language Models to Versatile GUI Agents [75.5150601913659]
GUICourseは、ビジュアルベースのGUIエージェントをトレーニングするためのデータセットスイートです。
まず、OCRとVLMのグラウンド機能を強化するためにGUIEnvデータセットを導入する。
次にGUIActとGUIChatデータセットを導入し、GUIコンポーネントやインタラクションに関する知識を充実させます。
論文 参考訳(メタデータ) (2024-06-17T08:30:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。