論文の概要: GAIR: GUI Automation via Information-Joint Reasoning and Group Reflection
- arxiv url: http://arxiv.org/abs/2512.09396v1
- Date: Wed, 10 Dec 2025 07:40:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-11 15:14:53.438221
- Title: GAIR: GUI Automation via Information-Joint Reasoning and Group Reflection
- Title(参考訳): GAIR: 情報結合型推論とグループリフレクションによるGUI自動化
- Authors: Zishu Wei, Qixiang Ma, Xavier Hu, Yuhang Liu, Hui Zang, Yudong Zhao, Tao Wang, Shengyu Zhang, Fei Wu,
- Abstract要約: GAIR: GUI Automation via Information-Joint Reasoning and Group ReflectionはMLLMベースのGUI自動化エージェントフレームワークである。
汎用MLLMは意思決定者として機能し、以前に収集された情報に基づいて合理的な操作を行おうとする。
GUIベンチマークの広範な実験により, GAIRの有効性と信頼性を評価する。
- 参考スコア(独自算出の注目度): 18.698892176166975
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Building AI systems for GUI automation task has attracted remarkable research efforts, where MLLMs are leveraged for processing user requirements and give operations. However, GUI automation includes a wide range of tasks, from document processing to online shopping, from CAD to video editing. Diversity between particular tasks requires MLLMs for GUI automation to have heterogeneous capabilities and master multidimensional expertise, raising problems on constructing such a model. To address such challenge, we propose GAIR: GUI Automation via Information-Joint Reasoning and Group Reflection, a novel MLLM-based GUI automation agent framework designed for integrating knowledge and combining capabilities from heterogeneous models to build GUI automation agent systems with higher performance. Since different GUI-specific MLLMs are trained on different dataset and thus have different strengths, GAIR introduced a general-purpose MLLM for jointly processing the information from multiple GUI-specific models, further enhancing performance of the agent framework. The general-purpose MLLM also serves as decision maker, trying to execute a reasonable operation based on previously gathered information. When the general-purpose model thinks that there isn't sufficient information for a reasonable decision, GAIR would transit into group reflection status, where the general-purpose model would provide GUI-specific models with different instructions and hints based on their strengths and weaknesses, driving them to gather information with more significance and accuracy that can support deeper reasoning and decision. We evaluated the effectiveness and reliability of GAIR through extensive experiments on GUI benchmarks.
- Abstract(参考訳): GUI自動化タスクのためのAIシステムの構築は、MLLMをユーザ要求の処理や操作に活用する、驚くべき研究努力を惹き付けている。
しかし、GUI自動化にはドキュメント処理からオンラインショッピング、CADからビデオ編集まで幅広いタスクが含まれている。
タスク間の多様性は、GUI自動化のためのMLLMに不均一な機能と多次元の専門知識を持たせることを必要とし、そのようなモデルを構築する際の問題を提起する。
このような課題に対処するため、我々はGAIR: GUI Automation via Information-Joint Reasoning and Group Reflectionを提案する。
異なるGUI固有のMLLMは異なるデータセットで訓練されているため、GAIRは複数のGUI固有のモデルから情報を共同で処理する汎用MLLMを導入し、エージェントフレームワークの性能をさらに向上させた。
汎用MLLMは意思決定者としても機能し、以前に収集された情報に基づいて合理的な操作を行おうとする。
汎用モデルが合理的な決定に十分な情報がないと考えると、GAIRはグループリフレクション状態に移行し、汎用モデルは、その強みと弱みに基づいてGUI固有のモデルに異なる指示とヒントを与え、より重要な情報を集め、より深い推論と決定を支援するように促す。
GUIベンチマークの広範な実験により, GAIRの有効性と信頼性を評価した。
関連論文リスト
- AFRAgent : An Adaptive Feature Renormalization Based High Resolution Aware GUI agent [21.148033135113927]
インストラクトBLIPに基づくマルチモーダルアーキテクチャを導入し,GUI自動化における優れた性能を実現する。
低解像度画像埋め込みを効果的に強化する適応的特徴正規化(トークンレベルのアフィン変換)手法を提案する。
我々はAFRAgentをMeta-GUIおよびAITWベンチマークで評価し、スマートフォン自動化のための新しい最先端のベースラインを確立する。
論文 参考訳(メタデータ) (2025-11-30T11:32:54Z) - GUISpector: An MLLM Agent Framework for Automated Verification of Natural Language Requirements in GUI Prototypes [58.197090145723735]
本稿では,GUIプロトタイプにおけるNL要求の自動検証にマルチモーダル(M)LLMエージェントを利用する新しいフレームワークを提案する。
GuiSpectorはエージェントの検証プロセスから詳細なNLフィードバックを抽出し、開発者に実行可能な洞察を提供する。
本稿では,これらの機能を統合化し,検証実行の監視,エージェントの合理性検査,エンドツーエンドの要件検証プロセスの管理を行うインターフェースを提供する。
論文 参考訳(メタデータ) (2025-10-06T13:15:24Z) - MMBench-GUI: Hierarchical Multi-Platform Evaluation Framework for GUI Agents [88.35544552383581]
MMBench-GUIは、Windows、Linux、iOS、Android、WebプラットフォームでGUI自動化エージェントを評価する階層的なベンチマークである。
GUIコンテンツ理解、要素グラウンディング、タスク自動化、タスクコラボレーションの4つのレベルで構成されており、GUIエージェントに必要なスキルをカバーしています。
論文 参考訳(メタデータ) (2025-07-25T17:59:26Z) - Large Language Model-Brained GUI Agents: A Survey [42.82362907348966]
マルチモーダルモデルはGUI自動化の新しい時代を支えてきた。
彼らは自然言語理解、コード生成、視覚処理において例外的な能力を示した。
これらのエージェントはパラダイムシフトを表しており、ユーザーは単純な会話コマンドで複雑なマルチステップタスクを実行できる。
論文 参考訳(メタデータ) (2024-11-27T12:13:39Z) - GUICourse: From General Vision Language Models to Versatile GUI Agents [75.5150601913659]
GUICourseは、ビジュアルベースのGUIエージェントをトレーニングするためのデータセットスイートです。
まず、OCRとVLMのグラウンド機能を強化するためにGUIEnvデータセットを導入する。
次にGUIActとGUIChatデータセットを導入し、GUIコンポーネントやインタラクションに関する知識を充実させます。
論文 参考訳(メタデータ) (2024-06-17T08:30:55Z) - GUI-World: A Video Benchmark and Dataset for Multimodal GUI-oriented Understanding [73.9254861755974]
本稿では,人間のMLLMアノテーションを巧みに作成するGUI-Worldという新しいデータセットを提案する。
各種GUIコンテンツの理解において,画像LLMやビデオLLMなどの最先端MLLMの能力を評価する。
論文 参考訳(メタデータ) (2024-06-16T06:56:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。