論文の概要: AFRAgent : An Adaptive Feature Renormalization Based High Resolution Aware GUI agent
- arxiv url: http://arxiv.org/abs/2512.00846v1
- Date: Sun, 30 Nov 2025 11:32:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.451117
- Title: AFRAgent : An Adaptive Feature Renormalization Based High Resolution Aware GUI agent
- Title(参考訳): AFRAgent : 適応的特徴正規化に基づく高分解能GUIエージェント
- Authors: Neeraj Anand, Rishabh Jain, Sohan Patnaik, Balaji Krishnamurthy, Mausoom Sarkar,
- Abstract要約: インストラクトBLIPに基づくマルチモーダルアーキテクチャを導入し,GUI自動化における優れた性能を実現する。
低解像度画像埋め込みを効果的に強化する適応的特徴正規化(トークンレベルのアフィン変換)手法を提案する。
我々はAFRAgentをMeta-GUIおよびAITWベンチマークで評価し、スマートフォン自動化のための新しい最先端のベースラインを確立する。
- 参考スコア(独自算出の注目度): 21.148033135113927
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: There is a growing demand for mobile user interface (UI) automation, driven by its broad applications across industries. With the advent of visual language models (VLMs), GUI automation has progressed from generating text-based instructions for humans to autonomously executing tasks, thus optimizing automation workflows. Recent approaches leverage VLMs for this problem due to their ability to 1) process on-screen content directly, 2) remain independent of device-specific APIs by utilizing human actions (e.g., clicks, typing), and 3) apply real-world contextual knowledge for task understanding. However, these models often have trouble accurately identifying widgets and determining actions due to limited spatial information in vision encoder features. Additionally, top-performing models are often large, requiring extensive training and resulting in inference delays. In this work, we introduce AFRAgent, an instruct-BLIP-based multimodal architecture that achieves superior performance in GUI automation while being less than one-fourth the size of its nearest competitor. To enhance image embeddings in the large language model (LLM) pipeline, we propose an adaptive feature renormalization-based (a token-level affine transformation) technique that effectively enriches low-resolution image embeddings and fuses high-resolution details. We evaluate AFRAgent on Meta-GUI and AITW benchmarks, establishing a new state-of-the-art baseline for smartphone automation.
- Abstract(参考訳): モバイルユーザインターフェース(UI)の自動化に対する需要は、業界全体にわたる幅広いアプリケーションによって、ますます高まっている。
ビジュアル言語モデル(VLM)の出現により、GUI自動化は、人間が自律的にタスクを実行するためのテキストベースの命令を生成することから、自動化ワークフローを最適化する。
最近のアプローチでは、VLMをその能力のために利用している。
1)画面上のコンテンツを直接処理する。
2) ヒューマンアクション(例えば、クリック、タイピング)を活用してデバイス固有のAPIに依存せず、かつ、
3)実世界の文脈知識をタスク理解に適用する。
しかし、これらのモデルでは、視覚エンコーダの機能の空間情報に制限があるため、ウィジェットを正確に識別したり、アクションを決定するのに苦労することが多い。
さらに、トップパフォーマンスモデルは、しばしば大きく、広範なトレーニングを必要とし、推論の遅延を引き起こす。
本稿では,命令型BLIPベースのマルチモーダルアーキテクチャであるAFRAgentを紹介する。
大規模言語モデル(LLM)パイプラインにおける画像埋め込みを強化するために,低解像度画像埋め込みを効果的に強化し,高解像度の詳細を融合する適応的特徴正規化(トークンレベルのアフィン変換)手法を提案する。
我々はAFRAgentをMeta-GUIおよびAITWベンチマークで評価し、スマートフォン自動化のための新しい最先端のベースラインを確立する。
関連論文リスト
- Mano Technical Report [29.551514304095296]
Manoは、大規模なWebおよびコンピュータシステムデータに基づいて事前訓練されたマルチモーダル基盤モデル上に構築された堅牢なGUIエージェントである。
Mano氏は、Mind2WebやOSWorldなど、複数のGUIベンチマークで最先端のパフォーマンスをデモしている。
論文 参考訳(メタデータ) (2025-09-22T03:13:58Z) - AgentCPM-GUI: Building Mobile-Use Agents with Reinforcement Fine-Tuning [82.42421823672954]
AgentCPM-GUIは、堅牢で効率的なオンデバイスGUIインタラクションのために構築されている。
私たちのトレーニングパイプラインには、知覚を高めるためのグラウンドアウェア事前トレーニングが含まれています。
AgentCPM-GUIは5つの公開ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-06-02T07:30:29Z) - Iris: Breaking GUI Complexity with Adaptive Focus and Self-Refining [67.87810796668981]
インフォメーション・インフォメーション・インフォメーション・クロッピング(ISC)と自己精製デュアルラーニング(SRDL)
Irisは850KのGUIアノテーションだけで、複数のベンチマークで最先端のパフォーマンスを実現している。
これらの改善は、WebとOSエージェントの両方の下流タスクで大幅に向上した。
論文 参考訳(メタデータ) (2024-12-13T18:40:10Z) - Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction [69.57190742976091]
Aguvisは、自律的なGUIエージェントのためのビジョンベースのフレームワークである。
クロスプラットフォームのインタラクションを標準化し、内部モノローグによる構造化推論を取り入れている。
オフラインおよび実世界のオンラインベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-12-05T18:58:26Z) - CoCo-Agent: A Comprehensive Cognitive MLLM Agent for Smartphone GUI Automation [61.68049335444254]
MLLM(Multimodal large language model)は、人間のような自律型言語エージェントが現実世界の環境と相互作用する可能性を示している。
包括的環境認識(CEP)と条件付き行動予測(CAP)の2つの新しいアプローチを備えた包括的認知型LLMエージェントCoCo-Agentを提案する。
AITW と META-GUI ベンチマークにおいて,我々のエージェントは実シナリオで有望な性能を示す新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2024-02-19T08:29:03Z) - You Only Look at Screens: Multimodal Chain-of-Action Agents [37.118034745972956]
Auto-GUIは、インターフェースと直接対話するマルチモーダルソリューションである。
そこで本研究では,エージェントが実行すべきアクションを決定するためのチェーン・オブ・アクション手法を提案する。
我々は,30$Kのユニークな命令を持つ新しいデバイス制御ベンチマークAITWに対するアプローチを評価した。
論文 参考訳(メタデータ) (2023-09-20T16:12:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。