論文の概要: AFRAgent : An Adaptive Feature Renormalization Based High Resolution Aware GUI agent
- arxiv url: http://arxiv.org/abs/2512.00846v1
- Date: Sun, 30 Nov 2025 11:32:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.451117
- Title: AFRAgent : An Adaptive Feature Renormalization Based High Resolution Aware GUI agent
- Title(参考訳): AFRAgent : 適応的特徴正規化に基づく高分解能GUIエージェント
- Authors: Neeraj Anand, Rishabh Jain, Sohan Patnaik, Balaji Krishnamurthy, Mausoom Sarkar,
- Abstract要約: インストラクトBLIPに基づくマルチモーダルアーキテクチャを導入し,GUI自動化における優れた性能を実現する。
低解像度画像埋め込みを効果的に強化する適応的特徴正規化(トークンレベルのアフィン変換)手法を提案する。
我々はAFRAgentをMeta-GUIおよびAITWベンチマークで評価し、スマートフォン自動化のための新しい最先端のベースラインを確立する。
- 参考スコア(独自算出の注目度): 21.148033135113927
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: There is a growing demand for mobile user interface (UI) automation, driven by its broad applications across industries. With the advent of visual language models (VLMs), GUI automation has progressed from generating text-based instructions for humans to autonomously executing tasks, thus optimizing automation workflows. Recent approaches leverage VLMs for this problem due to their ability to 1) process on-screen content directly, 2) remain independent of device-specific APIs by utilizing human actions (e.g., clicks, typing), and 3) apply real-world contextual knowledge for task understanding. However, these models often have trouble accurately identifying widgets and determining actions due to limited spatial information in vision encoder features. Additionally, top-performing models are often large, requiring extensive training and resulting in inference delays. In this work, we introduce AFRAgent, an instruct-BLIP-based multimodal architecture that achieves superior performance in GUI automation while being less than one-fourth the size of its nearest competitor. To enhance image embeddings in the large language model (LLM) pipeline, we propose an adaptive feature renormalization-based (a token-level affine transformation) technique that effectively enriches low-resolution image embeddings and fuses high-resolution details. We evaluate AFRAgent on Meta-GUI and AITW benchmarks, establishing a new state-of-the-art baseline for smartphone automation.
- Abstract(参考訳): モバイルユーザインターフェース(UI)の自動化に対する需要は、業界全体にわたる幅広いアプリケーションによって、ますます高まっている。
ビジュアル言語モデル(VLM)の出現により、GUI自動化は、人間が自律的にタスクを実行するためのテキストベースの命令を生成することから、自動化ワークフローを最適化する。
最近のアプローチでは、VLMをその能力のために利用している。
1)画面上のコンテンツを直接処理する。
2) ヒューマンアクション(例えば、クリック、タイピング)を活用してデバイス固有のAPIに依存せず、かつ、
3)実世界の文脈知識をタスク理解に適用する。
しかし、これらのモデルでは、視覚エンコーダの機能の空間情報に制限があるため、ウィジェットを正確に識別したり、アクションを決定するのに苦労することが多い。
さらに、トップパフォーマンスモデルは、しばしば大きく、広範なトレーニングを必要とし、推論の遅延を引き起こす。
本稿では,命令型BLIPベースのマルチモーダルアーキテクチャであるAFRAgentを紹介する。
大規模言語モデル(LLM)パイプラインにおける画像埋め込みを強化するために,低解像度画像埋め込みを効果的に強化し,高解像度の詳細を融合する適応的特徴正規化(トークンレベルのアフィン変換)手法を提案する。
我々はAFRAgentをMeta-GUIおよびAITWベンチマークで評価し、スマートフォン自動化のための新しい最先端のベースラインを確立する。
関連論文リスト
- AUTO-Explorer: Automated Data Collection for GUI Agent [58.58097564914626]
本稿では,アノテーションコストを最小限に抑えた自動データ収集手法であるAuto-Explorerを提案する。
それは、GUI環境を自律的に解析し探索する、シンプルだが効果的な探索メカニズムを組み込んでいる。
収集したデータを用いて,マルチモーダル大規模言語モデル(MLLM)を微調整し,GUI要素基盤テストセットを確立する。
論文 参考訳(メタデータ) (2025-11-09T15:13:45Z) - GUI-PRA: Process Reward Agent for GUI Tasks [25.20594694997543]
プロセスリワードモデル(Process Reward Models, PRM)は、推論中に重要なプロセス信号でこれらのエージェントをガイドできる、有望なソリューションである。
PRMは「中間の失われた」現象に悩まされ、歴史的に圧倒的な状況が現在の段階の評価を損なう。
GUI-PRA(Process Reward Agent for GUI Tasks)は,標準的なPRMよりも優れたプロセス報酬の提供を目的とした判定エージェントである。
論文 参考訳(メタデータ) (2025-09-27T11:42:36Z) - Mano Technical Report [29.551514304095296]
Manoは、大規模なWebおよびコンピュータシステムデータに基づいて事前訓練されたマルチモーダル基盤モデル上に構築された堅牢なGUIエージェントである。
Mano氏は、Mind2WebやOSWorldなど、複数のGUIベンチマークで最先端のパフォーマンスをデモしている。
論文 参考訳(メタデータ) (2025-09-22T03:13:58Z) - MobileGUI-RL: Advancing Mobile GUI Agent through Reinforcement Learning in Online Environment [63.62778707277929]
MobileGUI-RLは、オンライン環境でGUIエージェントをトレーニングするスケーラブルなフレームワークである。
自己探索とフィルタリングを通じて学習可能なタスクのカリキュラムを合成する。
GRPOをGUIナビゲーションに適応させ、軌道認識の利点と複合報酬を付与する。
論文 参考訳(メタデータ) (2025-07-08T07:07:53Z) - R-VLM: Region-Aware Vision Language Model for Precise GUI Grounding [18.100091500983044]
GUI自動化における重要な課題は、様々なプラットフォームにまたがるインターフェイス要素の正確な基盤を作ることである。
既存の視覚のみのGUIエージェントは、大きく散らかったスクリーンショットから直接要素を接地する。
R-VLMは、ズームインされた領域の提案を正確な要素ローカライゼーションに活用する新しいGUI基盤手法である。
論文 参考訳(メタデータ) (2025-07-08T04:56:57Z) - Look Before You Leap: A GUI-Critic-R1 Model for Pre-Operative Error Diagnosis in GUI Automation [83.92224427735859]
実際の実行に先立って効果的なフィードバックを提供する事前の批判機構を導入する。
そこで我々は,GUI-Critic-TrainとGUI-Critic-Testを作成するために,推論ブートストラップに基づくデータ収集パイプラインを開発した。
我々のモデルは、現在のMLLMと比較して、批評家の精度に大きな利点をもたらす。
論文 参考訳(メタデータ) (2025-06-05T04:12:36Z) - AgentCPM-GUI: Building Mobile-Use Agents with Reinforcement Fine-Tuning [82.42421823672954]
AgentCPM-GUIは、堅牢で効率的なオンデバイスGUIインタラクションのために構築されている。
私たちのトレーニングパイプラインには、知覚を高めるためのグラウンドアウェア事前トレーニングが含まれています。
AgentCPM-GUIは5つの公開ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-06-02T07:30:29Z) - Iris: Breaking GUI Complexity with Adaptive Focus and Self-Refining [67.87810796668981]
インフォメーション・インフォメーション・インフォメーション・クロッピング(ISC)と自己精製デュアルラーニング(SRDL)
Irisは850KのGUIアノテーションだけで、複数のベンチマークで最先端のパフォーマンスを実現している。
これらの改善は、WebとOSエージェントの両方の下流タスクで大幅に向上した。
論文 参考訳(メタデータ) (2024-12-13T18:40:10Z) - Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction [69.57190742976091]
Aguvisは、自律的なGUIエージェントのためのビジョンベースのフレームワークである。
クロスプラットフォームのインタラクションを標準化し、内部モノローグによる構造化推論を取り入れている。
オフラインおよび実世界のオンラインベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-12-05T18:58:26Z) - CoCo-Agent: A Comprehensive Cognitive MLLM Agent for Smartphone GUI Automation [61.68049335444254]
MLLM(Multimodal large language model)は、人間のような自律型言語エージェントが現実世界の環境と相互作用する可能性を示している。
包括的環境認識(CEP)と条件付き行動予測(CAP)の2つの新しいアプローチを備えた包括的認知型LLMエージェントCoCo-Agentを提案する。
AITW と META-GUI ベンチマークにおいて,我々のエージェントは実シナリオで有望な性能を示す新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2024-02-19T08:29:03Z) - Reinforced UI Instruction Grounding: Towards a Generic UI Task
Automation API [17.991044940694778]
汎用的なUIタスク自動化エグゼキュータとして、与えられたUIスクリーンショットに自然言語命令をベースとしたマルチモーダルモデルを構築します。
画像からテキストまでの事前学習知識の活用を容易にするため,画素からシーケンスまでのパラダイムを踏襲する。
提案する強化UI命令グラウンドモデルでは,最先端の手法よりも明確なマージンで性能が向上する。
論文 参考訳(メタデータ) (2023-10-07T07:22:41Z) - You Only Look at Screens: Multimodal Chain-of-Action Agents [37.118034745972956]
Auto-GUIは、インターフェースと直接対話するマルチモーダルソリューションである。
そこで本研究では,エージェントが実行すべきアクションを決定するためのチェーン・オブ・アクション手法を提案する。
我々は,30$Kのユニークな命令を持つ新しいデバイス制御ベンチマークAITWに対するアプローチを評価した。
論文 参考訳(メタデータ) (2023-09-20T16:12:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。