論文の概要: AndroidControl-Curated: Revealing the True Potential of GUI Agents through Benchmark Purification
- arxiv url: http://arxiv.org/abs/2510.18488v1
- Date: Tue, 21 Oct 2025 10:11:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:13.424946
- Title: AndroidControl-Curated: Revealing the True Potential of GUI Agents through Benchmark Purification
- Title(参考訳): AndroidControl-Curated:ベンチマークの浄化を通じてGUIエージェントの真の可能性を明らかにする
- Authors: Ho Fai Leung, Xiaoyan Xi, Fei Zuo,
- Abstract要約: SiriやGoogle Assistantのようなデバイス上のバーチャルアシスタントはますます重要になっているが、その能力は厳格でデベロッパーに依存したAPIに依存している。
Guiエージェントは強力なAPIに依存しない代替手段を提供するが、その採用はパフォーマンスの低下に対する認識を妨げる。
私たちの研究によると、問題はモデルだけでなく、ベンチマーク自体にあります。
- 参考スコア(独自算出の注目度): 0.764671395172401
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: On-device virtual assistants like Siri and Google Assistant are increasingly pivotal, yet their capabilities are hamstrung by a reliance on rigid, developer-dependent APIs. GUI agents offer a powerful, API-independent alternative, but their adoption is hindered by the perception of poor performance, as even the best models (e.g. Qwen3-VL-235B) scores are capped at around 60% on benchmarks like AndroidControl, far from viability for real-world use. Our research reveals that issue lies not only with the models but with the benchmarks themselves. We identified notable shortcomings in AndroidControl, including ambiguities and factual errors, which systematically underrates agent capabilities. To address this critical oversight, we enhanced AndroidControl into AndroidControl-Curated, a refined version of the benchmark improved through a rigorous purification pipeline. On this enhanced benchmark, state-of-the-art models achieve success rates nearing 75% on complex tasks (15% improvement), reflecting that on-device GUI agents are actually closer to practical deployment than previously thought. We introduce our new SOTA model, Magma-R1- 3B, post-trained on just 2.4k curated samples using 60 hours of an H20 GPU (approximately $60). Despite being 200 times smaller in parameters, this model delivers performance comparable to Qwen3- VL-235B. We release both AndroidControl-Curated benchmark and Magma-R1 model to the research community, encouraging adoption of this enhanced benchmark to better reflect model capabilities and accelerate the development of robust, on-device virtual assistants.
- Abstract(参考訳): SiriやGoogle Assistantのようなデバイス上のバーチャルアシスタントはますます重要になっているが、その能力は厳格でデベロッパーに依存したAPIに依存している。
GUIエージェントは強力なAPIに依存しない代替手段を提供するが、それらの採用は、最高のモデル(例えば Qwen3-VL-235B)でさえ、実世界の使用にはほど遠い、AndroidControlのようなベンチマークで約60%に制限されているため、パフォーマンスの低下という認識によって妨げられている。
私たちの研究によると、問題はモデルだけでなく、ベンチマーク自体にあります。
エージェント機能を体系的に過小評価する曖昧さや事実エラーを含む,AndroidControlの注目すべき欠点を特定した。
この重要な監視に対処するため、我々はAndroidControlをAndroidControl-Curatedに拡張しました。
この強化されたベンチマークでは、最先端のモデルは、複雑なタスク(15%の改善)で75%近くの成功率を達成することができ、デバイス上のGUIエージェントは、以前考えられていたよりも実際、実用的なデプロイに近づいていることを反映している。
新しいSOTAモデルであるMagma-R1-3Bを導入し、H20 GPUの60時間(約60ドル)を使用し、2.4kのキュレートされたサンプルで後にトレーニングした。
パラメータが200倍小さいにもかかわらず、このモデルはQwen3-VL-235Bに匹敵するパフォーマンスを提供する。
AndroidControl-CuratedベンチマークとMagma-R1モデルの両方を研究コミュニティにリリースし、モデル機能の改善と堅牢でオンデバイスバーチャルアシスタントの開発を加速するために、この強化ベンチマークの採用を奨励します。
関連論文リスト
- UI-Ins: Enhancing GUI Grounding with Multi-Perspective Instruction-as-Reasoning [51.54456545661045]
本稿では,インストラクション・アズ・ア・推論(Instruction-as-Reasoning)パラダイムを導入し,インストラクションを動的解析経路として扱う。
これを実現するために,教師付き微調整と強化学習という2段階のトレーニングフレームワークを提案する。
得られたモデルであるUI-Ins-7BとUI-Ins-32Bは、5つの挑戦的なグラウンドベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2025-10-23T07:18:32Z) - Hi-Agent: Hierarchical Vision-Language Agents for Mobile Device Control [72.43808515668947]
モバイル制御のためのトレーニング可能な階層型視覚言語エージェントであるHi-Agentを紹介する。
Hi-Agentは高レベルの推論モデルと、共同最適化された低レベルのアクションモデルを備えている。
Hi-Agentは、Android-in-the-Wild(AitW)ベンチマークで、新しいState-Of-The-Art(SOTA)87.9%タスクの成功率を達成した。
論文 参考訳(メタデータ) (2025-10-16T07:38:21Z) - Mobile-Agent-v3: Fundamental Agents for GUI Automation [59.775510710011325]
本稿では,オープンソースエンド・ツー・エンド・モデル間の最先端性能を実現する基礎的なGUIエージェントモデルを提案する。
汎用GUIエージェントフレームワークであるMobile-Agent-v3を提案し,AndroidWorldでは73.3,OSWorldでは37.7に向上した。
論文 参考訳(メタデータ) (2025-08-21T00:39:12Z) - OSUniverse: Benchmark for Multimodal GUI-navigation AI Agents [0.0]
OSUniverseは、高度なGUIナビゲーションAIエージェントのための複雑なマルチモーダルデスクトップ指向タスクのベンチマークである。
タスクを、基本的な精度のクリックからマルチステップ、ディクスタリティ、精度、エージェントからの明確な思考といった複雑さのレベルに分割する。
ベンチマークは手動で評価できるが、平均エラー率2%未満の自動検証機構も導入する。
論文 参考訳(メタデータ) (2025-05-06T14:29:47Z) - Does Chain-of-Thought Reasoning Help Mobile GUI Agent? An Empirical Study [4.18969040567543]
本稿では,モバイルGUIエージェントにおける推論可能な視覚言語モデル(VLM)の有効性に関する実証的研究を行った。
我々は、Gemini 2.0 FlashとClaude 3.7 Sonnetの2つの商用モデルを評価する。
Claude 3.7 Sonnet推論モデルは、AndroidWorldで最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2025-03-21T01:52:43Z) - MobileVLM : A Fast, Strong and Open Vision Language Assistant for Mobile
Devices [73.46317110474064]
MobileVLM (MobileVLM) は、モバイルデバイス上で動作する多モード視覚言語モデル(MMVLM)である。
これは、CLIP方式で事前訓練されたマルチモーダル視覚モデルである、スクラッチからトレーニングされた1.4Bと2.7Bのスケールの言語モデルで構成されている。
論文 参考訳(メタデータ) (2023-12-28T08:21:24Z) - Autonomous Large Language Model Agents Enabling Intent-Driven Mobile GUI
Testing [17.24045904273874]
そこで我々は,Android用の自動GUIテストエージェントであるDroidAgentを提案する。
これはLarge Language Modelと、長期記憶や短期記憶などのサポートメカニズムに基づいている。
DroidAgentは61%のアクティビティカバレッジを達成したが、現在の最先端のGUIテスト技術では51%だった。
論文 参考訳(メタデータ) (2023-11-15T01:59:40Z) - AutoDroid: LLM-powered Task Automation in Android [32.241570727243534]
モバイルタスク自動化システムであるAutoDroidを紹介した。
主なコンポーネントは、LLMでUIをブリッジする機能対応UI表現メソッドである。
我々は、メモリ拡張Androidタスク自動化のための新しいベンチマークで、その性能を158の共通タスクで評価した。
論文 参考訳(メタデータ) (2023-08-29T13:02:30Z) - Multi-Objective Improvement of Android Applications [10.660480034605243]
7つのAndroidアプリの21バージョンのテストを書き、パフォーマンス改善のための新しいベンチマークを作成しました。
我々は、改良されたソフトウェアを見つけるために、ソフトウェア変種の範囲をナビゲートする検索ベースの技術である、遺伝的改善を使用している。
これらのアプリでは、実行時間を最大35%改善し、メモリ使用量を最大33%改善しました。
論文 参考訳(メタデータ) (2023-08-22T12:26:43Z) - Real-Time Execution of Large-scale Language Models on Mobile [49.32610509282623]
BERTの最良のモデル構造は,特定のデバイスに適合する計算サイズである。
我々のフレームワークは、モバイルデバイスのリソース仕様とリアルタイム仕様の両方を満たすための特定モデルを保証することができる。
具体的には、当社のモデルはCPUでは5.2倍、GPUでは4.1倍、BERTベースでは0.5-2%の精度損失がある。
論文 参考訳(メタデータ) (2020-09-15T01:59:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。