論文の概要: SecAgent: Efficient Mobile GUI Agent with Semantic Context
- arxiv url: http://arxiv.org/abs/2603.08533v1
- Date: Mon, 09 Mar 2026 16:04:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:16.391394
- Title: SecAgent: Efficient Mobile GUI Agent with Semantic Context
- Title(参考訳): SecAgent: セマンティックコンテキストを持つ効率的なモバイルGUIエージェント
- Authors: Yiping Xie, Song Chen, Jingxuan Xing, Wei Jiang, Zekun Zhu, Yingyao Wang, Pi Bu, Jun Song, Yuning Jiang, Bo Zheng,
- Abstract要約: SecAgentは、3Bスケールで効率的なモバイルGUIエージェントである。
意味的文脈メカニズムは、履歴のスクリーンショットとアクションを簡潔で自然言語の要約に蒸留する。
トレーニングデータセット、ベンチマーク、モデル、コードをオープンソースにして、多言語モバイルGUI自動化の研究を前進させます。
- 参考スコア(独自算出の注目度): 14.843356281047543
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mobile Graphical User Interface (GUI) agents powered by multimodal large language models have demonstrated promising capabilities in automating complex smartphone tasks. However, existing approaches face two critical limitations: the scarcity of high-quality multilingual datasets, particularly for non-English ecosystems, and inefficient history representation methods. To address these challenges, we present SecAgent, an efficient mobile GUI agent at 3B scale. We first construct a human-verified Chinese mobile GUI dataset with 18k grounding samples and 121k navigation steps across 44 applications, along with a Chinese navigation benchmark featuring multi-choice action annotations. Building upon this dataset, we propose a semantic context mechanism that distills history screenshots and actions into concise, natural language summaries, significantly reducing computational costs while preserving task-relevant information. Through supervised and reinforcement fine-tuning, SecAgent outperforms similar-scale baselines and achieves performance comparable to 7B-8B models on our and public navigation benchmarks. We will open-source the training dataset, benchmark, model, and code to advance research in multilingual mobile GUI automation.
- Abstract(参考訳): モバイルグラフィカルユーザインタフェース(GUI)エージェントは,マルチモーダルな大規模言語モデルを用いて,複雑なスマートフォンタスクを自動化する上で有望な能力を実証している。
しかし、既存のアプローチでは、高品質な多言語データセットの不足、特に非英語のエコシステム、非効率な歴史表現方法の2つの限界に直面している。
これらの課題に対処するため,効率的なモバイルGUIエージェントSecAgentを3Bスケールで提案する。
まず、44のアプリケーションにわたる18kの接地サンプルと121kのナビゲーションステップを備えた、人間検証された中国のモバイルGUIデータセットと、マルチ選択アクションアノテーションを備えた中国のナビゲーションベンチマークを構築した。
このデータセットに基づいて,履歴のスクリーンショットやアクションを簡潔な自然言語要約に蒸留し,タスク関連情報を保存しながら計算コストを大幅に削減する意味文脈機構を提案する。
SecAgentは、教師付きおよび強化された微調整により、同様のスケールのベースラインを上回り、我々の公開ナビゲーションベンチマークで7B-8Bモデルに匹敵するパフォーマンスを達成する。
トレーニングデータセット、ベンチマーク、モデル、コードをオープンソースにして、多言語モバイルGUI自動化の研究を前進させます。
関連論文リスト
- AUTO-Explorer: Automated Data Collection for GUI Agent [58.58097564914626]
本稿では,アノテーションコストを最小限に抑えた自動データ収集手法であるAuto-Explorerを提案する。
それは、GUI環境を自律的に解析し探索する、シンプルだが効果的な探索メカニズムを組み込んでいる。
収集したデータを用いて,マルチモーダル大規模言語モデル(MLLM)を微調整し,GUI要素基盤テストセットを確立する。
論文 参考訳(メタデータ) (2025-11-09T15:13:45Z) - AgentCPM-GUI: Building Mobile-Use Agents with Reinforcement Fine-Tuning [82.42421823672954]
AgentCPM-GUIは、堅牢で効率的なオンデバイスGUIインタラクションのために構築されている。
私たちのトレーニングパイプラインには、知覚を高めるためのグラウンドアウェア事前トレーニングが含まれています。
AgentCPM-GUIは5つの公開ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-06-02T07:30:29Z) - AutoDroid-V2: Boosting SLM-based GUI Agents via Code Generation [27.984521240600493]
本稿では,UIタスク自動化問題を,デバイス上のSLMで効果的に解き,デバイス上のコードインタープリタで効率的に実行可能なコード生成問題に変換することを提案する。
私たちはドキュメント中心のアプローチを採用し、各アプリ用のきめ細かいAPIドキュメンテーションを自動的に構築し、多様なタスクサンプルを生成します。
最新のモバイルUIエージェントとの詳細な比較に基づいて,本手法はモバイルタスクの自動化を効果的に改善し,高い成功率と低レイテンシ/トーケン消費を実現した。
論文 参考訳(メタデータ) (2024-12-24T02:54:56Z) - ShowUI: One Vision-Language-Action Model for GUI Visual Agent [80.50062396585004]
グラフィカルユーザインタフェース(GUI)アシスタントの構築は、人間のワークフロー生産性を向上させるための大きな約束である。
デジタルワールドにおける視覚言語アクションモデル、すなわちShowUIを開発し、以下のイノベーションを特徴とする。
256Kデータを使用した軽量な2BモデルであるShowUIは、ゼロショットのスクリーンショットグラウンドで75.1%の精度を実現している。
論文 参考訳(メタデータ) (2024-11-26T14:29:47Z) - AMEX: Android Multi-annotation Expo Dataset for Mobile GUI Agents [45.644265025493276]
我々は,モバイルシナリオにおけるAIエージェントの研究を進めるために,Android Multi-Annotation EXpo (AMEX)を紹介した。
AMEXは、人気のあるモバイルアプリケーションの104万以上の高解像度スクリーンショットで構成されており、複数のレベルで注釈付けされている。
我々は、既存のデータセットの一般的な設定を補完し、より教育的かつ詳細な視点からこのデータセットを開発する。
論文 参考訳(メタデータ) (2024-07-03T17:59:58Z) - XTREME-UP: A User-Centric Scarce-Data Benchmark for Under-Represented
Languages [105.54207724678767]
データ不足は、多言語NLPシステムの開発において重要な問題である。
我々はXTREME-UPを提案する。XTREME-UPはゼロショットではなく、希少なデータシナリオに焦点を当てたベンチマークである。
XTREME-UPは、88言語にまたがる言語モデルが、9つのキーとなるユーザー中心技術上で機能する能力を評価する。
論文 参考訳(メタデータ) (2023-05-19T18:00:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。