論文の概要: Less is More: Empowering GUI Agent with Context-Aware Simplification
- arxiv url: http://arxiv.org/abs/2507.03730v1
- Date: Fri, 04 Jul 2025 17:37:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.854005
- Title: Less is More: Empowering GUI Agent with Context-Aware Simplification
- Title(参考訳): 詳細: コンテキスト対応の単純化によるGUIエージェントの強化
- Authors: Gongwei Chen, Xurui Zhou, Rui Shao, Yibo Lyu, Kaiwen Zhou, Shuai Wang, Wentao Li, Yinchuan Li, Zhongang Qi, Liqiang Nie,
- Abstract要約: 我々は,SimpAgentと呼ばれる,効率的かつ効果的なGUIエージェントを構築するためのコンテキスト認識フレームワークを提案する。
上記のコンポーネントにより、SimpAgentは27%のFLOPを削減し、優れたGUIナビゲーション性能を実現する。
- 参考スコア(独自算出の注目度): 62.02157661751793
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The research focus of GUI agents is shifting from text-dependent to pure-vision-based approaches, which, though promising, prioritize comprehensive pre-training data collection while neglecting contextual modeling challenges. We probe the characteristics of element and history contextual modeling in GUI agent and summarize: 1) the high-density and loose-relation of element context highlight the existence of many unrelated elements and their negative influence; 2) the high redundancy of history context reveals the inefficient history modeling in current GUI agents. In this work, we propose a context-aware simplification framework for building an efficient and effective GUI Agent, termed SimpAgent. To mitigate potential interference from numerous unrelated elements, we introduce a masking-based element pruning method that circumvents the intractable relation modeling through an efficient masking mechanism. To reduce the redundancy in historical information, we devise a consistency-guided history compression module, which enhances implicit LLM-based compression through innovative explicit guidance, achieving an optimal balance between performance and efficiency. With the above components, SimpAgent reduces 27% FLOPs and achieves superior GUI navigation performances. Comprehensive navigation experiments across diverse web and mobile environments demonstrate the effectiveness and potential of our agent.
- Abstract(参考訳): GUIエージェントの研究の焦点は、テキスト依存から純粋ビジョンベースのアプローチへのシフトであり、これは有望ではあるが、コンテキストモデリングの課題を無視しながら、包括的な事前学習データ収集を優先している。
GUIエージェントにおける要素・履歴コンテキストモデリングの特徴を考察し,要約する。
1) 要素コンテキストの高密度かつゆるやかな関係は,無関係な要素の存在とその負の影響を浮き彫りにする。
2) 履歴コンテキストの冗長性が高いことから, 現在のGUIエージェントの非効率な履歴モデルが明らかになる。
そこで本研究では,SimpAgentと呼ばれる,効率的かつ効率的なGUIエージェントを構築するためのコンテキスト認識型簡易化フレームワークを提案する。
多数の非関連要素からの潜在的な干渉を軽減するため,効率的なマスキング機構を通じて,難解な関係モデリングを回避できるマスキングベースの要素解析手法を提案する。
歴史的情報の冗長性を低減するため,革新的な明示的ガイダンスによって暗黙的なLCM圧縮を向上し,性能と効率の最適バランスを実現する,一貫性誘導履歴圧縮モジュールを考案した。
上記のコンポーネントにより、SimpAgentは27%のFLOPを削減し、優れたGUIナビゲーション性能を実現する。
多様なWeb環境とモバイル環境における総合的なナビゲーション実験は,エージェントの有効性と可能性を示している。
関連論文リスト
- LAM SIMULATOR: Advancing Data Generation for Large Action Model Training via Online Exploration and Trajectory Feedback [121.78866929908871]
AIエージェントのための大規模アクションモデル(LAM)は、素晴らしいポテンシャルを提供するが、高品質なトレーニングデータを必要とするため、課題に直面している。
LAM SIMULATORは,高品質なフィードバックによるエージェントタスクのオンライン探索を目的とした総合的なフレームワークである。
本フレームワークは,動的タスククエリジェネレータ,広範囲なツールコレクション,および大規模言語モデル(LLM)エージェントがツールを呼び出し,リアルタイムフィードバックを受信できる対話型環境を備えている。
論文 参考訳(メタデータ) (2025-06-02T22:36:02Z) - AppAgentX: Evolving GUI Agents as Proficient Smartphone Users [34.70342284525283]
本稿では,インテリジェンスと柔軟性を維持しつつ,操作効率を向上させるGUIエージェントの進化的フレームワークを提案する。
本手法は,エージェントのタスク実行履歴を記録するメモリ機構を組み込んだものである。
複数のベンチマークタスクに対する実験結果から,本手法は既存の手法よりも効率と精度が優れていることが示された。
論文 参考訳(メタデータ) (2025-03-04T04:34:09Z) - Every SAM Drop Counts: Embracing Semantic Priors for Multi-Modality Image Fusion and Beyond [52.486290612938895]
本稿では,Segment Anything Model (SAM) のセグメンテーションモデルからのセグメンテーション知識を利用して,融合結果の質を向上し,下流タスク適応性を実現する手法を提案する。
具体的には、SAMから高レベルなセマンティック・セマンティック・セマンティック・セマンティック・セマンティック・アテンション(SPA)モジュールを抽出し、永続リポジトリを介してソース情報を効率的に保持する。
本手法は,実運用効率を維持しつつ,高品質な視覚結果と下流タスク適応性のバランスを実現する。
論文 参考訳(メタデータ) (2025-03-03T06:16:31Z) - Iris: Breaking GUI Complexity with Adaptive Focus and Self-Refining [67.87810796668981]
インフォメーション・インフォメーション・インフォメーション・クロッピング(ISC)と自己精製デュアルラーニング(SRDL)
Irisは850KのGUIアノテーションだけで、複数のベンチマークで最先端のパフォーマンスを実現している。
これらの改善は、WebとOSエージェントの両方の下流タスクで大幅に向上した。
論文 参考訳(メタデータ) (2024-12-13T18:40:10Z) - Textualized Agent-Style Reasoning for Complex Tasks by Multiple Round LLM Generation [49.27250832754313]
我々は、llmベースの自律エージェントフレームワークであるAgentCOTを紹介する。
それぞれのステップで、AgentCOTはアクションを選択し、それを実行して、証拠を裏付ける中間結果を得る。
エージェントCOTの性能を高めるための2つの新しい戦略を導入する。
論文 参考訳(メタデータ) (2024-09-19T02:20:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。