論文の概要: From User Interface to Agent Interface: Efficiency Optimization of UI Representations for LLM Agents
- arxiv url: http://arxiv.org/abs/2512.13438v1
- Date: Mon, 15 Dec 2025 15:34:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.725549
- Title: From User Interface to Agent Interface: Efficiency Optimization of UI Representations for LLM Agents
- Title(参考訳): ユーザインタフェースからエージェントインターフェースへ: LLMエージェントのUI表現の効率最適化
- Authors: Dezhi Ran, Zhi Gong, Yuzhe Guo, Mengzhou Wu, Yuan Cao, Haochuan Lu, Hengyu Zhang, Xia Zeng, Gang Cao, Liangchao Yao, Yuetang Deng, Wei Yang, Tao Xie,
- Abstract要約: 大きな言語モデル(LLM)エージェントは、自動UIテストやAIアシスタントなど、UIナビゲーションの自動化に大きな可能性を示している。
大規模言語モデル(LLM)エージェントは、自動UIテストやAIアシスタントなど、自動UIナビゲーションの優れた可能性を示しているが、その効率はほとんど見過ごされている。
制約ベースの最適化によってUI変換プログラムを合成する,最初の自動最適化フレームワークであるUIFormerを紹介する。
- 参考スコア(独自算出の注目度): 21.811753076804944
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Large Language Model (LLM) agents show great potential for automated UI navigation such as automated UI testing and AI assistants, their efficiency has been largely overlooked. Our motivating study reveals that inefficient UI representation creates a critical performance bottleneck. However, UI representation optimization, formulated as the task of automatically generating programs that transform UI representations, faces two unique challenges. First, the lack of Boolean oracles, which traditional program synthesis uses to decisively validate semantic correctness, poses a fundamental challenge to co-optimization of token efficiency and completeness. Second, the need to process large, complex UI trees as input while generating long, compositional transformation programs, making the search space vast and error-prone. Toward addressing the preceding limitations, we present UIFormer, the first automated optimization framework that synthesizes UI transformation programs by conducting constraint-based optimization with structured decomposition of the complex synthesis task. First, UIFormer restricts the program space using a domain-specific language (DSL) that captures UI-specific operations. Second, UIFormer conducts LLM-based iterative refinement with correctness and efficiency rewards, providing guidance for achieving the efficiency-completeness co-optimization. UIFormer operates as a lightweight plugin that applies transformation programs for seamless integration with existing LLM agents, requiring minimal modifications to their core logic. Evaluations across three UI navigation benchmarks spanning Android and Web platforms with five LLMs demonstrate that UIFormer achieves 48.7% to 55.8% token reduction with minimal runtime overhead while maintaining or improving agent performance. Real-world industry deployment at WeChat further validates the practical impact of UIFormer.
- Abstract(参考訳): 大規模言語モデル(LLM)エージェントは、自動UIテストやAIアシスタントなど、自動UIナビゲーションの優れた可能性を示しているが、その効率はほとんど見過ごされている。
私たちのモチベーション調査では、非効率なUI表現が重要なパフォーマンスボトルネックを生み出します。
しかし、UI表現の最適化は、UI表現を変換するプログラムを自動生成するタスクとして定式化され、2つの固有の課題に直面している。
第一に、従来のプログラム合成が意味的正当性を決定的に検証するために使用しているブールオラクルの欠如は、トークン効率と完全性の共同最適化に根本的な課題をもたらす。
第二に、大規模な複雑なUIツリーを入力として処理し、長い構成変換プログラムを生成して、検索スペースを大きくし、エラーを発生させる必要がある。
上記の制限に対処するために,UIFormerを提案する。UIFormerは,複雑な合成タスクの構造的分解を伴う制約ベースの最適化を実行することで,UI変換プログラムを合成する最初の自動最適化フレームワークである。
まず、UIFormerは、UI固有の操作をキャプチャするドメイン固有言語(DSL)を使用して、プログラム空間を制限する。
第二に、UIFormer は LLM ベースの反復的な改善を正しさと効率の報酬で実施し、効率-完全性共最適化を達成するためのガイダンスを提供する。
UIFormerは、既存のLLMエージェントとのシームレスな統合のために変換プログラムを適用する軽量なプラグインとして動作し、コアロジックの変更を最小限に抑える必要がある。
AndroidとWebプラットフォームにまたがる3つのUIナビゲーションベンチマークと5つのLCMによる評価は、UIFormerが48.7%から55.8%のトークン削減を実現し、実行時のオーバーヘッドを最小限に抑えながら、エージェントのパフォーマンスを維持または改善していることを示している。
WeChatの実際の業界展開は、UIFormerの実践的影響をさらに検証している。
関連論文リスト
- AFRAgent : An Adaptive Feature Renormalization Based High Resolution Aware GUI agent [21.148033135113927]
インストラクトBLIPに基づくマルチモーダルアーキテクチャを導入し,GUI自動化における優れた性能を実現する。
低解像度画像埋め込みを効果的に強化する適応的特徴正規化(トークンレベルのアフィン変換)手法を提案する。
我々はAFRAgentをMeta-GUIおよびAITWベンチマークで評価し、スマートフォン自動化のための新しい最先端のベースラインを確立する。
論文 参考訳(メタデータ) (2025-11-30T11:32:54Z) - UI-UG: A Unified MLLM for UI Understanding and Generation [19.7078650905834]
UI-UG(UI理解と生成のための統合MLLM)を導入し、両方の機能を統合する。
タスク理解には,グループ相対政策最適化(GRPO)を併用したスーパービジョンファインチューニング(SFT)を用い,より詳細な理解を深める。
生成タスクでは、さらにDPO(Direct Preference Optimization)を使用して、モデルが人間の好みのUIを生成する。
論文 参考訳(メタデータ) (2025-09-29T06:59:09Z) - Less is More: Empowering GUI Agent with Context-Aware Simplification [62.02157661751793]
我々は,SimpAgentと呼ばれる,効率的かつ効果的なGUIエージェントを構築するためのコンテキスト認識フレームワークを提案する。
上記のコンポーネントにより、SimpAgentは27%のFLOPを削減し、優れたGUIナビゲーション性能を実現する。
論文 参考訳(メタデータ) (2025-07-04T17:37:15Z) - ContextFormer: Redefining Efficiency in Semantic Segmentation [48.81126061219231]
畳み込み法は、局所的な依存関係をうまく捉えるが、長距離関係に苦慮する。
ビジョントランスフォーマー(ViT)は、グローバルなコンテキストキャプチャでは優れるが、高い計算要求によって妨げられる。
我々は,リアルタイムセマンティックセグメンテーションの効率,精度,堅牢性のバランスをとるために,CNN と ViT の強みを活用したハイブリッドフレームワーク ContextFormer を提案する。
論文 参考訳(メタデータ) (2025-01-31T16:11:04Z) - UI-TARS: Pioneering Automated GUI Interaction with Native Agents [58.18100825673032]
本稿では,GUIエージェントのネイティブモデルであるUI-TARSを紹介する。
OSWorldベンチマークでは、UI-TARSはスコアが24.6、50ステップが22.7、15ステップが22.7でクロード(それぞれ22.0と14.9)を上回っている。
論文 参考訳(メタデータ) (2025-01-21T17:48:10Z) - Iris: Breaking GUI Complexity with Adaptive Focus and Self-Refining [67.87810796668981]
インフォメーション・インフォメーション・インフォメーション・クロッピング(ISC)と自己精製デュアルラーニング(SRDL)
Irisは850KのGUIアノテーションだけで、複数のベンチマークで最先端のパフォーマンスを実現している。
これらの改善は、WebとOSエージェントの両方の下流タスクで大幅に向上した。
論文 参考訳(メタデータ) (2024-12-13T18:40:10Z) - Multi-Exit Semantic Segmentation Networks [78.44441236864057]
本稿では,最先端セグメンテーションモデルをMESSネットワークに変換するフレームワークを提案する。
パラメトリド早期出口を用いた特別訓練されたCNNは、より簡単なサンプルの推測時に、その深さに沿って保存する。
接続されたセグメンテーションヘッドの数、配置、アーキテクチャとエグジットポリシーを併用して、デバイス機能とアプリケーション固有の要件に適応する。
論文 参考訳(メタデータ) (2021-06-07T11:37:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。