論文の概要: Towards Scalable Lightweight GUI Agents via Multi-role Orchestration
- arxiv url: http://arxiv.org/abs/2604.13488v1
- Date: Wed, 15 Apr 2026 05:23:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-16 20:38:32.39543
- Title: Towards Scalable Lightweight GUI Agents via Multi-role Orchestration
- Title(参考訳): マルチロールオーケストレーションによるスケーラブル軽量GUIエージェントの実現に向けて
- Authors: Ziwei Wang, Junjie Zheng, Leyang Yang, Sheng Zhou, Xiaoxuan Tang, Zhouhua Fang, Zhiwei Liu, Dajun Chen, Yong Li, Jiajun Bu,
- Abstract要約: 本稿では,GUI固有の知識とタスクスケーラビリティを備えた軽量MLLMを実現するLAMOフレームワークを提案する。
我々は,タスクスケーラブルなネイティブGUIエージェントLAMO-3Bを開発し,モノリシックな実行とMASスタイルのオーケストレーションをサポートする。
- 参考スコア(独自算出の注目度): 26.13785805540596
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autonomous Graphical User Interface (GUI) agents powered by Multimodal Large Language Models (MLLMs) enable digital automation on end-user devices. While scaling both parameters and data has yielded substantial gains, advanced methods still suffer from prohibitive deployment costs on resource-constrained devices. When facing complex in-the-wild scenarios, lightweight GUI agents are bottlenecked by limited capacity and poor task scalability under end-to-end episodic learning, impeding adaptation to multi-agent systems (MAS), while training multiple skill-specific experts remains costly. Can we strike an effective trade-off in this cost-scalability dilemma, enabling lightweight MLLMs to participate in realistic GUI workflows? To address these challenges, we propose the LAMO framework, which endows a lightweight MLLM with GUI-specific knowledge and task scalability, allowing multi-role orchestration to expand its capability boundary for GUI automation. LAMO combines role-oriented data synthesis with a two-stage training recipe: (i) supervised fine-tuning with Perplexity-Weighted Cross-Entropy optimization for knowledge distillation and visual perception enhancement, and (ii) reinforcement learning for role-oriented cooperative exploration. With LAMO, we develop a task-scalable native GUI agent, LAMO-3B, supporting monolithic execution and MAS-style orchestration. When paired with advanced planners as a plug-and-play policy executor, LAMO-3B can continuously benefit from planner advances, enabling a higher performance ceiling. Extensive static and online evaluations validate the effectiveness of our design.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)を利用したGUI(Autonomous Graphical User Interface)エージェントは、エンドユーザデバイス上でのデジタル自動化を実現する。
パラメータとデータのスケーリングが大幅に向上した一方で、高度なメソッドは依然として、リソース制約のあるデバイスへのデプロイメントの禁止に悩まされている。
複雑なWildのシナリオに直面している場合、軽量GUIエージェントは、エンドツーエンドのエピソード学習において、限られた能力とタスクスケーラビリティの不足によってボトルネックになり、マルチエージェントシステム(MAS)への適応を妨げる一方で、複数のスキルに特化した専門家の訓練にはコストがかかる。
軽量MLLMが現実的なGUIワークフローに参加することができるように、コストスケーリングのジレンマにおいて効果的なトレードオフを達成できますか?
これらの課題に対処するため,我々は,GUI固有の知識とタスクのスケーラビリティを備えた軽量MLLMを実現するLAMOフレームワークを提案する。
LAMOはロール指向データ合成と2段階のトレーニングレシピを組み合わせる。
一 知識蒸留及び視覚知覚増強のための複雑度重み付きクロスエントロピー最適化による微調整の監督、及び
二 役割志向型協調探査のための強化学習
LAMOでは,タスクスケーラブルなネイティブGUIエージェントであるLAMO-3Bを開発し,モノリシックな実行とMASスタイルのオーケストレーションをサポートする。
アドバンストプランナーをプラグアンドプレイポリシーエグゼキュータとして組み合わせると、LAMO-3Bは連続的にプランナーの進歩の恩恵を受けることができ、より高い性能の天井を実現することができる。
大規模な静的およびオンライン評価は、我々の設計の有効性を検証する。
関連論文リスト
- CGL: Advancing Continual GUI Learning via Reinforcement Fine-Tuning [67.78566256784404]
Supervised Fine-Tuning (SFT) は高速な適応を可能にし、しばしば知識のオーバーライトを引き起こす。
強化学習(RL)は、事前の相互作用ロジックを消去から保護する固有のレジリエンスを示す。
textbfContinual textbfGUI textbfLearningフレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-03T13:02:20Z) - SWIRL: A Staged Workflow for Interleaved Reinforcement Learning in Mobile GUI Control [38.81034547191083]
マルチエージェントシステム用に設計されたインターリーブ強化学習のための段階的ワークフローであるSWIRLを紹介する。
SWIRLは、MARLを一連の単エージェント強化学習タスクに再構成し、一方のエージェントを一度に更新し、他方のエージェントを固定する。
モバイルGUI制御への応用において、SWIRLは言語とスクリーンコンテキストを構造化されたプランに変換するナビゲータと、これらのプランを実行可能なアトミックアクションに変換するインターアクターをインスタンス化する。
論文 参考訳(メタデータ) (2025-08-27T16:27:19Z) - Graph-Augmented Large Language Model Agents: Current Progress and Future Prospects [57.53024716739594]
グラフ拡張LDMエージェント(GLA)は複雑なエージェントシステムの構造、連続性、調整を強化する。
本稿では,最近の進歩の概要をタイムリーかつ包括的に紹介し,今後の研究の方向性を明らかにする。
本論文は,GLAにおける今後の研究のロードマップとして機能し,GLAエージェントシステムにおけるグラフの役割のより深い理解を促進することを願っている。
論文 参考訳(メタデータ) (2025-07-29T00:27:12Z) - ARPO:End-to-End Policy Optimization for GUI Agents with Experience Replay [88.74638385288773]
Agentic Replay Policy Optimizationは、複雑で長期のコンピュータタスクのパフォーマンスを改善する。
本稿では,ベースラインエージェントの性能に基づいてタスクをフィルタリングするタスク選択戦略を提案する。
OSWorldベンチマークの実験では、ARPOが競争結果を達成することを示した。
論文 参考訳(メタデータ) (2025-05-22T06:24:32Z) - API Agents vs. GUI Agents: Divergence and Convergence [37.13923771130588]
APIとGUIベースの大規模言語モデル(LLM)は、グラフィカルなユーザインターフェースを人間的な方法で操作する。
本稿では,それらの分散と潜在的収束を系統的に解析する。
LLMベースの自動化における継続的なイノベーションは、APIとGUI駆動エージェントの境界線を曖昧にする可能性があることを示唆している。
論文 参考訳(メタデータ) (2025-03-14T04:26:21Z) - Performant LLM Agentic Framework for Conversational AI [1.6114012813668932]
複雑なグラフをトラバースする際に,適切なノードを選択し,順に処理を実行する際に,LLM(Large Language Models)を支援する新しいシステムであるPerformant Agentic Framework(PAF)を紹介する。
PAFはLLMベースの推論と数学的に基底化されたベクトルスコアリング機構を組み合わせることで、高い精度とレイテンシの低減を実現している。
PAFは、複雑なビジネス環境において、スケーラブルでリアルタイムな会話型AIシステムを実現する方法として、ベースラインメソッドを著しく上回ることを示した。
論文 参考訳(メタデータ) (2025-03-09T02:58:34Z) - Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。
しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。
人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T18:49:25Z) - AgentPS: Agentic Process Supervision for Content Moderation with Multimodal LLMs [9.35901507816989]
本稿では,Agentic Process Supervisionを大規模言語モデルに統合するフレームワークであるAgentPSを紹介する。
我々は、AgentPSが、公開ベンチマークとプロプライエタリデータセットのベースラインMLLMよりも大幅に改善されていることを示す。
これらの結果は、大規模産業アプリケーションにおける複雑なマルチモーダル分類のためのスケーラブルで効果的なソリューションとして、AgentPSを確立している。
論文 参考訳(メタデータ) (2024-12-15T04:58:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。