論文の概要: CORE: Reducing UI Exposure in Mobile Agents via Collaboration Between Cloud and Local LLMs
- arxiv url: http://arxiv.org/abs/2510.15455v1
- Date: Fri, 17 Oct 2025 09:11:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 20:17:34.551358
- Title: CORE: Reducing UI Exposure in Mobile Agents via Collaboration Between Cloud and Local LLMs
- Title(参考訳): CORE: クラウドとローカルLLMのコラボレーションによるモバイルエージェントのUI露出削減
- Authors: Gucongcong Fan, Chaoyue Niu, Chengfei Lyu, Fan Wu, Guihai Chen,
- Abstract要約: モバイルエージェントは、スマートフォンユーザインタフェース(UI)上でタスクを計画し実行するために、LLM(Large Language Models)に依存している。
我々は,クラウドとローカルLLMの強みを組み合わせた$textbfCO$llaborativeフレームワークである$textbfCOREを提案する。
COREはUI露出を最大55.6%削減し、タスク成功率はクラウドのみのエージェントよりわずかに低い。
- 参考スコア(独自算出の注目度): 29.04298076917338
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mobile agents rely on Large Language Models (LLMs) to plan and execute tasks on smartphone user interfaces (UIs). While cloud-based LLMs achieve high task accuracy, they require uploading the full UI state at every step, exposing unnecessary and often irrelevant information. In contrast, local LLMs avoid UI uploads but suffer from limited capacity, resulting in lower task success rates. We propose $\textbf{CORE}$, a $\textbf{CO}$llaborative framework that combines the strengths of cloud and local LLMs to $\textbf{R}$educe UI $\textbf{E}$xposure, while maintaining task accuracy for mobile agents. CORE comprises three key components: (1) $\textbf{Layout-aware block partitioning}$, which groups semantically related UI elements based on the XML screen hierarchy; (2) $\textbf{Co-planning}$, where local and cloud LLMs collaboratively identify the current sub-task; and (3) $\textbf{Co-decision-making}$, where the local LLM ranks relevant UI blocks, and the cloud LLM selects specific UI elements within the top-ranked block. CORE further introduces a multi-round accumulation mechanism to mitigate local misjudgment or limited context. Experiments across diverse mobile apps and tasks show that CORE reduces UI exposure by up to 55.6% while maintaining task success rates slightly below cloud-only agents, effectively mitigating unnecessary privacy exposure to the cloud. The code is available at https://github.com/Entropy-Fighter/CORE.
- Abstract(参考訳): モバイルエージェントは、スマートフォンユーザーインターフェイス(UI)上でタスクを計画し実行するために、LLM(Large Language Models)に依存している。
クラウドベースのLLMは高いタスク精度を達成するが、すべてのステップで完全なUI状態をアップロードする必要がある。
対照的に、ローカルなLLMはUIアップロードを避けるが、限られた能力に悩まされ、タスクの成功率が低下する。
モバイルエージェントのタスク精度を維持しつつ,クラウドとローカル LLM の強みを組み合わせた $\textbf{CORE}$, $\textbf{CO}$llaborative フレームワークを UI $\textbf{R}$educe UI $\textbf{E}$xposure に提案する。
COREは、(1) $\textbf{Layout-aware block partitioning}$、(2)$\textbf{Co-planning}$、ローカルおよびクラウドのLLMが協調して現在のサブタスクを識別する$、(3)$\textbf{Co-decision-making}$、ローカルのLLMが関連するUIブロックをランク付けし、クラウドのLLMが上位ブロック内の特定のUI要素を選択する。
COREはさらに、局所的な偏見や限定的なコンテキストを軽減するために、複数ラウンドの蓄積メカニズムを導入している。
多様なモバイルアプリやタスクにわたる実験によると、COREはUIの露出を最大55.6%削減し、タスクの成功率をクラウドのみのエージェントよりわずかに低く保ち、クラウドへの不要なプライバシの露出を効果的に軽減している。
コードはhttps://github.com/Entropy-Fighter/COREで公開されている。
関連論文リスト
- EcoAgent: An Efficient Edge-Cloud Collaborative Multi-Agent Framework for Mobile Automation [36.08217588070538]
マルチモーダル(multimodal)な大規模言語モデル((M)LLM)をベースとするクラウドベースのモバイルエージェントは、強力な推論能力を提供するが、レイテンシとコストに悩まされる。
textbfEdge-textbfCloud ctextbfOllaborative multi-agent framework for mobile automation。
EcoAgentはクラウドベースの計画エージェントとエッジベースの2つのエージェント – アクション実行のための実行エージェントと結果を検証する監視エージェント – のクローズドループコラボレーションを特徴としている。
論文 参考訳(メタデータ) (2025-05-08T17:31:20Z) - AdaSwitch: Adaptive Switching between Small and Large Agents for Effective Cloud-Local Collaborative Learning [36.37717583840935]
本研究では,大規模クラウドベースLLMと小規模ローカルデプロイLLMの協調運用を容易にする新しいLCM利用パラダイムを提案する。
本フレームワークは,比較的小型のLLMをインスタンス化したローカルエージェントと,大型のLLMを搭載したクラウドエージェントの2つの主要モジュールから構成される。
この協調処理は、ローカルエージェントがエラーを内観的に識別し、クラウドエージェントから積極的に支援を求める適応機構によって実現される。
論文 参考訳(メタデータ) (2024-10-17T03:07:37Z) - TinyClick: Single-Turn Agent for Empowering GUI Automation [0.18846515534317265]
視覚言語モデル Florence-2-Base を用いたユーザインタフェース(UI)インタラクションタスクのためのUIエージェントを提案する。
エージェントの主なタスクは、ユーザのコマンドに対応するUI要素の画面座標を特定することである。
これはScreenspotとOmniActアノテーションで非常に強力なパフォーマンスを示し、非常に小さなサイズの0.27Bパラメータと最小のレイテンシを維持している。
論文 参考訳(メタデータ) (2024-10-09T12:06:43Z) - Towards Efficient LLM Grounding for Embodied Multi-Agent Collaboration [68.29746557968107]
本稿では,多エージェント協調のための新しいフレームワークを提案する。これは,効率的な自己調整のための強化アドバンテージフィードバック(Reinforced Advantage feedback, ReAd)を導入する。
Over-AIと難解なRoCoBenchの実験は、ReAdが成功率のベースラインを超え、エージェントの相互作用ステップを著しく減少させることを示している。
論文 参考訳(メタデータ) (2024-05-23T08:33:19Z) - A Dynamic LLM-Powered Agent Network for Task-Oriented Agent Collaboration [55.35849138235116]
本稿では,様々なタスクやドメインに対する動的コミュニケーション構造において,候補からエージェントのチームを自動的に選択する手法を提案する。
具体的には, LLMを利用したエージェント協調のための動的LLMパワーエージェントネットワーク(textDyLAN$)というフレームワークを構築した。
我々は、コード生成、意思決定、一般的な推論、算術的推論タスクにおいて、適度な計算コストで、DyLANが強力なベースラインを上回ることを実証する。
論文 参考訳(メタデータ) (2023-10-03T16:05:48Z) - Enabling Intelligent Interactions between an Agent and an LLM: A Reinforcement Learning Approach [31.6589518077397]
大規模言語モデル(LLM)は、大量のテキストデータセットから得られた膨大な量の世界の知識を符号化する。
LLMは、高レベルな命令を提供することで、複雑なシーケンシャルな意思決定タスクを解決するための実施エージェントを支援することができる。
本研究では,高レベルの命令に対してLLMを問合せする必要がある場合に学習する強化学習ベースのアプローチである When2Ask を提案する。
論文 参考訳(メタデータ) (2023-06-06T11:49:09Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z) - Low-code LLM: Graphical User Interface over Large Language Models [115.08718239772107]
本稿では,人間-LLMインタラクションフレームワークであるLow-code LLMを紹介する。
より制御可能で安定した応答を実現するために、6種類のシンプルなローコードビジュアルプログラミングインタラクションを組み込んでいる。
ユーザフレンドリなインタラクション,制御可能な生成,広い適用性という,低コード LLM の3つの利点を強調した。
論文 参考訳(メタデータ) (2023-04-17T09:27:40Z) - From Images to Textual Prompts: Zero-shot VQA with Frozen Large Language
Models [111.42052290293965]
大規模言語モデル(LLM)は、新しい言語タスクに対して優れたゼロショット一般化を証明している。
視覚と言語データに対するエンドツーエンドのトレーニングは、切断を橋渡しするかもしれないが、柔軟性がなく、計算コストがかかる。
上述したモダリティとタスクの切断をブリッジできるプロンプトを提供するプラグイン・アンド・プレイモジュールであるemphImg2Promptを提案する。
論文 参考訳(メタデータ) (2022-12-21T08:39:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。