論文の概要: LightAgent: Mobile Agentic Foundation Models
- arxiv url: http://arxiv.org/abs/2510.22009v1
- Date: Fri, 24 Oct 2025 20:23:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:14.734137
- Title: LightAgent: Mobile Agentic Foundation Models
- Title(参考訳): LightAgent: モバイルエージェント財団モデル
- Authors: Yangqin Jiang, Chao Huang,
- Abstract要約: 本稿では,デバイスとクラウドのコラボレーションを活用して,デバイス上でのモデルのコスト効率とクラウドモデルの高機能化を実現するモバイルエージェントモデルソリューションを提案する。
具体的には、強力な意思決定のための合成GUIデータの2段階SFT->GRPOトレーニングにより、Qwen2.5-VL-3Bを強化する。
オンラインのAndroidLabベンチマークと多様なアプリの実験では、LightAgentのマッチや、より大きなモデルに近いものがあり、クラウドコストは大幅に削減されている。
- 参考スコア(独自算出の注目度): 8.847692192802343
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the advancement of multimodal large language models (MLLMs), building GUI agent systems has become an increasingly promising direction-especially for mobile platforms, given their rich app ecosystems and intuitive touch interactions. Yet mobile GUI agents face a critical dilemma: truly on-device models (4B or smaller) lack sufficient performance, while capable models (starting from 7B) are either too large for mobile deployment or prohibitively costly (e.g., cloud-only closed-source MLLMs). To resolve this, we propose LightAgent, a mobile agentic foundation model solution that leverages device-cloud collaboration to tap the cost-efficiency of on-device models and the high capability of cloud models, while avoiding their drawbacks. Specifically, LightAgent enhances Qwen2.5-VL-3B via two-stage SFT->GRPO training on synthetic GUI data for strong decision-making, integrates an efficient long-reasoning mechanism to utilize historical interactions under tight resources, and defaults to on-device execution-only escalating challenging subtasks to the cloud via real-time complexity assessment. Experiments on the online AndroidLab benchmark and diverse apps show LightAgent matches or nears larger models, with a significant reduction in cloud costs.
- Abstract(参考訳): マルチモーダルな大規模言語モデル(MLLM)の進歩により、GUIエージェントシステムの構築は、モバイルプラットフォーム、特にリッチなアプリエコシステムと直感的なタッチインタラクションを考えると、ますます有望な方向に向かっている。
しかし、モバイルGUIエージェントは重要なジレンマに直面している。真にオンデバイスモデル(4B以下)は十分なパフォーマンスを欠いているのに対して、有能モデル(7Bから始まる)はモバイルデプロイメントには大きすぎるか、あるいは不当にコストがかかる(クラウドのみのクローズドソースMLLMなど)。
これを解決するために,デバイスとクラウドのコラボレーションを活用したモバイルエージェントモデルであるLightAgentを提案し,その欠点を回避しつつ,オンデバイスモデルのコスト効率とクラウドモデルの高機能を実現する。
具体的には、強力な意思決定のための合成GUIデータに対する2段階のSFT->GRPOトレーニングを通じてQwen2.5-VL-3Bを強化し、厳密なリソース下での歴史的なインタラクションを有効活用するための効率的なロング推論機構を統合し、リアルタイムの複雑性評価を通じて、デバイス上での実行のみをエスカレートする挑戦的なサブタスクを、デフォルトでクラウドにエスカレートする。
オンラインのAndroidLabベンチマークと多様なアプリの実験では、LightAgentのマッチや、より大きなモデルに近いものがあり、クラウドコストは大幅に削減されている。
関連論文リスト
- Hi-Agent: Hierarchical Vision-Language Agents for Mobile Device Control [72.43808515668947]
モバイル制御のためのトレーニング可能な階層型視覚言語エージェントであるHi-Agentを紹介する。
Hi-Agentは高レベルの推論モデルと、共同最適化された低レベルのアクションモデルを備えている。
Hi-Agentは、Android-in-the-Wild(AitW)ベンチマークで、新しいState-Of-The-Art(SOTA)87.9%タスクの成功率を達成した。
論文 参考訳(メタデータ) (2025-10-16T07:38:21Z) - Towards On-Device Personalization: Cloud-device Collaborative Data Augmentation for Efficient On-device Language Model [43.13807038270687]
CDCDA-PLMは、強力なクラウドベースのLLMのサポートにより、デバイス上でパーソナライズされた言語モデルをユーザデバイスにデプロイするためのフレームワークである。
実データと合成データの両方を用いて、パーソナライズされたオンデバイス言語モデル(LM)は、パラメータ効率の細かいチューニング(PEFT)モジュールを介して微調整される。
論文 参考訳(メタデータ) (2025-08-29T02:33:13Z) - Fast and Cost-effective Speculative Edge-Cloud Decoding with Early Exits [11.398891065175686]
大型言語モデル(LLM)は、スマートフォン、ウェアラブル、エンボディロボットなどのエッジデバイス上の様々なアプリケーションを可能にする。
LLMはデバイス上でデプロイ可能で、レイテンシを低減し、プライバシを改善したコスト効率の高いソリューションを提供する。
本稿では,サーバ上での大きなターゲットモデルとデバイス上での小さなドラフトモデルを備えた,高速で費用対効果の高いエッジクラウドデコーディングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-27T14:55:16Z) - Toward Super Agent System with Hybrid AI Routers [19.22599167969104]
スーパーエージェントは、要約、コーディング、研究など、多様なユーザニーズを満たすことができる。
本稿では,ハイブリッドAIルータを用いたスーパーエージェントシステムの設計について述べる。
マルチモダリティモデルとエッジハードウェアの進歩により、ほとんどの計算はローカルで処理でき、クラウドのコラボレーションは必要なだけである、と私たちは考えています。
論文 参考訳(メタデータ) (2025-04-11T00:54:56Z) - Liquid: Language Models are Scalable and Unified Multi-modal Generators [112.71734051183726]
Liquidは視覚的理解と生成をシームレスに統合する自動回帰生成パラダイムである。
従来のマルチモーダルな大言語モデル(MLLM)とは異なり、Liquidは単一の大言語モデルを用いてこの統合を実現する。
初めてLiquidは、ビジュアルタスクと言語タスクの統一トレーニングによって必然的にパフォーマンスが低下する、スケーリングの法則を明らかにした。
論文 参考訳(メタデータ) (2024-12-05T16:48:16Z) - xLAM: A Family of Large Action Models to Empower AI Agent Systems [111.5719694445345]
AIエージェントタスク用に設計された大規模なアクションモデルであるxLAMをリリースする。
xLAMは、複数のエージェント能力ベンチマークで例外的なパフォーマンスを提供する。
論文 参考訳(メタデータ) (2024-09-05T03:22:22Z) - Cloud-Device Collaborative Learning for Multimodal Large Language Models [24.65882336700547]
本稿では,クラウド・デバイス協調型継続的適応フレームワークを導入し,デバイス分割型MLLMの性能向上を図る。
当社のフレームワークは,効率的なデータ伝送のためのデバイス間アップリンク,クラウドベースの知識適応,モデルデプロイメントのための最適化されたクラウド間ダウンリンクという,3つの重要なコンポーネントで構成されています。
論文 参考訳(メタデータ) (2023-12-26T18:46:14Z) - Cloud-Device Collaborative Adaptation to Continual Changing Environments
in the Real-world [20.547119604004774]
本稿では,クラウドとデバイス間の協調を促進するクラウドデバイス協調型継続的適応の新たな学習パラダイムを提案する。
また、クラウド上の大規模モデルの一般化能力をデバイスモデルに転送するための教師学生モデルとして、不確実性に基づくVisual Prompt Adapted (U-VPA)を提案する。
提案するU-VPA教師学生フレームワークは,従来の最先端テスト時間適応とデバイスクラウド協調手法より優れていた。
論文 参考訳(メタデータ) (2022-12-02T05:02:36Z) - DUET: A Tuning-Free Device-Cloud Collaborative Parameters Generation Framework for Efficient Device Model Generalization [66.27399823422665]
デバイスモデル一般化(Device Model Generalization, DMG)は、デバイス上での機械学習アプリケーションにおいて、実用的ながら実証されていない研究トピックである。
本稿では,Device-cloUdコラボレーティブパラメトリクスフレームワークDUETを提案する。
論文 参考訳(メタデータ) (2022-09-12T13:26:26Z) - Device-Cloud Collaborative Learning for Recommendation [50.01289274123047]
集中型クラウドモデルにより「数千人のモデルを持つ何千人もの人」を効率的に実現する新しいMetaPatch学習手法をデバイス側で提案します。
数十億の更新されたパーソナライズされたデバイスモデルにより、集中型クラウドモデルを更新する"モデルオーバーモデル"蒸留アルゴリズム、すなわちMoMoDistillを提案する。
論文 参考訳(メタデータ) (2021-04-14T05:06:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。