論文の概要: Lightweight Neural App Control
- arxiv url: http://arxiv.org/abs/2410.17883v1
- Date: Wed, 23 Oct 2024 13:57:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-24 13:56:03.049013
- Title: Lightweight Neural App Control
- Title(参考訳): 軽量ニューラルアプリ制御
- Authors: Filippos Christianos, Georgios Papoudakis, Thomas Coste, Jianye Hao, Jun Wang, Kun Shao,
- Abstract要約: 本稿では,様々なAndroidアプリ間での効率的なインタラクションとコントロールを実現するために,新しい携帯電話制御アーキテクチャである「アプリエージェント」を紹介した。
提案された軽量マルチモーダルアプリ制御(LiMAC)は、スクリーンショットや対応するUIツリーなどの過去のモバイル観測のテキスト目標とシーケンスを入力として、正確なアクションを生成する。
- 参考スコア(独自算出の注目度): 42.820784178464656
- License:
- Abstract: This paper introduces a novel mobile phone control architecture, termed ``app agents", for efficient interactions and controls across various Android apps. The proposed Lightweight Multi-modal App Control (LiMAC) takes as input a textual goal and a sequence of past mobile observations, such as screenshots and corresponding UI trees, to generate precise actions. To address the computational constraints inherent to smartphones, within LiMAC, we introduce a small Action Transformer (AcT) integrated with a fine-tuned vision-language model (VLM) for real-time decision-making and task execution. We evaluate LiMAC on two open-source mobile control datasets, demonstrating the superior performance of our small-form-factor approach against fine-tuned versions of open-source VLMs, such as Florence2 and Qwen2-VL. It also significantly outperforms prompt engineering baselines utilising closed-source foundation models like GPT-4o. More specifically, LiMAC increases the overall action accuracy by up to 19% compared to fine-tuned VLMs, and up to 42% compared to prompt-engineering baselines.
- Abstract(参考訳): 本稿では,多様なAndroidアプリ間での効率的なインタラクションと制御を実現するために, 'app Agent' と呼ばれる新しい携帯電話制御アーキテクチャを提案する。
提案された軽量マルチモーダルアプリ制御(LiMAC)は、スクリーンショットや対応するUIツリーなどの過去のモバイル観測のテキスト目標とシーケンスを入力として、正確なアクションを生成する。
スマートフォン固有の計算制約に対処するため、LiMAC内では、リアルタイム意思決定とタスク実行のための微調整視覚言語モデル(VLM)と統合された小さなアクショントランスフォーマー(AcT)を導入する。
我々は2つのオープンソースのモバイル制御データセット上でLiMACを評価し、Florence2やQwen2-VLといったオープンソースのVLMの微調整バージョンに対して、我々の小さなフォームファクターアプローチの優れた性能を示す。
また、GPT-4oのようなクローズドソースファウンデーションモデルを利用して、エンジニアリングの素早いベースラインを著しく上回っている。
より具体的には、LiMACは細調整されたVLMと比較して、全体のアクション精度を最大19%向上し、プロンプトエンジニアリングベースラインよりも最大42%向上する。
関連論文リスト
- Mini-InternVL: A Flexible-Transfer Pocket Multimodal Model with 5% Parameters and 90% Performance [78.48606021719206]
Mini-InternVL は 1B から 4B までのパラメータを持つ一連の MLLM であり、パラメータの 5% しか持たない性能の90% を達成している。
我々は,ダウンストリームタスクにおける特化モデルの転送と性能向上を可能にする,Mini-InternVLの統一適応フレームワークを開発した。
論文 参考訳(メタデータ) (2024-10-21T17:58:20Z) - Large Language Model Performance Benchmarking on Mobile Platforms: A Thorough Evaluation [10.817783356090027]
大規模言語モデル(LLM)は、私たちの仕事や日常生活のあらゆる側面にますます統合されています。
ユーザのプライバシに関する懸念が高まり、これらのモデルがローカルに展開される傾向が強まっている。
急速に普及しているアプリケーションとして、市販のモバイルデバイスのパフォーマンスを懸念しています。
論文 参考訳(メタデータ) (2024-10-04T17:14:59Z) - NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。
トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。
我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文 参考訳(メタデータ) (2024-09-17T17:59:06Z) - Automated Text Scoring in the Age of Generative AI for the GPU-poor [49.1574468325115]
自動テキストスコアリングのためのオープンソースの小規模生成言語モデルの性能と効率を解析する。
以上の結果から, GLMは, 最先端の高性能化には至らず, 適正な調整が可能であることが示唆された。
論文 参考訳(メタデータ) (2024-07-02T01:17:01Z) - OpenVLA: An Open-Source Vision-Language-Action Model [131.74098076670103]
我々は、970kの現実世界のロボットデモの多様なコレクションに基づいて訓練されたオープンソースのVLAであるOpenVLAを紹介した。
OpenVLAは汎用的な操作の強力な結果を示し、RT-2-X (55B) のようなクローズドモデルよりも16.5%高い絶対的なタスク成功率を示した。
モデルチェックポイント、微調整ノートブック、そしてOpen X-Embodimentデータセット上で大規模にVLAをトレーニングするためのビルトインサポートを備えたPyTorchをリリースしています。
論文 参考訳(メタデータ) (2024-06-13T15:46:55Z) - MobileAIBench: Benchmarking LLMs and LMMs for On-Device Use Cases [81.70591346986582]
モバイル端末上でのLarge Language Models(LLM)とLarge Multimodal Models(LMM)を評価するためのベンチマークフレームワークであるMobileAIBenchを紹介する。
MobileAIBenchは、さまざまなサイズ、量子化レベル、タスクにわたるモデルを評価し、実際のデバイス上でのレイテンシとリソース消費を測定する。
論文 参考訳(メタデータ) (2024-06-12T22:58:12Z) - Confidant: Customizing Transformer-based LLMs via Collaborative Edge
Training [18.526329975259483]
トランスフォーマーベースの大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて印象的な機能を示している。
コンピューティング、メモリ、エネルギー予算に制限のあるモバイルエッジデバイスにLSMをデプロイし、微調整することは困難である。
我々は,コモディティモバイルデバイス上での最先端のLCMをカスタマイズするためのマルチバックエンド協調学習フレームワークであるConfidantを提案する。
論文 参考訳(メタデータ) (2023-11-22T13:20:59Z) - MACP: Efficient Model Adaptation for Cooperative Perception [23.308578463976804]
協調機能を備えた単エージェント事前学習モデルを備えたMACPという新しいフレームワークを提案する。
提案手法は,協調観測を効果的に活用し,他の最先端手法より優れていることを示す。
論文 参考訳(メタデータ) (2023-10-25T14:24:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。