論文の概要: AppVLM: A Lightweight Vision Language Model for Online App Control
- arxiv url: http://arxiv.org/abs/2502.06395v1
- Date: Mon, 10 Feb 2025 12:32:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:32:33.403702
- Title: AppVLM: A Lightweight Vision Language Model for Online App Control
- Title(参考訳): AppVLM: オンラインアプリケーション制御のための軽量ビジョン言語モデル
- Authors: Georgios Papoudakis, Thomas Coste, Zhihao Wu, Jianye Hao, Jun Wang, Kun Shao,
- Abstract要約: 軽量ビジョン言語モデル(VLM)であるAppVLMを紹介する。
まず、AndroidControlデータセットでオフラインでチューニングします。
そして、AndroidWorld環境からデータを収集することで、ポリシーを洗練します。
- 参考スコア(独自算出の注目度): 39.91330570886891
- License:
- Abstract: The utilisation of foundation models as smartphone assistants, termed app agents, is a critical research challenge. These agents aim to execute human instructions on smartphones by interpreting textual instructions and performing actions via the device's interface. While promising, current approaches face significant limitations. Methods that use large proprietary models, such as GPT-4o, are computationally expensive, while those that use smaller fine-tuned models often lack adaptability to out-of-distribution tasks. In this work, we introduce AppVLM, a lightweight Vision-Language Model (VLM). First, we fine-tune it offline on the AndroidControl dataset. Then, we refine its policy by collecting data from the AndroidWorld environment and performing further training iterations. Our results indicate that AppVLM achieves the highest action prediction accuracy in offline evaluation on the AndroidControl dataset, compared to all evaluated baselines, and matches GPT-4o in online task completion success rate in the AndroidWorld environment, while being up to ten times faster. This makes AppVLM a practical and efficient solution for real-world deployment.
- Abstract(参考訳): アプリエージェントと呼ばれるスマートフォンアシスタントとしてのファンデーションモデルの利用は、重要な研究課題である。
これらのエージェントは、テキスト命令を解釈し、デバイスのインタフェースを介してアクションを実行することによって、スマートフォン上で人間による指示を実行することを目的としている。
有望ではあるが、現在のアプローチには大きな制限がある。
GPT-4oのような大型のプロプライエタリなモデルを使用する手法は計算コストがかかるが、小型の微調整モデルを使用するモデルはアウト・オブ・ディストリビューション・タスクへの適応性に欠けることが多い。
本稿では,VLM(Vision-Language Model)の軽量化であるAppVLMを紹介する。
まず、AndroidControlデータセットでオフラインでチューニングします。
そして、AndroidWorld環境からデータを収集し、さらなるトレーニングを繰り返して、ポリシーを洗練します。
その結果,AppVLMは,AndroidControlデータセットのオフライン評価において,すべての評価ベースラインと比較して最も高い動作予測精度を達成し,AndroidWorld環境におけるオンラインタスク完了成功率のGPT-4oと最大10倍の速さで一致した。
これにより、AppVLMは現実のデプロイメントのための実用的で効率的なソリューションになります。
関連論文リスト
- Reinforcement Learning for Long-Horizon Interactive LLM Agents [56.9860859585028]
インタラクティブデジタルエージェント(IDA)は、ステートフルなデジタル環境のAPIを利用して、ユーザの要求に応じてタスクを実行する。
対象環境で直接IDAを訓練する強化学習(RL)手法を提案する。
我々は、近似ポリシー最適化のデータおよびメモリ効率の亜種である LOOP を導出する。
論文 参考訳(メタデータ) (2025-02-03T18:35:42Z) - TraceVLA: Visual Trace Prompting Enhances Spatial-Temporal Awareness for Generalist Robotic Policies [95.30717188630432]
VLAモデルの行動予測のための時空間認識を容易にするために,視覚的トレースプロンプトを導入する。
我々は,これまでに収集した150Kロボット操作トラジェクトリのデータセットに基づいてOpenVLAを微調整し,新しいTraceVLAモデルを開発した。
4B Phi-3-Vision に基づくコンパクトな VLA モデルを提案する。
論文 参考訳(メタデータ) (2024-12-13T18:40:51Z) - Vision Language Models are In-Context Value Learners [89.29486557646624]
本稿では、視覚言語モデル(VLM)に埋め込まれた世界的知識を活用してタスクの進捗を予測する普遍的価値関数推定器である生成価値学習(GVL)を提案する。
ロボットやタスク固有のトレーニングがなければ、GVLは300以上の異なる現実世界のタスクに対して、ゼロショットと数ショットの効果的な値をインコンテキストで予測することができる。
論文 参考訳(メタデータ) (2024-11-07T09:17:50Z) - Lightweight Neural App Control [42.820784178464656]
本稿では,新しい携帯電話制御アーキテクチャ,軽量マルチモーダルアプリ制御(LiMAC)を紹介する。
LiMACはテキストのゴールとスクリーンショットや対応するUIツリーなどの過去のモバイル観測のシーケンスを入力として、正確なアクションを生成する。
2つのオープンソースのモバイル制御データセット上でLiMACを評価し、小さなフォームファクターアプローチの優れた性能を実証した。
論文 参考訳(メタデータ) (2024-10-23T13:57:00Z) - Model-Enhanced LLM-Driven VUI Testing of VPA Apps [10.451676569481148]
モデル強化型大規模言語モデル(LLM)駆動型VUIテストフレームワークであるElevateを紹介した。
これは、最先端のテスタであるVitasに対して、4000の現実世界のAlexaスキルでベンチマークされている。
あらゆる種類のアプリでVitaよりも15%高いステートスペースカバレッジを実現しており、効率が大幅に向上している。
論文 参考訳(メタデータ) (2024-07-03T03:36:05Z) - PPTC-R benchmark: Towards Evaluating the Robustness of Large Language
Models for PowerPoint Task Completion [96.47420221442397]
文,意味,多言語レベルでユーザ命令を攻撃することにより,逆ユーザ命令を構築する。
我々は、ロバストネス設定を組み込んだベンチマークを用いて、3つのクローズドソースと4つのオープンソースLCMをテストする。
GPT-4は我々のベンチマークで最も高い性能と強靭性を示す。
論文 参考訳(メタデータ) (2024-03-06T15:33:32Z) - MobileVLM : A Fast, Strong and Open Vision Language Assistant for Mobile
Devices [73.46317110474064]
MobileVLM (MobileVLM) は、モバイルデバイス上で動作する多モード視覚言語モデル(MMVLM)である。
これは、CLIP方式で事前訓練されたマルチモーダル視覚モデルである、スクラッチからトレーニングされた1.4Bと2.7Bのスケールの言語モデルで構成されている。
論文 参考訳(メタデータ) (2023-12-28T08:21:24Z) - GenSim: Generating Robotic Simulation Tasks via Large Language Models [34.79613485106202]
GenSimは、リッチなシミュレーション環境とエキスパートのデモを自動的に生成することを目指している。
既存のベンチマークを10倍から100以上のタスクに拡張するために、GPT4を使用します。
最小限のsim-to-real適応により、GPT4生成したシミュレーションタスクで事前訓練されたマルチタスクポリシーは、現実世界で目に見えないロングホライゾンタスクへのより強力な転送を示す。
論文 参考訳(メタデータ) (2023-10-02T17:23:48Z) - AutoDroid: LLM-powered Task Automation in Android [32.241570727243534]
モバイルタスク自動化システムであるAutoDroidを紹介した。
主なコンポーネントは、LLMでUIをブリッジする機能対応UI表現メソッドである。
我々は、メモリ拡張Androidタスク自動化のための新しいベンチマークで、その性能を158の共通タスクで評価した。
論文 参考訳(メタデータ) (2023-08-29T13:02:30Z) - Mobile-Env: Building Qualified Evaluation Benchmarks for LLM-GUI Interaction [28.53259866617677]
Android モバイル環境で GUI ベンチマークを作成するための総合ツールキットである Mobile-Env を紹介した。
我々は、さまざまな現実世界のアプリにまたがるオープンワールドのタスクと、固定されたワールドセットWikiHowを収集し、大量の動的オンラインコンテンツをキャプチャする。
我々の研究結果によると、高度なモデルでさえ、人間にとって比較的簡単なタスクに苦しむことがわかった。
論文 参考訳(メタデータ) (2023-05-14T12:31:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。