論文の概要: AppVLM: A Lightweight Vision Language Model for Online App Control
- arxiv url: http://arxiv.org/abs/2502.06395v1
- Date: Mon, 10 Feb 2025 12:32:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:32:33.403702
- Title: AppVLM: A Lightweight Vision Language Model for Online App Control
- Title(参考訳): AppVLM: オンラインアプリケーション制御のための軽量ビジョン言語モデル
- Authors: Georgios Papoudakis, Thomas Coste, Zhihao Wu, Jianye Hao, Jun Wang, Kun Shao,
- Abstract要約: 軽量ビジョン言語モデル(VLM)であるAppVLMを紹介する。
まず、AndroidControlデータセットでオフラインでチューニングします。
そして、AndroidWorld環境からデータを収集することで、ポリシーを洗練します。
- 参考スコア(独自算出の注目度): 39.91330570886891
- License:
- Abstract: The utilisation of foundation models as smartphone assistants, termed app agents, is a critical research challenge. These agents aim to execute human instructions on smartphones by interpreting textual instructions and performing actions via the device's interface. While promising, current approaches face significant limitations. Methods that use large proprietary models, such as GPT-4o, are computationally expensive, while those that use smaller fine-tuned models often lack adaptability to out-of-distribution tasks. In this work, we introduce AppVLM, a lightweight Vision-Language Model (VLM). First, we fine-tune it offline on the AndroidControl dataset. Then, we refine its policy by collecting data from the AndroidWorld environment and performing further training iterations. Our results indicate that AppVLM achieves the highest action prediction accuracy in offline evaluation on the AndroidControl dataset, compared to all evaluated baselines, and matches GPT-4o in online task completion success rate in the AndroidWorld environment, while being up to ten times faster. This makes AppVLM a practical and efficient solution for real-world deployment.
- Abstract(参考訳): アプリエージェントと呼ばれるスマートフォンアシスタントとしてのファンデーションモデルの利用は、重要な研究課題である。
これらのエージェントは、テキスト命令を解釈し、デバイスのインタフェースを介してアクションを実行することによって、スマートフォン上で人間による指示を実行することを目的としている。
有望ではあるが、現在のアプローチには大きな制限がある。
GPT-4oのような大型のプロプライエタリなモデルを使用する手法は計算コストがかかるが、小型の微調整モデルを使用するモデルはアウト・オブ・ディストリビューション・タスクへの適応性に欠けることが多い。
本稿では,VLM(Vision-Language Model)の軽量化であるAppVLMを紹介する。
まず、AndroidControlデータセットでオフラインでチューニングします。
そして、AndroidWorld環境からデータを収集し、さらなるトレーニングを繰り返して、ポリシーを洗練します。
その結果,AppVLMは,AndroidControlデータセットのオフライン評価において,すべての評価ベースラインと比較して最も高い動作予測精度を達成し,AndroidWorld環境におけるオンラインタスク完了成功率のGPT-4oと最大10倍の速さで一致した。
これにより、AppVLMは現実のデプロイメントのための実用的で効率的なソリューションになります。
関連論文リスト
- Vision Language Models are In-Context Value Learners [89.29486557646624]
本稿では、視覚言語モデル(VLM)に埋め込まれた世界的知識を活用してタスクの進捗を予測する普遍的価値関数推定器である生成価値学習(GVL)を提案する。
ロボットやタスク固有のトレーニングがなければ、GVLは300以上の異なる現実世界のタスクに対して、ゼロショットと数ショットの効果的な値をインコンテキストで予測することができる。
論文 参考訳(メタデータ) (2024-11-07T09:17:50Z) - Lightweight Neural App Control [42.820784178464656]
本稿では,様々なAndroidアプリ間での効率的なインタラクションとコントロールを実現するために,新しい携帯電話制御アーキテクチャである「アプリエージェント」を紹介した。
提案された軽量マルチモーダルアプリ制御(LiMAC)は、スクリーンショットや対応するUIツリーなどの過去のモバイル観測のテキスト目標とシーケンスを入力として、正確なアクションを生成する。
論文 参考訳(メタデータ) (2024-10-23T13:57:00Z) - Model-Enhanced LLM-Driven VUI Testing of VPA Apps [10.451676569481148]
モデル強化型大規模言語モデル(LLM)駆動型VUIテストフレームワークであるElevateを紹介した。
これは、最先端のテスタであるVitasに対して、4000の現実世界のAlexaスキルでベンチマークされている。
あらゆる種類のアプリでVitaよりも15%高いステートスペースカバレッジを実現しており、効率が大幅に向上している。
論文 参考訳(メタデータ) (2024-07-03T03:36:05Z) - PPTC-R benchmark: Towards Evaluating the Robustness of Large Language
Models for PowerPoint Task Completion [96.47420221442397]
文,意味,多言語レベルでユーザ命令を攻撃することにより,逆ユーザ命令を構築する。
我々は、ロバストネス設定を組み込んだベンチマークを用いて、3つのクローズドソースと4つのオープンソースLCMをテストする。
GPT-4は我々のベンチマークで最も高い性能と強靭性を示す。
論文 参考訳(メタデータ) (2024-03-06T15:33:32Z) - MobileVLM : A Fast, Strong and Open Vision Language Assistant for Mobile
Devices [73.46317110474064]
MobileVLM (MobileVLM) は、モバイルデバイス上で動作する多モード視覚言語モデル(MMVLM)である。
これは、CLIP方式で事前訓練されたマルチモーダル視覚モデルである、スクラッチからトレーニングされた1.4Bと2.7Bのスケールの言語モデルで構成されている。
論文 参考訳(メタデータ) (2023-12-28T08:21:24Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - GenSim: Generating Robotic Simulation Tasks via Large Language Models [34.79613485106202]
GenSimは、リッチなシミュレーション環境とエキスパートのデモを自動的に生成することを目指している。
既存のベンチマークを10倍から100以上のタスクに拡張するために、GPT4を使用します。
最小限のsim-to-real適応により、GPT4生成したシミュレーションタスクで事前訓練されたマルチタスクポリシーは、現実世界で目に見えないロングホライゾンタスクへのより強力な転送を示す。
論文 参考訳(メタデータ) (2023-10-02T17:23:48Z) - AutoDroid: LLM-powered Task Automation in Android [32.241570727243534]
モバイルタスク自動化システムであるAutoDroidを紹介した。
主なコンポーネントは、LLMでUIをブリッジする機能対応UI表現メソッドである。
我々は、メモリ拡張Androidタスク自動化のための新しいベンチマークで、その性能を158の共通タスクで評価した。
論文 参考訳(メタデータ) (2023-08-29T13:02:30Z) - Mobile-Env: Building Qualified Evaluation Benchmarks for LLM-GUI Interaction [28.53259866617677]
Android モバイル環境で GUI ベンチマークを作成するための総合ツールキットである Mobile-Env を紹介した。
我々は、さまざまな現実世界のアプリにまたがるオープンワールドのタスクと、固定されたワールドセットWikiHowを収集し、大量の動的オンラインコンテンツをキャプチャする。
我々の研究結果によると、高度なモデルでさえ、人間にとって比較的簡単なタスクに苦しむことがわかった。
論文 参考訳(メタデータ) (2023-05-14T12:31:03Z) - Visual Instruction Tuning [79.70923292053097]
本稿では,言語のみの GPT-4 を用いてマルチモーダルな言語イメージ命令追跡データを生成する試みについて紹介する。
このようなデータに対して,LLaVA: Large Language and Vision Assistantを導入する。
科学QAを微調整すると、LLaVAとGPT-4の相乗効果は92.53%の新しい最先端精度を達成する。
論文 参考訳(メタデータ) (2023-04-17T17:59:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。