Fugu-MT 論文翻訳(概要): AppVLM: A Lightweight Vision Language Model for Online App Control

論文の概要: AppVLM: A Lightweight Vision Language Model for Online App Control

arxiv url: http://arxiv.org/abs/2502.06395v1
Date: Mon, 10 Feb 2025 12:32:21 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-11 18:57:51.124574
Title: AppVLM: A Lightweight Vision Language Model for Online App Control
Title（参考訳）: AppVLM: オンラインアプリケーション制御のための軽量ビジョン言語モデル
Authors: Georgios Papoudakis, Thomas Coste, Zhihao Wu, Jianye Hao, Jun Wang, Kun Shao,
Abstract要約: 軽量ビジョン言語モデル(VLM)であるAppVLMを紹介する。まず、AndroidControlデータセットでオフラインでチューニングします。そして、AndroidWorld環境からデータを収集することで、ポリシーを洗練します。
参考スコア（独自算出の注目度）: 39.91330570886891
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The utilisation of foundation models as smartphone assistants, termed app agents, is a critical research challenge. These agents aim to execute human instructions on smartphones by interpreting textual instructions and performing actions via the device's interface. While promising, current approaches face significant limitations. Methods that use large proprietary models, such as GPT-4o, are computationally expensive, while those that use smaller fine-tuned models often lack adaptability to out-of-distribution tasks. In this work, we introduce AppVLM, a lightweight Vision-Language Model (VLM). First, we fine-tune it offline on the AndroidControl dataset. Then, we refine its policy by collecting data from the AndroidWorld environment and performing further training iterations. Our results indicate that AppVLM achieves the highest action prediction accuracy in offline evaluation on the AndroidControl dataset, compared to all evaluated baselines, and matches GPT-4o in online task completion success rate in the AndroidWorld environment, while being up to ten times faster. This makes AppVLM a practical and efficient solution for real-world deployment.
Abstract（参考訳）: アプリエージェントと呼ばれるスマートフォンアシスタントとしてのファンデーションモデルの利用は、重要な研究課題である。これらのエージェントは、テキスト命令を解釈し、デバイスのインタフェースを介してアクションを実行することによって、スマートフォン上で人間による指示を実行することを目的としている。有望ではあるが、現在のアプローチには大きな制限がある。 GPT-4oのような大型のプロプライエタリなモデルを使用する手法は計算コストがかかるが、小型の微調整モデルを使用するモデルはアウト・オブ・ディストリビューション・タスクへの適応性に欠けることが多い。本稿では,VLM(Vision-Language Model)の軽量化であるAppVLMを紹介する。まず、AndroidControlデータセットでオフラインでチューニングします。そして、AndroidWorld環境からデータを収集し、さらなるトレーニングを繰り返して、ポリシーを洗練します。その結果,AppVLMは,AndroidControlデータセットのオフライン評価において,すべての評価ベースラインと比較して最も高い動作予測精度を達成し,AndroidWorld環境におけるオンラインタスク完了成功率のGPT-4oと最大10倍の速さで一致した。これにより、AppVLMは現実のデプロイメントのための実用的で効率的なソリューションになります。

関連論文リスト

MagicVL-2B: Empowering Vision-Language Models on Mobile Devices with Lightweight Visual Encoders via Curriculum Learning [21.12739286363107]
VLM(Vision-Language Models)は近年,目覚ましいブレークスルーを達成している。本稿では,フラグシップスマートフォン向けに高度に最適化された新しいVLMであるMagicVL-2Bを紹介する。我々は,MagicVL-2Bが現在の最先端モデルの精度と一致し,デバイス上での消費電力を41.1%削減することを示した。
論文参考訳（メタデータ） (2025-08-03T01:49:08Z)
LAM SIMULATOR: Advancing Data Generation for Large Action Model Training via Online Exploration and Trajectory Feedback [121.78866929908871]
AIエージェントのための大規模アクションモデル(LAM)は、素晴らしいポテンシャルを提供するが、高品質なトレーニングデータを必要とするため、課題に直面している。 LAM SIMULATORは,高品質なフィードバックによるエージェントタスクのオンライン探索を目的とした総合的なフレームワークである。本フレームワークは,動的タスククエリジェネレータ,広範囲なツールコレクション,および大規模言語モデル(LLM)エージェントがツールを呼び出し,リアルタイムフィードバックを受信できる対話型環境を備えている。
論文参考訳（メタデータ） (2025-06-02T22:36:02Z)
Are We There Yet? A Measurement Study of Efficiency for LLM Applications on Mobile Devices [5.926813659185372]
小型の大規模言語モデル(LLM)は、大きなモデルに比べて品質に制限があるにもかかわらず、強力なモバイルデバイス上で正常に動作することができる。小型のLDMだけが強力なモバイルデバイス上で正常に動作するが、大型のモデルに比べて品質に制限がある。
論文参考訳（メタデータ） (2025-03-10T16:27:17Z)
Fine-Tuning Vision-Language-Action Models: Optimizing Speed and Success [100.226572152954]
視覚言語アクションモデル(VLA)のための最適化された微調整レシピを提案する。われわれのレシピはOpenVLAの4つのタスクスイートの平均成功率を76.5%から97.1%に引き上げ、アクション生成のスループットを26$times$に向上させた。実世界の評価において、我々の微調整のレシピにより、OpenVLAはバイマガルALOHAロボット上でデクスタラスで高周波な制御タスクをうまく実行することができる。
論文参考訳（メタデータ） (2025-02-27T00:30:29Z)
TraceVLA: Visual Trace Prompting Enhances Spatial-Temporal Awareness for Generalist Robotic Policies [95.30717188630432]
VLAモデルの行動予測のための時空間認識を容易にするために,視覚的トレースプロンプトを導入する。我々は,これまでに収集した150Kロボット操作トラジェクトリのデータセットに基づいてOpenVLAを微調整し,新しいTraceVLAモデルを開発した。 4B Phi-3-Vision に基づくコンパクトな VLA モデルを提案する。
論文参考訳（メタデータ） (2024-12-13T18:40:51Z)
Vision Language Models are In-Context Value Learners [89.29486557646624]
本稿では、視覚言語モデル(VLM)に埋め込まれた世界的知識を活用してタスクの進捗を予測する普遍的価値関数推定器である生成価値学習(GVL)を提案する。ロボットやタスク固有のトレーニングがなければ、GVLは300以上の異なる現実世界のタスクに対して、ゼロショットと数ショットの効果的な値をインコンテキストで予測することができる。
論文参考訳（メタデータ） (2024-11-07T09:17:50Z)
Lightweight Neural App Control [42.820784178464656]
本稿では,様々なAndroidアプリ間での効率的なインタラクションとコントロールを実現するために,新しい携帯電話制御アーキテクチャである「アプリエージェント」を紹介した。提案された軽量マルチモーダルアプリ制御(LiMAC)は、スクリーンショットや対応するUIツリーなどの過去のモバイル観測のテキスト目標とシーケンスを入力として、正確なアクションを生成する。
論文参考訳（メタデータ） (2024-10-23T13:57:00Z)
Model-Enhanced LLM-Driven VUI Testing of VPA Apps [10.451676569481148]
モデル強化型大規模言語モデル(LLM)駆動型VUIテストフレームワークであるElevateを紹介した。これは、最先端のテスタであるVitasに対して、4000の現実世界のAlexaスキルでベンチマークされている。あらゆる種類のアプリでVitaよりも15%高いステートスペースカバレッジを実現しており、効率が大幅に向上している。
論文参考訳（メタデータ） (2024-07-03T03:36:05Z)
PPTC-R benchmark: Towards Evaluating the Robustness of Large Language Models for PowerPoint Task Completion [96.47420221442397]
文,意味,多言語レベルでユーザ命令を攻撃することにより,逆ユーザ命令を構築する。我々は、ロバストネス設定を組み込んだベンチマークを用いて、3つのクローズドソースと4つのオープンソースLCMをテストする。 GPT-4は我々のベンチマークで最も高い性能と強靭性を示す。
論文参考訳（メタデータ） (2024-03-06T15:33:32Z)
MobileVLM : A Fast, Strong and Open Vision Language Assistant for Mobile Devices [73.46317110474064]
MobileVLM (MobileVLM) は、モバイルデバイス上で動作する多モード視覚言語モデル(MMVLM)である。これは、CLIP方式で事前訓練されたマルチモーダル視覚モデルである、スクラッチからトレーニングされた1.4Bと2.7Bのスケールの言語モデルで構成されている。
論文参考訳（メタデータ） (2023-12-28T08:21:24Z)
AutoDroid: LLM-powered Task Automation in Android [32.241570727243534]
モバイルタスク自動化システムであるAutoDroidを紹介した。主なコンポーネントは、LLMでUIをブリッジする機能対応UI表現メソッドである。我々は、メモリ拡張Androidタスク自動化のための新しいベンチマークで、その性能を158の共通タスクで評価した。
論文参考訳（メタデータ） (2023-08-29T13:02:30Z)
Mobile-Env: Building Qualified Evaluation Benchmarks for LLM-GUI Interaction [28.53259866617677]
Android モバイル環境で GUI ベンチマークを作成するための総合ツールキットである Mobile-Env を紹介した。我々は、さまざまな現実世界のアプリにまたがるオープンワールドのタスクと、固定されたワールドセットWikiHowを収集し、大量の動的オンラインコンテンツをキャプチャする。我々の研究結果によると、高度なモデルでさえ、人間にとって比較的簡単なタスクに苦しむことがわかった。
論文参考訳（メタデータ） (2023-05-14T12:31:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。