Fugu-MT 論文翻訳(概要): DroidBot-GPT: GPT-powered UI Automation for Android

論文の概要: DroidBot-GPT: GPT-powered UI Automation for Android

arxiv url: http://arxiv.org/abs/2304.07061v1
Date: Fri, 14 Apr 2023 11:31:56 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-17 13:57:52.577673
Title: DroidBot-GPT: GPT-powered UI Automation for Android
Title（参考訳）: DroidBot-GPT: GPTを利用したAndroid用UIオートメーション
Authors: Hao Wen, Hongming Wang, Jiaxuan Liu, Yuanchun Li
Abstract要約: DroidBot-GPTは、GPTに似た大規模言語モデル(LLM)を使用して、Androidモバイルアプリケーションとのインタラクションを自動化するツールである。 DroidBot-GPTは、所望のタスクを自然言語で記述するので、タスクを完了させるためにアプリをナビゲートするアクションを自動的に生成して実行することができる。
参考スコア（独自算出の注目度）: 7.679713163718058
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper introduces DroidBot-GPT, a tool that utilizes GPT-like large language models (LLMs) to automate the interactions with Android mobile applications. Given a natural language description of a desired task, DroidBot-GPT can automatically generate and execute actions that navigate the app to complete the task. It works by translating the app GUI state information and the available actions on the smartphone screen to natural language prompts and asking the LLM to make a choice of actions. Since the LLM is typically trained on a large amount of data including the how-to manuals of diverse software applications, it has the ability to make reasonable choices of actions based on the provided information. We evaluate DroidBot-GPT with a self-created dataset that contains 33 tasks collected from 17 Android applications spanning 10 categories. It can successfully complete 39.39% of the tasks, and the average partial completion progress is about 66.76%. Given the fact that our method is fully unsupervised (no modification required from both the app and the LLM), we believe there is great potential to enhance automation performance with better app development paradigms and/or custom model training.
Abstract（参考訳）: 本稿では,GPTライクな大規模言語モデル(LLM)を用いてAndroidモバイルアプリケーションとのインタラクションを自動化するツールであるDroidBot-GPTを紹介する。必要なタスクの自然な言語記述が与えられると、droidbot-gptは、タスクを完了させるためにアプリをナビゲートするアクションを自動生成および実行することができる。これは、スマートフォン画面のgui状態情報と利用可能なアクションを自然言語プロンプトに翻訳し、llmにアクションの選択を依頼することで機能する。 LLMは通常、多様なソフトウェアアプリケーションのハウツーマニュアルを含む大量のデータに基づいて訓練されているため、提供された情報に基づいて適切なアクションを選択することができる。 DroidBot-GPTは10のカテゴリにまたがる17のAndroidアプリケーションから収集した33のタスクを含む自己生成データセットで評価する。 39.39%のタスクを完了し、平均的な部分的な完了確率は約66.76%である。当社の手法が完全に教師なしであるという事実(アプリとLLMの両方の修正は不要)を考えると、より良いアプリ開発パラダイムやカスタムモデルトレーニングで自動化性能を向上させる大きな可能性があると信じています。

関連論文リスト

Chain-of-Modality: Learning Manipulation Programs from Multimodal Human Videos with Vision-Language-Models [49.4824734958566]
カオス・オブ・モダリティ(CoM)は、ビジョン言語モデルがマルチモーダルな人間の実演データを推論することを可能にする。 CoMはタスクプランを洗練し、詳細な制御パラメータを生成し、ロボットは単一のマルチモーダルなヒューマンビデオプロンプトに基づいて操作タスクを実行できる。
論文参考訳（メタデータ） (2025-04-17T21:31:23Z)
AutoDroid-V2: Boosting SLM-based GUI Agents via Code Generation [27.984521240600493]
本稿では,UIタスク自動化問題を,デバイス上のSLMで効果的に解き,デバイス上のコードインタープリタで効率的に実行可能なコード生成問題に変換することを提案する。私たちはドキュメント中心のアプローチを採用し、各アプリ用のきめ細かいAPIドキュメンテーションを自動的に構築し、多様なタスクサンプルを生成します。最新のモバイルUIエージェントとの詳細な比較に基づいて,本手法はモバイルタスクの自動化を効果的に改善し,高い成功率と低レイテンシ/トーケン消費を実現した。
論文参考訳（メタデータ） (2024-12-24T02:54:56Z)
DroidCall: A Dataset for LLM-powered Android Intent Invocation [5.147660365233947]
DroidCallは、Androidの正確なインテント呼び出しのための、最初のトレーニングとテストのデータセットです。非常にフレキシブルで再利用可能なデータ生成パイプラインを使って、DroidCallで10kのサンプルを構築しました。また、これらの微調整されたモデルを備えたエンドツーエンドのAndroidアプリを提供し、Androidのインテント呼び出しプロセスを実証しています。
論文参考訳（メタデータ） (2024-11-30T08:55:39Z)
LLaRA: Supercharging Robot Learning Data for Vision-Language Policy [56.505551117094534]
視覚言語モデル(VLM)は、状態情報を視覚的テキストのプロンプトとして処理し、テキスト内のポリシー決定に応答することができる。 LLaRA:Large Language and Robotics Assistantは,ロボットの行動ポリシーを会話として定式化するフレームワークである。
論文参考訳（メタデータ） (2024-06-28T17:59:12Z)
RoboPoint: A Vision-Language Model for Spatial Affordance Prediction for Robotics [46.63773228934993]
本稿では,ロボットドメインやニーズに対して,視覚言語モデル(VLM)を命令チューニングする,自動合成データ生成パイプラインを提案する。パイプラインを使用して、与えられた言語命令に対する画像キーポイントの価格を予測するVLMであるRoboPointを訓練する。実験の結果,RoboPointは空間空き量の予測精度が21.8%,下流タスクの成功率が30.5%,最先端VLMが21.8%向上していることがわかった。
論文参考訳（メタデータ） (2024-06-15T19:22:51Z)
Interactive Planning Using Large Language Models for Partially Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。 LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文参考訳（メタデータ） (2023-12-11T22:54:44Z)
Autonomous Large Language Model Agents Enabling Intent-Driven Mobile GUI Testing [17.24045904273874]
そこで我々は,Android用の自動GUIテストエージェントであるDroidAgentを提案する。これはLarge Language Modelと、長期記憶や短期記憶などのサポートメカニズムに基づいている。 DroidAgentは61%のアクティビティカバレッジを達成したが、現在の最先端のGUIテスト技術では51%だった。
論文参考訳（メタデータ） (2023-11-15T01:59:40Z)
Make LLM a Testing Expert: Bringing Human-like Interaction to Mobile GUI Testing via Functionality-aware Decisions [23.460051600514806]
GPTDroidは、モバイルアプリ向けのQ&AベースのGUIテスティングフレームワークである。機能認識型メモリプロンプト機構を導入する。アクティビティのカバレッジが32%向上し、より高速な速度で31%のバグを検出する。
論文参考訳（メタデータ） (2023-10-24T12:30:26Z)
AutoDroid: LLM-powered Task Automation in Android [32.241570727243534]
モバイルタスク自動化システムであるAutoDroidを紹介した。主なコンポーネントは、LLMでUIをブリッジする機能対応UI表現メソッドである。我々は、メモリ拡張Androidタスク自動化のための新しいベンチマークで、その性能を158の共通タスクで評価した。
論文参考訳（メタデータ） (2023-08-29T13:02:30Z)
Chatting with GPT-3 for Zero-Shot Human-Like Mobile Automated GUI Testing [23.460051600514806]
GPTDroid を提案し,GUI ページ情報を LLM に渡してテストスクリプトを抽出することにより,大規模言語モデルにモバイルアプリとのチャットを依頼する。そこで我々はGUIページの静的コンテキストと反復テストプロセスの動的コンテキストを抽出する。 Google Playの86のアプリ上でGPTDroidを評価し、そのアクティビティカバレッジは71%で、最高のベースラインよりも32%高く、最高のベースラインよりも高速で36%多くのバグを検出することができます。
論文参考訳（メタデータ） (2023-05-16T13:46:52Z)
AutoML-GPT: Automatic Machine Learning with GPT [74.30699827690596]
本稿では,タスク指向のプロンプトを開発し,大規模言語モデル(LLM)を自動的に活用して学習パイプラインを自動化することを提案する。本稿では,多様なAIモデルのブリッジとしてGPTを用いたAutoML-GPTを提案する。このアプローチはコンピュータビジョン、自然言語処理、その他の課題領域において顕著な結果をもたらす。
論文参考訳（メタデータ） (2023-05-04T02:09:43Z)
VIMA: General Robot Manipulation with Multimodal Prompts [82.01214865117637]
ロボット操作タスクの幅広い範囲をマルチモーダルプロンプトで表現できることを示す。我々は,数千の手続き的に生成されたテーブルトップタスクからなる新しいシミュレーションベンチマークを開発した。我々は、これらのプロンプトを処理し、自動回帰的に運動動作を出力するトランスフォーマーベースのロボットエージェントVIMAを設計する。
論文参考訳（メタデータ） (2022-10-06T17:50:11Z)
ProgPrompt: Generating Situated Robot Task Plans using Large Language Models [68.57918965060787]
大規模言語モデル(LLM)は、タスク計画中の潜在的な次のアクションを評価するために使用することができる。本稿では, プログラム型LCMプロンプト構造を用いて, 配置環境間での計画生成機能を実現する。
論文参考訳（メタデータ） (2022-09-22T20:29:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。