Fugu-MT 論文翻訳(概要): Model-Enhanced LLM-Driven VUI Testing of VPA Apps

論文の概要: Model-Enhanced LLM-Driven VUI Testing of VPA Apps

arxiv url: http://arxiv.org/abs/2407.02791v1
Date: Wed, 3 Jul 2024 03:36:05 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-04 15:44:50.181901
Title: Model-Enhanced LLM-Driven VUI Testing of VPA Apps
Title（参考訳）: VPAアプリのモデル強化LDM駆動型VUIテスト
Authors: Suwan Li, Lei Bu, Guangdong Bai, Fuman Xie, Kai Chen, Chang Yue,
Abstract要約: モデル強化型大規模言語モデル(LLM)駆動型VUIテストフレームワークであるElevateを紹介した。これは、最先端のテスタであるVitasに対して、4000の現実世界のAlexaスキルでベンチマークされている。あらゆる種類のアプリでVitaよりも15%高いステートスペースカバレッジを実現しており、効率が大幅に向上している。
参考スコア（独自算出の注目度）: 10.451676569481148
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The flourishing ecosystem centered around voice personal assistants (VPA), such as Amazon Alexa, has led to the booming of VPA apps. The largest app market Amazon skills store, for example, hosts over 200,000 apps. Despite their popularity, the open nature of app release and the easy accessibility of apps also raise significant concerns regarding security, privacy and quality. Consequently, various testing approaches have been proposed to systematically examine VPA app behaviors. To tackle the inherent lack of a visible user interface in the VPA app, two strategies are employed during testing, i.e., chatbot-style testing and model-based testing. The former often lacks effective guidance for expanding its search space, while the latter falls short in interpreting the semantics of conversations to construct precise and comprehensive behavior models for apps. In this work, we introduce Elevate, a model-enhanced large language model (LLM)-driven VUI testing framework. Elevate leverages LLMs' strong capability in natural language processing to compensate for semantic information loss during model-based VUI testing. It operates by prompting LLMs to extract states from VPA apps' outputs and generate context-related inputs. During the automatic interactions with the app, it incrementally constructs the behavior model, which facilitates the LLM in generating inputs that are highly likely to discover new states. Elevate bridges the LLM and the behavior model with innovative techniques such as encoding behavior model into prompts and selecting LLM-generated inputs based on the context relevance. Elevate is benchmarked on 4,000 real-world Alexa skills, against the state-of-the-art tester Vitas. It achieves 15% higher state space coverage compared to Vitas on all types of apps, and exhibits significant advancement in efficiency.
Abstract（参考訳）: Amazon Alexaのような音声パーソナルアシスタント(VPA)を中心とした繁栄するエコシステムは、VPAアプリのブームにつながっている。たとえば、Amazonのスキルストアで最大のアプリマーケットは、20万以上のアプリをホストしている。その人気にもかかわらず、アプリの公開性やアクセシビリティの容易さは、セキュリティ、プライバシ、品質に関する重要な懸念を引き起こしている。その結果、VPAアプリの動作を体系的に調査する様々なテスト手法が提案されている。 VPAアプリの可視ユーザインタフェースの欠如に対処するため、テスト中にチャットボットスタイルのテストとモデルベースのテストという2つの戦略が採用されている。前者は検索スペースを拡大するための効果的なガイダンスを欠くことが多いが、後者は会話の意味論を解釈し、アプリの正確で包括的な行動モデルを構築するのに不足している。本稿では,モデル強化型大規模言語モデル(LLM)駆動型VUIテストフレームワークであるElevateを紹介する。 ElevateはLLMの自然言語処理能力を活用し、モデルベースのVUIテスト中に意味情報の損失を補う。 LLMにVPAアプリの出力から状態を抽出させ、コンテキスト関連の入力を生成する。アプリとの自動インタラクションの間、動作モデルが漸進的に構築され、新しい状態を発見する可能性が非常に高い入力を生成するのにLLMが役立ちます。 Elevateは、LCMと行動モデルに、行動モデルをプロンプトにエンコードしたり、文脈関連性に基づいてLSM生成した入力を選択するといった革新的な技術で橋渡しする。 Elevateは、最先端のテスタであるVitasに対して、4000の現実世界のAlexaスキルでベンチマークされている。あらゆる種類のアプリでVitaよりも15%高いステートスペースカバレッジを実現しており、効率が大幅に向上している。

関連論文リスト

Beyond Syntax: Action Semantics Learning for App Agents [60.56331102288794]
アクションセマンティックス学習(ASL、Action Semantics Learning)は、学習目的が真理行動の意味を捉える学習フレームワークである。 ASLは既存のメソッドよりもApp Agentの精度と一般化を大幅に改善する。
論文参考訳（メタデータ） (2025-06-21T12:08:19Z)
LELANTE: LEveraging LLM for Automated ANdroid TEsting [6.112769800569302]
既存のテストアプローチでは、開発者はAppiumやEspressoといったツールを使って手動でスクリプトを書き、対応するテストケースを実行する必要がある。 LELANTEは,大規模な言語モデル(LLM)を用いて,プリスクリプトを必要とせずにテストケースの実行を自動化する新しいフレームワークである。 10のAndroidアプリケーションにまたがる390のテストケースを対象とした実験では、LELANTEが73%のテスト実行の成功率を達成した。
論文参考訳（メタデータ） (2025-04-29T16:13:49Z)
VLM-Fuzz: Vision Language Model Assisted Recursive Depth-first Search Exploration for Effective UI Testing of Android Apps [6.122273281101832]
Androidアプリを効果的にテストするには、アプリの可能な状態を体系的に調査する必要がある。そこで本研究では,AndroidアプリのUIを効果的にテストするための,VLM-Fuzzと呼ばれる新しいファジリング手法を提案する。
論文参考訳（メタデータ） (2025-04-16T00:19:31Z)
Reinforcement Learning for Long-Horizon Interactive LLM Agents [56.9860859585028]
インタラクティブデジタルエージェント(IDA)は、ステートフルなデジタル環境のAPIを利用して、ユーザの要求に応じてタスクを実行する。対象環境で直接IDAを訓練する強化学習(RL)手法を提案する。我々は、近似ポリシー最適化のデータおよびメモリ効率の亜種である LOOP を導出する。
論文参考訳（メタデータ） (2025-02-03T18:35:42Z)
Enabling Cost-Effective UI Automation Testing with Retrieval-Based LLMs: A Case Study in WeChat [8.80569452545511]
機械学習と大規模言語モデルを組み合わせることで、業界アプリケーションのためのコスト効率の良いUI自動化テストを作成するために、CATを導入します。次にCATは機械学習技術を採用し、LLMを補完として、ターゲット要素をUI画面にマップする。 WeChatテストデータセットの評価では、CATのパフォーマンスとコスト効率が示され、90%のUI自動化と0.34ドルのコストが達成されました。
論文参考訳（メタデータ） (2024-09-12T08:25:33Z)
OpenVLA: An Open-Source Vision-Language-Action Model [131.74098076670103]
我々は、970kの現実世界のロボットデモの多様なコレクションに基づいて訓練されたオープンソースのVLAであるOpenVLAを紹介した。 OpenVLAは汎用的な操作の強力な結果を示し、RT-2-X (55B) のようなクローズドモデルよりも16.5%高い絶対的なタスク成功率を示した。モデルチェックポイント、微調整ノートブック、そしてOpen X-Embodimentデータセット上で大規模にVLAをトレーニングするためのビルトインサポートを備えたPyTorchをリリースしています。
論文参考訳（メタデータ） (2024-06-13T15:46:55Z)
Aligning Language Models with Demonstrated Feedback [58.834937450242975]
Demonstration ITerated Task Optimization (DITTO)は、言語モデルの出力とユーザの実証された振る舞いを直接調整する。我々は,DITTOがニュース記事やメール,ブログ記事などのドメイン間できめ細かいスタイルやタスクアライメントを学習する能力を評価する。
論文参考訳（メタデータ） (2024-06-02T23:13:56Z)
SearchLVLMs: A Plug-and-Play Framework for Augmenting Large Vision-Language Models by Searching Up-to-Date Internet Knowledge [56.772051051558215]
大規模視覚言語モデル(LVLM)は、LLaVAシリーズのような最新の知識を知らない。本稿では,サーチLVLMと呼ばれる最新の知識に関する視覚的質問応答(VQA)を扱うために,既存のLVLMを増補するプラグイン・アンド・プレイフレームワークを提案する。
論文参考訳（メタデータ） (2024-05-23T13:32:07Z)
Automating REST API Postman Test Cases Using LLM [0.0]
本稿では,大規模言語モデルを用いたテストケースの自動生成手法の探索と実装について述べる。この方法論は、テストケース生成の効率性と有効性を高めるために、Open AIの使用を統合する。この研究で開発されたモデルは、手作業で収集したポストマンテストケースやさまざまなRest APIのインスタンスを使ってトレーニングされている。
論文参考訳（メタデータ） (2024-04-16T15:53:41Z)
Holistic Autonomous Driving Understanding by Bird's-Eye-View Injected Multi-Modal Large Models [76.99140362751787]
我々は17のサブタスクで91Kのマルチビュービデオ-QAペアを持つ新しいデータセットであるNuInstructを提案する。また,BirdのEye-View特徴を効率的に抽出するエンドツーエンド手法であるBEV-InMLLMを提案する。
論文参考訳（メタデータ） (2024-01-02T01:54:22Z)
Prompt Highlighter: Interactive Control for Multi-Modal LLMs [50.830448437285355]
本研究では,マルチモーダル LLM (LLMs&VLMs) 推論における重要な側面として,明示的な制御可能なテキスト生成を目標とする。本稿では,新しい推論手法であるPrompt Highlighterを導入し,ユーザが特定のプロンプトスパンをハイライトし,生成中のフォーカスをインタラクティブに制御できるようにする。推論中、注意重みを通して強調されたトークンでモデルを導くことで、より望ましい出力が得られます。
論文参考訳（メタデータ） (2023-12-07T13:53:29Z)
Intelligent Virtual Assistants with LLM-based Process Automation [31.275267197246595]
本稿では,高レベルのユーザ要求に基づいて,モバイルアプリ内のマルチステップ操作を自動的に実行可能な,LLMベースの新しい仮想アシスタントを提案する。このシステムは、指示を解析し、目標を推論し、行動を実行するエンドツーエンドのソリューションを提供することによって、アシスタントの進歩を表す。
論文参考訳（メタデータ） (2023-12-04T07:51:58Z)
LM-Polygraph: Uncertainty Estimation for Language Models [71.21409522341482]
不確実性推定(UE)手法は、大規模言語モデル(LLM)の安全性、責任性、効果的な利用のための1つの経路である。テキスト生成タスクにおけるLLMの最先端UEメソッドのバッテリを実装したフレームワークであるLM-PolygraphをPythonで統一したプログラムインタフェースで導入する。研究者によるUEテクニックの一貫した評価のための拡張可能なベンチマークと、信頼スコア付き標準チャットダイアログを強化するデモWebアプリケーションを導入している。
論文参考訳（メタデータ） (2023-11-13T15:08:59Z)
Reinforced UI Instruction Grounding: Towards a Generic UI Task Automation API [17.991044940694778]
汎用的なUIタスク自動化エグゼキュータとして、与えられたUIスクリーンショットに自然言語命令をベースとしたマルチモーダルモデルを構築します。画像からテキストまでの事前学習知識の活用を容易にするため,画素からシーケンスまでのパラダイムを踏襲する。提案する強化UI命令グラウンドモデルでは,最先端の手法よりも明確なマージンで性能が向上する。
論文参考訳（メタデータ） (2023-10-07T07:22:41Z)
Self-Checker: Plug-and-Play Modules for Fact-Checking with Large Language Models [75.75038268227554]
Self-Checkerはファクトチェックを容易にするプラグインとプレイモジュールからなるフレームワークである。このフレームワークは、低リソース環境でファクトチェックシステムを構築するための、高速で効率的な方法を提供する。
論文参考訳（メタデータ） (2023-05-24T01:46:07Z)
Chatting with GPT-3 for Zero-Shot Human-Like Mobile Automated GUI Testing [23.460051600514806]
GPTDroid を提案し,GUI ページ情報を LLM に渡してテストスクリプトを抽出することにより,大規模言語モデルにモバイルアプリとのチャットを依頼する。そこで我々はGUIページの静的コンテキストと反復テストプロセスの動的コンテキストを抽出する。 Google Playの86のアプリ上でGPTDroidを評価し、そのアクティビティカバレッジは71%で、最高のベースラインよりも32%高く、最高のベースラインよりも高速で36%多くのバグを検出することができます。
論文参考訳（メタデータ） (2023-05-16T13:46:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。