論文の概要: LELANTE: LEveraging LLM for Automated ANdroid TEsting
- arxiv url: http://arxiv.org/abs/2504.20896v1
- Date: Tue, 29 Apr 2025 16:13:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.978295
- Title: LELANTE: LEveraging LLM for Automated ANdroid TEsting
- Title(参考訳): LELANTE:自動アンドロイドテスティングのための平均LDM
- Authors: Shamit Fatin, Mehbubul Hasan Al-Quvi, Haz Sameen Shahgir, Sukarna Barua, Anindya Iqbal, Sadia Sharmin, Md. Mostofa Akbar, Kallol Kumar Pal, A. Asif Al Rashid,
- Abstract要約: 既存のテストアプローチでは、開発者はAppiumやEspressoといったツールを使って手動でスクリプトを書き、対応するテストケースを実行する必要がある。
LELANTEは,大規模な言語モデル(LLM)を用いて,プリスクリプトを必要とせずにテストケースの実行を自動化する新しいフレームワークである。
10のAndroidアプリケーションにまたがる390のテストケースを対象とした実験では、LELANTEが73%のテスト実行の成功率を達成した。
- 参考スコア(独自算出の注目度): 6.112769800569302
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Given natural language test case description for an Android application, existing testing approaches require developers to manually write scripts using tools such as Appium and Espresso to execute the corresponding test case. This process is labor-intensive and demands significant effort to maintain as UI interfaces evolve throughout development. In this work, we introduce LELANTE, a novel framework that utilizes large language models (LLMs) to automate test case execution without requiring pre-written scripts. LELANTE interprets natural language test case descriptions, iteratively generate action plans, and perform the actions directly on the Android screen using its GUI. LELANTE employs a screen refinement process to enhance LLM interpretability, constructs a structured prompt for LLMs, and implements an action generation mechanism based on chain-of-thought reasoning of LLMs. To further reduce computational cost and enhance scalability, LELANTE utilizes model distillation using a foundational LLM. In experiments across 390 test cases spanning 10 popular Android applications, LELANTE achieved a 73% test execution success rate. Our results demonstrate that LLMs can effectively bridge the gap between natural language test case description and automated execution, making mobile testing more scalable and adaptable.
- Abstract(参考訳): Androidアプリケーションの自然言語テストケース記述を前提として,既存のテストアプローチでは,AppiumやEspressoといったツールを使用してスクリプトを手作業で記述して,対応するテストケースを実行する必要がある。
このプロセスは労働集約的であり、UIインターフェースが開発を通して進化するにつれて、維持に多大な努力を要する。
本研究では,大規模な言語モデル(LLM)を用いて,プリスクリプトを必要とせずにテストケースの実行を自動化する新しいフレームワークLELANTEを紹介する。
LELANTEは自然言語のテストケース記述を解釈し、反復的にアクションプランを生成し、GUIを使用してAndroid画面上でアクションを直接実行する。
LELANTEは、LCMの解釈性を高めるためにスクリーン改善プロセスを採用し、LCMの構造的プロンプトを構築し、LCMの連鎖推論に基づくアクション生成機構を実装している。
LELANTEは、計算コストをさらに削減し、スケーラビリティを向上させるため、基礎的なLLMを用いたモデル蒸留を利用する。
10のAndroidアプリケーションにまたがる390のテストケースを対象とした実験では、LELANTEが73%のテスト実行の成功率を達成した。
この結果から,LLMは自然言語テストケース記述と自動実行のギャップを効果的に埋めることができ,モバイルテストのスケーラビリティと適応性が向上することが示された。
関連論文リスト
- LLM-AutoDiff: Auto-Differentiate Any LLM Workflow [58.56731133392544]
自動プロンプト工学(APE)のための新しいフレームワーク LLM-AutoDiff について紹介する。
LLMs-AutoDiffは、各テキスト入力をトレーニング可能なパラメータとして扱い、フリーズした後方エンジンを使用して、テキスト勾配に対するフィードバック・アキンを生成する。
精度とトレーニングコストの両方において、既存のテキスト勾配ベースラインを一貫して上回ります。
論文 参考訳(メタデータ) (2025-01-28T03:18:48Z) - Test-driven Software Experimentation with LASSO: an LLM Benchmarking Example [1.4685355149711299]
テスト駆動ソフトウェア実験(TDSE、Test-Driven Software Experiments)は、ソフトウェア主題の実行と、その"事実上の"実行時の振る舞いの観察と分析を含む実験である。
本稿では,TDSEを行うための最小限のドメイン固有言語とデータ構造を提供するLASSOという汎用解析プラットフォームを提案する。
論文 参考訳(メタデータ) (2024-10-11T15:32:48Z) - SimulBench: Evaluating Language Models with Creative Simulation Tasks [20.233111652638637]
我々は,大規模言語モデル(LLM)を評価するためのベンチマークであるSimulBenchを紹介した。
大きな課題は、ユーザとAI間のシミュレーションタスクのマルチラウンドインタラクティブな性質を保ちながら、異なるLLMを公平にテストするための評価フレームワークを開発することである。
論文 参考訳(メタデータ) (2024-09-11T21:53:20Z) - Learning to Ask: When LLM Agents Meet Unclear Instruction [55.65312637965779]
大きな言語モデル(LLM)は、言語スキルだけでは達成不可能なタスクに対処するための外部ツールを活用することができる。
我々は、不完全な命令下でのLLMツールの使用性能を評価し、エラーパターンを分析し、Noisy ToolBenchと呼ばれる挑戦的なツール使用ベンチマークを構築した。
Ask-when-Needed (AwN) という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-31T23:06:12Z) - Get my drift? Catching LLM Task Drift with Activation Deltas [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。
そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。
このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文 参考訳(メタデータ) (2024-06-02T16:53:21Z) - Intelligent Virtual Assistants with LLM-based Process Automation [31.275267197246595]
本稿では,高レベルのユーザ要求に基づいて,モバイルアプリ内のマルチステップ操作を自動的に実行可能な,LLMベースの新しい仮想アシスタントを提案する。
このシステムは、指示を解析し、目標を推論し、行動を実行するエンドツーエンドのソリューションを提供することによって、アシスタントの進歩を表す。
論文 参考訳(メタデータ) (2023-12-04T07:51:58Z) - ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。
LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文 参考訳(メタデータ) (2023-11-16T12:03:21Z) - LLM for Test Script Generation and Migration: Challenges, Capabilities,
and Opportunities [8.504639288314063]
テストスクリプト生成はソフトウェアテストの重要なコンポーネントであり、反復的なテストタスクの効率的かつ信頼性の高い自動化を可能にする。
既存の世代のアプローチは、さまざまなデバイス、プラットフォーム、アプリケーション間でテストスクリプトを正確にキャプチャし、再現することの難しさなど、しばしば制限に直面する。
本稿では,モバイルアプリケーションテストスクリプト生成分野における大規模言語モデル(LLM)の適用について検討する。
論文 参考訳(メタデータ) (2023-09-24T07:58:57Z) - AskIt: Unified Programming Interface for Programming with Large Language
Models [0.0]
大規模言語モデル(LLM)は創発能力として知られるユニークな現象を示し、多くのタスクにまたがって適応性を示す。
本稿では,LLM用に特別に設計されたドメイン固有言語であるAskItを紹介する。
50タスクにわたって、AskItは簡潔なプロンプトを生成し、ベンチマークよりも16.14パーセントのプロンプト長の削減を実現した。
論文 参考訳(メタデータ) (2023-08-29T21:44:27Z) - Low-code LLM: Graphical User Interface over Large Language Models [115.08718239772107]
本稿では,人間-LLMインタラクションフレームワークであるLow-code LLMを紹介する。
より制御可能で安定した応答を実現するために、6種類のシンプルなローコードビジュアルプログラミングインタラクションを組み込んでいる。
ユーザフレンドリなインタラクション,制御可能な生成,広い適用性という,低コード LLM の3つの利点を強調した。
論文 参考訳(メタデータ) (2023-04-17T09:27:40Z) - LEVER: Learning to Verify Language-to-Code Generation with Execution [64.36459105535]
本稿では,プログラムの実行結果の検証を学習することで,言語からコードへの生成を改善するシンプルな手法であるLEVERを提案する。
具体的には、LLMからサンプリングされたプログラムが、自然言語入力、プログラム自体とその実行結果に基づいて正しいか否かを判定するために、検証者を訓練する。
LEVER はベースコード LLMs (4.6% から 10.9% まで) を継続的に改善し、それらすべてに対して新しい最先端の結果を得る。
論文 参考訳(メタデータ) (2023-02-16T18:23:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。