Fugu-MT 論文翻訳(概要): LLM for Test Script Generation and Migration: Challenges, Capabilities, and Opportunities

論文の概要: LLM for Test Script Generation and Migration: Challenges, Capabilities, and Opportunities

arxiv url: http://arxiv.org/abs/2309.13574v1
Date: Sun, 24 Sep 2023 07:58:57 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-23 06:26:01.771100
Title: LLM for Test Script Generation and Migration: Challenges, Capabilities, and Opportunities
Title（参考訳）: テストスクリプトの生成と移行のためのllm - 課題、能力、機会
Authors: Shengcheng Yu, Chunrong Fang, Yuchen Ling, Chentian Wu, Zhenyu Chen
Abstract要約: テストスクリプト生成はソフトウェアテストの重要なコンポーネントであり、反復的なテストタスクの効率的かつ信頼性の高い自動化を可能にする。既存の世代のアプローチは、さまざまなデバイス、プラットフォーム、アプリケーション間でテストスクリプトを正確にキャプチャし、再現することの難しさなど、しばしば制限に直面する。本稿では,モバイルアプリケーションテストスクリプト生成分野における大規模言語モデル(LLM)の適用について検討する。
参考スコア（独自算出の注目度）: 8.504639288314063
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: This paper investigates the application of large language models (LLM) in the domain of mobile application test script generation. Test script generation is a vital component of software testing, enabling efficient and reliable automation of repetitive test tasks. However, existing generation approaches often encounter limitations, such as difficulties in accurately capturing and reproducing test scripts across diverse devices, platforms, and applications. These challenges arise due to differences in screen sizes, input modalities, platform behaviors, API inconsistencies, and application architectures. Overcoming these limitations is crucial for achieving robust and comprehensive test automation. By leveraging the capabilities of LLMs, we aim to address these challenges and explore its potential as a versatile tool for test automation. We investigate how well LLMs can adapt to diverse devices and systems while accurately capturing and generating test scripts. Additionally, we evaluate its cross-platform generation capabilities by assessing its ability to handle operating system variations and platform-specific behaviors. Furthermore, we explore the application of LLMs in cross-app migration, where it generates test scripts across different applications and software environments based on existing scripts. Throughout the investigation, we analyze its adaptability to various user interfaces, app architectures, and interaction patterns, ensuring accurate script generation and compatibility. The findings of this research contribute to the understanding of LLMs' capabilities in test automation. Ultimately, this research aims to enhance software testing practices, empowering app developers to achieve higher levels of software quality and development efficiency.
Abstract（参考訳）: 本稿では,モバイルアプリケーションテストスクリプト生成分野における大規模言語モデル(LLM)の適用について検討する。テストスクリプト生成はソフトウェアテストの重要なコンポーネントであり、反復的なテストタスクの効率的かつ信頼性の高い自動化を可能にする。しかし、既存の世代のアプローチは、様々なデバイス、プラットフォーム、アプリケーション間でテストスクリプトを正確にキャプチャし、再現することの難しさなど、しばしば制限に直面する。これらの課題は、画面サイズ、入力モダリティ、プラットフォームの振る舞い、APIの不整合、アプリケーションアーキテクチャの違いによって生じる。これらの制限を克服することは、堅牢で包括的なテスト自動化を達成する上で非常に重要です。 LLMの機能を活用することで、これらの課題に対処し、テスト自動化のための汎用ツールとしての可能性を探ることを目指している。 LLMがテストスクリプトを正確にキャプチャし、生成しながら、多様なデバイスやシステムにどの程度適応できるかを検討する。さらに,オペレーティングシステムのバリエーションやプラットフォーム固有の振る舞いを扱う能力を評価することにより,そのクロスプラットフォーム生成能力を評価する。さらに,既存のスクリプトに基づいて,さまざまなアプリケーションやソフトウェア環境にまたがってテストスクリプトを生成するクロスアプリケーション移行におけるllmの適用について検討する。調査を通じて,さまざまなユーザインターフェース,アプリアーキテクチャ,インタラクションパターンへの適応性を解析し,スクリプト生成と互換性の保証を行う。本研究の成果は,テスト自動化におけるLLMの能力の理解に寄与する。究極的には、この研究はソフトウェアテストのプラクティスを強化することを目的としており、アプリ開発者がより高いレベルのソフトウェア品質と開発効率を達成できるようにする。

関連論文リスト

Testing the Untestable? An Empirical Study on the Testing Process of LLM-Powered Software Systems [0.0]
本研究では,実世界のアプリケーション開発において,大規模言語モデルがどのようにテストされるかを検討する。ケーススタディは、LLMを利用したアプリケーションを大学コースの一部として構築・展開した学生によって書かれた99の個人レポートを用いて実施された。結果: LLMを利用したシステムをテストするには, 従来の検証手法に適応し, ソースレベルの推論と行動認識評価をブレンドする必要がある。
論文参考訳（メタデータ） (2025-07-31T22:39:24Z)
Skill Discovery for Software Scripting Automation via Offline Simulations with LLMs [63.10710876536337]
検証済みスクリプトの集合であるソフトウェア固有のスキルセットをキュレートするためのオフラインシミュレーションフレームワークを提案する。本フレームワークは,1)タスク作成,トップダウン機能の利用,およびボトムアップAPIのシナジー探索という2つのコンポーネントから構成される。 Adobe Illustratorでの実験では、我々のフレームワークは自動化の成功率を大幅に改善し、レスポンス時間を短縮し、ランタイムトークンのコストを削減しています。
論文参考訳（メタデータ） (2025-04-29T04:03:37Z)
Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文参考訳（メタデータ） (2025-02-17T18:49:25Z)
The Potential of LLMs in Automating Software Testing: From Generation to Reporting [0.0]
手動テストは効果的だが、時間とコストがかかり、自動化メソッドの需要が増大する。大規模言語モデル(LLM)の最近の進歩は、ソフトウェア工学に大きな影響を与えている。本稿では,人間の介入を減らし,テスト効率を向上させるため,LSMを用いた自動ソフトウェアテストに対するエージェント指向アプローチについて検討する。
論文参考訳（メタデータ） (2024-12-31T02:06:46Z)
PentestAgent: Incorporating LLM Agents to Automated Penetration Testing [6.815381197173165]
手動浸透試験は時間と費用がかかる。大規模言語モデル(LLM)の最近の進歩は、浸透テストを強化する新たな機会を提供する。我々は,新しいLLMベースの自動浸透試験フレームワークであるPentestAgentを提案する。
論文参考訳（メタデータ） (2024-11-07T21:10:39Z)
AutoPT: How Far Are We from the End2End Automated Web Penetration Testing? [54.65079443902714]
LLMによって駆動されるPSMの原理に基づく自動浸透試験エージェントであるAutoPTを紹介する。以上の結果から, AutoPT は GPT-4o ミニモデル上でのベースラインフレームワーク ReAct よりも優れていた。
論文参考訳（メタデータ） (2024-11-02T13:24:30Z)
APITestGenie: Automated API Test Generation through Generative AI [2.0716352593701277]
APITestGenieはビジネス要件とAPI仕様から実行可能なAPIテストスクリプトを生成する。 10の現実世界のAPIを使った実験では、ツールが有効なテストスクリプトを57%生成した。人間の介入は、CI/CDパイプラインに統合される前に生成されたスクリプトを検証または洗練するために推奨される。
論文参考訳（メタデータ） (2024-09-05T18:02:41Z)
Tool Learning in the Wild: Empowering Language Models as Automatic Tool Agents [56.822238860147024]
大規模な言語モデルを外部ツールで拡張することは、彼らのユーティリティを拡張するための有望なアプローチとして現れました。以前のメソッドは、ツールドキュメントを手動で解析し、コンテキスト内デモを作成し、ツールをLLMがステップバイステップの推論で使用する構造化フォーマットに変換する。 LLMがツール使用ワークフローを自動化できるフレームワークであるAutoToolsを提案する。
論文参考訳（メタデータ） (2024-05-26T11:40:58Z)
Test Oracle Automation in the era of LLMs [52.69509240442899]
大規模言語モデル(LLM)は、多様なソフトウェアテストタスクに取り組むのに顕著な能力を示した。本研究の目的は, 各種のオラクル生成時に生じる課題とともに, LLMs によるオラクルの自動化の可能性について検討することである。
論文参考訳（メタデータ） (2024-05-21T13:19:10Z)
DevBench: A Comprehensive Benchmark for Software Development [72.24266814625685]
DevBenchは、ソフトウェア開発ライフサイクルのさまざまな段階にわたる大規模言語モデル(LLM)を評価するベンチマークである。 GPT-4-Turboを含む現在のLLMは、DevBench内での課題の解決に失敗している。本研究は,LLMを現実のプログラミングアプリケーションに展開する上で,現実的な知見を提供するものである。
論文参考訳（メタデータ） (2024-03-13T15:13:44Z)
PPTC-R benchmark: Towards Evaluating the Robustness of Large Language Models for PowerPoint Task Completion [96.47420221442397]
文,意味,多言語レベルでユーザ命令を攻撃することにより,逆ユーザ命令を構築する。我々は、ロバストネス設定を組み込んだベンチマークを用いて、3つのクローズドソースと4つのオープンソースLCMをテストする。 GPT-4は我々のベンチマークで最も高い性能と強靭性を示す。
論文参考訳（メタデータ） (2024-03-06T15:33:32Z)
Are We Testing or Being Tested? Exploring the Practical Applications of Large Language Models in Software Testing [0.0]
LLM(Large Language Model)は、コヒーレントなコンテンツを生成する最先端の人工知能モデルである。 LLMは、ソフトウェアテストを含むソフトウェア開発において重要な役割を担います。本研究では,産業環境でのソフトウェアテストにおけるLCMの実用化について検討する。
論文参考訳（メタデータ） (2023-12-08T06:30:37Z)
TaskBench: Benchmarking Large Language Models for Task Automation [82.2932794189585]
タスク自動化における大規模言語モデル(LLM)の機能を評価するためのフレームワークであるTaskBenchを紹介する。具体的には、タスクの分解、ツールの選択、パラメータ予測を評価する。提案手法は, 自動構築と厳密な人的検証を組み合わせることで, 人的評価との整合性を確保する。
論文参考訳（メタデータ） (2023-11-30T18:02:44Z)
ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。 LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文参考訳（メタデータ） (2023-11-16T12:03:21Z)
Software Testing with Large Language Models: Survey, Landscape, and Vision [32.34617250991638]
事前訓練された大規模言語モデル(LLM)は、自然言語処理と人工知能におけるブレークスルー技術として登場した。本稿では,ソフトウェアテストにおけるLCMの利用状況について概説する。
論文参考訳（メタデータ） (2023-07-14T08:26:12Z)
Towards Autonomous Testing Agents via Conversational Large Language Models [18.302956037305112]
大規模言語モデル(LLM)は自動テストアシスタントとして使用できる。本稿では,LSMをベースとしたテストエージェントの自律性に基づく分類法を提案する。
論文参考訳（メタデータ） (2023-06-08T12:22:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。