論文の概要: Towards Autonomous Testing Agents via Conversational Large Language
Models
- arxiv url: http://arxiv.org/abs/2306.05152v2
- Date: Tue, 5 Sep 2023 14:34:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 04:02:50.853555
- Title: Towards Autonomous Testing Agents via Conversational Large Language
Models
- Title(参考訳): 会話型大規模言語モデルによる自律テストエージェントに向けて
- Authors: Robert Feldt, Sungmin Kang, Juyeon Yoon, Shin Yoo
- Abstract要約: 大規模言語モデル(LLM)は自動テストアシスタントとして使用できる。
本稿では,LSMをベースとしたテストエージェントの自律性に基づく分類法を提案する。
- 参考スコア(独自算出の注目度): 18.302956037305112
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Software testing is an important part of the development cycle, yet it
requires specialized expertise and substantial developer effort to adequately
test software. Recent discoveries of the capabilities of large language models
(LLMs) suggest that they can be used as automated testing assistants, and thus
provide helpful information and even drive the testing process. To highlight
the potential of this technology, we present a taxonomy of LLM-based testing
agents based on their level of autonomy, and describe how a greater level of
autonomy can benefit developers in practice. An example use of LLMs as a
testing assistant is provided to demonstrate how a conversational framework for
testing can help developers. This also highlights how the often criticized
hallucination of LLMs can be beneficial for testing. We identify other tangible
benefits that LLM-driven testing agents can bestow, and also discuss potential
limitations.
- Abstract(参考訳): ソフトウェアテストは開発サイクルの重要な部分ですが、ソフトウェアを適切にテストするには専門的な専門知識と実質的な開発者努力が必要です。
最近の大言語モデル(llm)の機能の発見は、自動テストアシスタントとして使用できることを示唆しており、それによって役立つ情報を提供し、テストプロセスを進めることさえできる。
この技術の可能性を強調するために、我々は、LLMベースのテストエージェントの分類を、その自律性レベルに基づいて提示し、より高度な自律性が実際に開発者にどのような恩恵をもたらすかを説明する。
テストアシスタントとしてのLLMの例は、テストのための会話フレームワークが開発者にどのように役立つかを示すために提供されている。
これはまた、しばしば批判されるLLMの幻覚がテストにどのように役立つかを強調している。
LLM駆動テストエージェントが期待できる他の具体的なメリットを特定し、潜在的な制限について議論する。
関連論文リスト
- The Potential of LLMs in Automating Software Testing: From Generation to Reporting [0.0]
手動テストは効果的だが、時間とコストがかかり、自動化メソッドの需要が増大する。
大規模言語モデル(LLM)の最近の進歩は、ソフトウェア工学に大きな影響を与えている。
本稿では,人間の介入を減らし,テスト効率を向上させるため,LSMを用いた自動ソフトウェアテストに対するエージェント指向アプローチについて検討する。
論文 参考訳(メタデータ) (2024-12-31T02:06:46Z) - Improving the Readability of Automatically Generated Tests using Large Language Models [7.7149881834358345]
探索型ジェネレータの有効性とLLM生成試験の可読性を組み合わせることを提案する。
提案手法は,検索ツールが生成するテスト名や変数名の改善に重点を置いている。
論文 参考訳(メタデータ) (2024-12-25T09:08:53Z) - Studying and Benchmarking Large Language Models For Log Level Suggestion [49.176736212364496]
大規模言語モデル(LLM)は、様々な領域で研究の焦点となっている。
本稿では,12個のオープンソースLCMのログレベル提案における性能に及ぼす特性と学習パラダイムの影響について検討する。
論文 参考訳(メタデータ) (2024-10-11T03:52:17Z) - ASTER: Natural and Multi-language Unit Test Generation with LLMs [6.259245181881262]
静的解析を組み込んだジェネリックパイプラインを記述し,コンパイル可能な高カバレッジテストケースの生成においてLCMをガイドする。
コードカバレッジとテスト自然性の観点から,生成したテストの品質を評価するための実証的研究を行った。
論文 参考訳(メタデータ) (2024-09-04T21:46:18Z) - Learning to Ask: When LLM Agents Meet Unclear Instruction [55.65312637965779]
大きな言語モデル(LLM)は、言語スキルだけでは達成不可能なタスクに対処するための外部ツールを活用することができる。
我々は、不完全な命令下でのLLMツールの使用性能を評価し、エラーパターンを分析し、Noisy ToolBenchと呼ばれる挑戦的なツール使用ベンチマークを構築した。
Ask-when-Needed (AwN) という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-31T23:06:12Z) - CIBench: Evaluating Your LLMs with a Code Interpreter Plugin [68.95137938214862]
データサイエンスタスクにコードインタプリタを利用するLLMの能力を総合的に評価する,CIBenchという対話型評価フレームワークを提案する。
評価データセットは,LLM-人的協調手法を用いて構築され,連続的かつ対話的なIPythonセッションを活用することによって,実際のワークフローをシミュレートする。
コードインタプリタの利用において, CIBench 上で 24 個の LLM の能力を解析し, 将来の LLM に対する貴重な洞察を提供するため, 広範囲にわたる実験を行った。
論文 参考訳(メタデータ) (2024-07-15T07:43:55Z) - Automatic benchmarking of large multimodal models via iterative experiment programming [71.78089106671581]
本稿では,LMMの自動ベンチマークのための最初のフレームワークであるAPExを紹介する。
自然言語で表現された研究の質問に対して、APExは大きな言語モデル(LLM)と事前定義されたツールのライブラリを活用して、手元にあるモデルの一連の実験を生成する。
調査の現在の状況に基づいて、APExはどの実験を行うか、結果が結論を引き出すのに十分かどうかを選択する。
論文 参考訳(メタデータ) (2024-06-18T06:43:46Z) - Test Oracle Automation in the era of LLMs [52.69509240442899]
大規模言語モデル(LLM)は、多様なソフトウェアテストタスクに取り組むのに顕著な能力を示した。
本研究の目的は, 各種のオラクル生成時に生じる課題とともに, LLMs によるオラクルの自動化の可能性について検討することである。
論文 参考訳(メタデータ) (2024-05-21T13:19:10Z) - Are We Testing or Being Tested? Exploring the Practical Applications of
Large Language Models in Software Testing [0.0]
LLM(Large Language Model)は、コヒーレントなコンテンツを生成する最先端の人工知能モデルである。
LLMは、ソフトウェアテストを含むソフトウェア開発において重要な役割を担います。
本研究では,産業環境でのソフトウェアテストにおけるLCMの実用化について検討する。
論文 参考訳(メタデータ) (2023-12-08T06:30:37Z) - LLM for Test Script Generation and Migration: Challenges, Capabilities,
and Opportunities [8.504639288314063]
テストスクリプト生成はソフトウェアテストの重要なコンポーネントであり、反復的なテストタスクの効率的かつ信頼性の高い自動化を可能にする。
既存の世代のアプローチは、さまざまなデバイス、プラットフォーム、アプリケーション間でテストスクリプトを正確にキャプチャし、再現することの難しさなど、しばしば制限に直面する。
本稿では,モバイルアプリケーションテストスクリプト生成分野における大規模言語モデル(LLM)の適用について検討する。
論文 参考訳(メタデータ) (2023-09-24T07:58:57Z) - Self-Checker: Plug-and-Play Modules for Fact-Checking with Large Language Models [75.75038268227554]
Self-Checkerはファクトチェックを容易にするプラグインとプレイモジュールからなるフレームワークである。
このフレームワークは、低リソース環境でファクトチェックシステムを構築するための、高速で効率的な方法を提供する。
論文 参考訳(メタデータ) (2023-05-24T01:46:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。