Fugu-MT 論文翻訳(概要): Towards Autonomous Testing Agents via Conversational Large Language Models

論文の概要: Towards Autonomous Testing Agents via Conversational Large Language Models

arxiv url: http://arxiv.org/abs/2306.05152v2
Date: Tue, 5 Sep 2023 14:34:15 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-24 04:02:50.853555
Title: Towards Autonomous Testing Agents via Conversational Large Language Models
Title（参考訳）: 会話型大規模言語モデルによる自律テストエージェントに向けて
Authors: Robert Feldt, Sungmin Kang, Juyeon Yoon, Shin Yoo
Abstract要約: 大規模言語モデル(LLM)は自動テストアシスタントとして使用できる。本稿では,LSMをベースとしたテストエージェントの自律性に基づく分類法を提案する。
参考スコア（独自算出の注目度）: 18.302956037305112
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Software testing is an important part of the development cycle, yet it requires specialized expertise and substantial developer effort to adequately test software. Recent discoveries of the capabilities of large language models (LLMs) suggest that they can be used as automated testing assistants, and thus provide helpful information and even drive the testing process. To highlight the potential of this technology, we present a taxonomy of LLM-based testing agents based on their level of autonomy, and describe how a greater level of autonomy can benefit developers in practice. An example use of LLMs as a testing assistant is provided to demonstrate how a conversational framework for testing can help developers. This also highlights how the often criticized hallucination of LLMs can be beneficial for testing. We identify other tangible benefits that LLM-driven testing agents can bestow, and also discuss potential limitations.
Abstract（参考訳）: ソフトウェアテストは開発サイクルの重要な部分ですが、ソフトウェアを適切にテストするには専門的な専門知識と実質的な開発者努力が必要です。最近の大言語モデル(llm)の機能の発見は、自動テストアシスタントとして使用できることを示唆しており、それによって役立つ情報を提供し、テストプロセスを進めることさえできる。この技術の可能性を強調するために、我々は、LLMベースのテストエージェントの分類を、その自律性レベルに基づいて提示し、より高度な自律性が実際に開発者にどのような恩恵をもたらすかを説明する。テストアシスタントとしてのLLMの例は、テストのための会話フレームワークが開発者にどのように役立つかを示すために提供されている。これはまた、しばしば批判されるLLMの幻覚がテストにどのように役立つかを強調している。 LLM駆動テストエージェントが期待できる他の具体的なメリットを特定し、潜在的な制限について議論する。

関連論文リスト

Automated Test Suite Enhancement Using Large Language Models with Few-shot Prompting [0.0]
単体テストは、コードモジュールの機能的正当性を検証するのに不可欠である。検索ベースのソフトウェアテスト(SBST)、可読性、自然性、実用的なユーザビリティの欠如など、従来のアプローチを採用したツールによって生成されたユニットテスト。ソフトウェアリポジトリには、人間によるテスト、LLMで生成されたテスト、SBSTのような従来のアプローチを使ったツールが混在している。
論文参考訳（メタデータ） (2026-02-12T18:42:49Z)
Automated structural testing of LLM-based agents: methods, framework, and case studies [0.05254956925594667]
LLMベースのエージェントは、様々な領域で急速に採用されている。現在のテストアプローチは、ユーザの視点からの受け入れレベルの評価に重点を置いている。 LLMをベースとしたエージェントの構造試験を可能にする手法を提案する。
論文参考訳（メタデータ） (2026-01-25T11:52:30Z)
Software Testing with Large Language Models: An Interview Study with Practitioners [2.198430261120653]
ソフトウェアテストにおける大きな言語モデルの使用は、多くのタスクをサポートするにつれて急速に増加しています。しかし、彼らの採用は構造的なガイダンスよりも非公式な実験に依存していることが多い。本研究は,ソフトウェアテスト専門家が LLM を用いて,予備的,実践的インフォームドガイドラインを提案する方法について考察する。
論文参考訳（メタデータ） (2025-10-20T05:06:56Z)
The Potential of LLMs in Automating Software Testing: From Generation to Reporting [0.0]
手動テストは効果的だが、時間とコストがかかり、自動化メソッドの需要が増大する。大規模言語モデル(LLM)の最近の進歩は、ソフトウェア工学に大きな影響を与えている。本稿では,人間の介入を減らし,テスト効率を向上させるため,LSMを用いた自動ソフトウェアテストに対するエージェント指向アプローチについて検討する。
論文参考訳（メタデータ） (2024-12-31T02:06:46Z)
Improving the Readability of Automatically Generated Tests using Large Language Models [7.7149881834358345]
探索型ジェネレータの有効性とLLM生成試験の可読性を組み合わせることを提案する。提案手法は,検索ツールが生成するテスト名や変数名の改善に重点を置いている。
論文参考訳（メタデータ） (2024-12-25T09:08:53Z)
Studying and Benchmarking Large Language Models For Log Level Suggestion [49.176736212364496]
大規模言語モデル(LLM)は、様々な領域で研究の焦点となっている。本稿では,12個のオープンソースLCMのログレベル提案における性能に及ぼす特性と学習パラダイムの影響について検討する。
論文参考訳（メタデータ） (2024-10-11T03:52:17Z)
Multi-language Unit Test Generation using LLMs [6.259245181881262]
静的解析を組み込んだジェネリックパイプラインを記述し,コンパイル可能な高カバレッジテストケースの生成においてLCMをガイドする。パイプラインをさまざまなプログラミング言語、特にJavaとPython、そして環境モックを必要とする複雑なソフトウェアに適用する方法を示します。以上の結果から,静的解析によって導かれるLCMベースのテスト生成は,最新のテスト生成技術と競合し,さらに性能も向上することが示された。
論文参考訳（メタデータ） (2024-09-04T21:46:18Z)
Learning to Ask: When LLMs Meet Unclear Instruction [49.256630152684764]
大きな言語モデル(LLM)は、言語スキルだけでは達成不可能なタスクに対処するための外部ツールを活用することができる。我々は、不完全な命令下でのLLMツールの使用性能を評価し、エラーパターンを分析し、Noisy ToolBenchと呼ばれる挑戦的なツール使用ベンチマークを構築した。 Ask-when-Needed (AwN) という新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-08-31T23:06:12Z)
CIBench: Evaluating Your LLMs with a Code Interpreter Plugin [68.95137938214862]
データサイエンスタスクにコードインタプリタを利用するLLMの能力を総合的に評価する,CIBenchという対話型評価フレームワークを提案する。評価データセットは,LLM-人的協調手法を用いて構築され,連続的かつ対話的なIPythonセッションを活用することによって,実際のワークフローをシミュレートする。コードインタプリタの利用において, CIBench 上で 24 個の LLM の能力を解析し, 将来の LLM に対する貴重な洞察を提供するため, 広範囲にわたる実験を行った。
論文参考訳（メタデータ） (2024-07-15T07:43:55Z)
Automatic benchmarking of large multimodal models via iterative experiment programming [71.78089106671581]
本稿では,LMMの自動ベンチマークのための最初のフレームワークであるAPExを紹介する。自然言語で表現された研究の質問に対して、APExは大きな言語モデル(LLM)と事前定義されたツールのライブラリを活用して、手元にあるモデルの一連の実験を生成する。調査の現在の状況に基づいて、APExはどの実験を行うか、結果が結論を引き出すのに十分かどうかを選択する。
論文参考訳（メタデータ） (2024-06-18T06:43:46Z)
Test Oracle Automation in the era of LLMs [52.69509240442899]
大規模言語モデル(LLM)は、多様なソフトウェアテストタスクに取り組むのに顕著な能力を示した。本研究の目的は, 各種のオラクル生成時に生じる課題とともに, LLMs によるオラクルの自動化の可能性について検討することである。
論文参考訳（メタデータ） (2024-05-21T13:19:10Z)
Are We Testing or Being Tested? Exploring the Practical Applications of Large Language Models in Software Testing [0.0]
LLM(Large Language Model)は、コヒーレントなコンテンツを生成する最先端の人工知能モデルである。 LLMは、ソフトウェアテストを含むソフトウェア開発において重要な役割を担います。本研究では,産業環境でのソフトウェアテストにおけるLCMの実用化について検討する。
論文参考訳（メタデータ） (2023-12-08T06:30:37Z)
AXNav: Replaying Accessibility Tests from Natural Language [14.131076040673351]
大規模言語モデル(LLM)は、UIの自動化を含む様々なタスクに使用されている。本稿では,自然言語ベースのアクセシビリティテストワークフローの要件について検討する。手動アクセシビリティテスト(例えばVoiceOver''のショー検索)を入力として、LLMとピクセルベースのUI理解モデルを組み合わせてテストを実行するシステムを構築します。
論文参考訳（メタデータ） (2023-10-03T20:37:58Z)
LLM for Test Script Generation and Migration: Challenges, Capabilities, and Opportunities [8.504639288314063]
テストスクリプト生成はソフトウェアテストの重要なコンポーネントであり、反復的なテストタスクの効率的かつ信頼性の高い自動化を可能にする。既存の世代のアプローチは、さまざまなデバイス、プラットフォーム、アプリケーション間でテストスクリプトを正確にキャプチャし、再現することの難しさなど、しばしば制限に直面する。本稿では,モバイルアプリケーションテストスクリプト生成分野における大規模言語モデル(LLM)の適用について検討する。
論文参考訳（メタデータ） (2023-09-24T07:58:57Z)
Software Testing with Large Language Models: Survey, Landscape, and Vision [32.34617250991638]
事前訓練された大規模言語モデル(LLM)は、自然言語処理と人工知能におけるブレークスルー技術として登場した。本稿では,ソフトウェアテストにおけるLCMの利用状況について概説する。
論文参考訳（メタデータ） (2023-07-14T08:26:12Z)
Self-Checker: Plug-and-Play Modules for Fact-Checking with Large Language Models [75.75038268227554]
Self-Checkerはファクトチェックを容易にするプラグインとプレイモジュールからなるフレームワークである。このフレームワークは、低リソース環境でファクトチェックシステムを構築するための、高速で効率的な方法を提供する。
論文参考訳（メタデータ） (2023-05-24T01:46:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。