論文の概要: Towards Autonomous Testing Agents via Conversational Large Language
Models
- arxiv url: http://arxiv.org/abs/2306.05152v2
- Date: Tue, 5 Sep 2023 14:34:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 04:02:50.853555
- Title: Towards Autonomous Testing Agents via Conversational Large Language
Models
- Title(参考訳): 会話型大規模言語モデルによる自律テストエージェントに向けて
- Authors: Robert Feldt, Sungmin Kang, Juyeon Yoon, Shin Yoo
- Abstract要約: 大規模言語モデル(LLM)は自動テストアシスタントとして使用できる。
本稿では,LSMをベースとしたテストエージェントの自律性に基づく分類法を提案する。
- 参考スコア(独自算出の注目度): 18.302956037305112
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Software testing is an important part of the development cycle, yet it
requires specialized expertise and substantial developer effort to adequately
test software. Recent discoveries of the capabilities of large language models
(LLMs) suggest that they can be used as automated testing assistants, and thus
provide helpful information and even drive the testing process. To highlight
the potential of this technology, we present a taxonomy of LLM-based testing
agents based on their level of autonomy, and describe how a greater level of
autonomy can benefit developers in practice. An example use of LLMs as a
testing assistant is provided to demonstrate how a conversational framework for
testing can help developers. This also highlights how the often criticized
hallucination of LLMs can be beneficial for testing. We identify other tangible
benefits that LLM-driven testing agents can bestow, and also discuss potential
limitations.
- Abstract(参考訳): ソフトウェアテストは開発サイクルの重要な部分ですが、ソフトウェアを適切にテストするには専門的な専門知識と実質的な開発者努力が必要です。
最近の大言語モデル(llm)の機能の発見は、自動テストアシスタントとして使用できることを示唆しており、それによって役立つ情報を提供し、テストプロセスを進めることさえできる。
この技術の可能性を強調するために、我々は、LLMベースのテストエージェントの分類を、その自律性レベルに基づいて提示し、より高度な自律性が実際に開発者にどのような恩恵をもたらすかを説明する。
テストアシスタントとしてのLLMの例は、テストのための会話フレームワークが開発者にどのように役立つかを示すために提供されている。
これはまた、しばしば批判されるLLMの幻覚がテストにどのように役立つかを強調している。
LLM駆動テストエージェントが期待できる他の具体的なメリットを特定し、潜在的な制限について議論する。
関連論文リスト
- T-Eval: Evaluating the Tool Utilization Capability of Large Language
Models Step by Step [69.64348626180623]
大規模言語モデル (LLM) は様々なNLPタスクにおいて顕著な性能を達成した。
LLMのツール活用能力の評価と分析方法はまだ未検討である。
ツール利用能力を段階的に評価するためにT-Evalを導入する。
論文 参考訳(メタデータ) (2023-12-21T17:02:06Z) - Are We Testing or Being Tested? Exploring the Practical Applications of
Large Language Models in Software Testing [0.0]
LLM(Large Language Model)は、コヒーレントなコンテンツを生成する最先端の人工知能モデルである。
LLMは、ソフトウェアテストを含むソフトウェア開発において重要な役割を担います。
本研究では,産業環境でのソフトウェアテストにおけるLCMの実用化について検討する。
論文 参考訳(メタデータ) (2023-12-08T06:30:37Z) - Test-Time Self-Adaptive Small Language Models for Question Answering [63.91013329169796]
ラベルのないテストデータのみを用いて、より小さな自己適応型LMの能力を示し、検討する。
提案した自己適応戦略は,ベンチマークQAデータセットの大幅な性能向上を示す。
論文 参考訳(メタデータ) (2023-10-20T06:49:32Z) - Beyond Testers' Biases: Guiding Model Testing with Knowledge Bases using
LLMs [30.024465480783835]
ウィーバーは、モデルテストの指針となる要求の導出をサポートする対話型ツールである。
Weaverは大きな言語モデルを使用して知識ベースを生成し、インタラクティブに概念を推奨する。
論文 参考訳(メタデータ) (2023-10-14T21:24:03Z) - Benchmarking Large Language Models As AI Research Agents [105.65277755304277]
我々は,AI研究エージェントをベンチマークするMLタスクスイートであるMLAgentBenchを提案する。
我々は, GPT-4をベースとした研究エージェントが, MLAgentBenchの多くのタスクにおいて, 魅力的なMLモデルを構築できることを発見した。
長期計画や幻覚など,LSMをベースとした研究エージェントにとって重要な課題をいくつか挙げる。
論文 参考訳(メタデータ) (2023-10-05T04:06:12Z) - AXNav: Replaying Accessibility Tests from Natural Language [14.131076040673351]
大規模言語モデル(LLM)は、UIの自動化を含む様々なタスクに使用されている。
本稿では,自然言語ベースのアクセシビリティテストワークフローの要件について検討する。
手動アクセシビリティテスト(例えばVoiceOver''のショー検索)を入力として、LLMとピクセルベースのUI理解モデルを組み合わせてテストを実行するシステムを構築します。
論文 参考訳(メタデータ) (2023-10-03T20:37:58Z) - LLM for Test Script Generation and Migration: Challenges, Capabilities,
and Opportunities [8.504639288314063]
テストスクリプト生成はソフトウェアテストの重要なコンポーネントであり、反復的なテストタスクの効率的かつ信頼性の高い自動化を可能にする。
既存の世代のアプローチは、さまざまなデバイス、プラットフォーム、アプリケーション間でテストスクリプトを正確にキャプチャし、再現することの難しさなど、しばしば制限に直面する。
本稿では,モバイルアプリケーションテストスクリプト生成分野における大規模言語モデル(LLM)の適用について検討する。
論文 参考訳(メタデータ) (2023-09-24T07:58:57Z) - MINT: Evaluating LLMs in Multi-turn Interaction with Tools and Language
Feedback [78.60644407028022]
我々は,大規模言語モデルのマルチターンインタラクションによる課題解決能力を評価するベンチマークであるMINTを紹介する。
LLMは一般的に、ツールと言語フィードバックの恩恵を受けます。
LLMの評価、教師あり指導ファインタニング(SIFT)、人間からのフィードバックからの強化学習(RLHF)は、一般的にマルチターン能力を損なう。
論文 参考訳(メタデータ) (2023-09-19T15:25:42Z) - Software Testing with Large Language Models: Survey, Landscape, and
Vision [32.34617250991638]
事前訓練された大規模言語モデル(LLM)は、自然言語処理と人工知能におけるブレークスルー技術として登場した。
本稿では,ソフトウェアテストにおけるLCMの利用状況について概説する。
論文 参考訳(メタデータ) (2023-07-14T08:26:12Z) - Efficiently Measuring the Cognitive Ability of LLMs: An Adaptive Testing
Perspective [63.92197404447808]
大きな言語モデル(LLM)は、人間のような認知能力を示している。
LLM評価のための適応テストフレームワークを提案する。
このアプローチは、モデルの性能に基づいて、難易度などのテスト問題の特徴を動的に調整する。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - Attributed Question Answering: Evaluation and Modeling for Attributed
Large Language Models [68.37431984231338]
大規模言語モデル(LLM)は、直接の監督をほとんど必要とせず、様々なタスクにわたって印象的な結果を示している。
我々は、LLMが生成するテキストの属性に持つ能力は、この設定においてシステム開発者とユーザの両方にとって不可欠であると信じている。
論文 参考訳(メタデータ) (2022-12-15T18:45:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。