論文の概要: Software Testing with Large Language Models: Survey, Landscape, and
Vision
- arxiv url: http://arxiv.org/abs/2307.07221v3
- Date: Mon, 4 Mar 2024 07:58:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-07 03:08:08.633328
- Title: Software Testing with Large Language Models: Survey, Landscape, and
Vision
- Title(参考訳): 大規模言語モデルによるソフトウェアテスト:サーベイ、ランドスケープ、ビジョン
- Authors: Junjie Wang, Yuchao Huang, Chunyang Chen, Zhe Liu, Song Wang, Qing
Wang
- Abstract要約: 事前訓練された大規模言語モデル(LLM)は、自然言語処理と人工知能におけるブレークスルー技術として登場した。
本稿では,ソフトウェアテストにおけるLCMの利用状況について概説する。
- 参考スコア(独自算出の注目度): 32.34617250991638
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained large language models (LLMs) have recently emerged as a
breakthrough technology in natural language processing and artificial
intelligence, with the ability to handle large-scale datasets and exhibit
remarkable performance across a wide range of tasks. Meanwhile, software
testing is a crucial undertaking that serves as a cornerstone for ensuring the
quality and reliability of software products. As the scope and complexity of
software systems continue to grow, the need for more effective software testing
techniques becomes increasingly urgent, making it an area ripe for innovative
approaches such as the use of LLMs. This paper provides a comprehensive review
of the utilization of LLMs in software testing. It analyzes 102 relevant
studies that have used LLMs for software testing, from both the software
testing and LLMs perspectives. The paper presents a detailed discussion of the
software testing tasks for which LLMs are commonly used, among which test case
preparation and program repair are the most representative. It also analyzes
the commonly used LLMs, the types of prompt engineering that are employed, as
well as the accompanied techniques with these LLMs. It also summarizes the key
challenges and potential opportunities in this direction. This work can serve
as a roadmap for future research in this area, highlighting potential avenues
for exploration, and identifying gaps in our current understanding of the use
of LLMs in software testing.
- Abstract(参考訳): 事前訓練された大規模言語モデル(LLM)は、最近、自然言語処理と人工知能のブレークスルー技術として登場し、大規模なデータセットを処理し、幅広いタスクにわたって顕著なパフォーマンスを示すことができる。
一方、ソフトウェアテストは、ソフトウェア製品の品質と信頼性を確保するための基礎となる重要な仕事である。
ソフトウェアシステムのスコープと複雑さが拡大し続ければ、より効果的なソフトウェアテスト技術の必要性がますます緊急になり、LCMの使用のような革新的なアプローチの領域が生まれます。
本稿では,ソフトウェアテストにおけるllmの利用について概観する。
ソフトウェアテストとLLMの両方の観点から、ソフトウェアテストにLLMを使用した102の関連研究を分析します。
本稿では,LLMが一般的に使用されるソフトウェアテストタスクについて,テストケースの準備とプログラムの修復が最も代表的なソフトウェアテストタスクについて,詳細な議論を行う。
また、一般的に使われているLLM、採用されるプロンプトエンジニアリングのタイプ、およびこれらLLMに付随する技術も分析する。
また、この方向性における重要な課題と潜在的な機会をまとめている。
この作業は、この領域における将来の研究のロードマップとして機能し、探究の潜在的な方法を強調し、ソフトウェアテストにおけるLLMの使用に関する現在の理解におけるギャップを特定します。
関連論文リスト
- Studying and Benchmarking Large Language Models For Log Level Suggestion [49.176736212364496]
大規模言語モデル(LLM)は、様々な領域で研究の焦点となっている。
本稿では,12個のオープンソースLCMのログレベル提案における性能に及ぼす特性と学習パラダイムの影響について検討する。
論文 参考訳(メタデータ) (2024-10-11T03:52:17Z) - Learning to Ask: When LLMs Meet Unclear Instruction [49.256630152684764]
大きな言語モデル(LLM)は、言語スキルだけでは達成不可能なタスクに対処するための外部ツールを活用することができる。
我々は、不完全な命令下でのLLMツールの使用性能を評価し、エラーパターンを分析し、Noisy ToolBenchと呼ばれる挑戦的なツール使用ベンチマークを構築した。
Ask-when-Needed (AwN) という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-31T23:06:12Z) - From LLMs to LLM-based Agents for Software Engineering: A Survey of Current, Challenges and Future [15.568939568441317]
本稿では,大規模言語モデル (LLM) と LLM をベースとしたソフトウェア工学エージェントの実践とソリューションについて検討する。
特に、要件エンジニアリング、コード生成、自律的な意思決定、ソフトウェア設計、テスト生成、ソフトウェアメンテナンスの6つの主要なトピックを要約します。
我々は、使用するモデルとベンチマークについて論じ、ソフトウェア工学におけるそれらの応用と有効性について包括的に分析する。
論文 参考訳(メタデータ) (2024-08-05T14:01:15Z) - Efficient Prompting for LLM-based Generative Internet of Things [88.84327500311464]
大規模言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示しており、最近、IoT(Internet of Things)アプリケーションにLLMの能力を統合することが研究の注目を集めている。
セキュリティ上の懸念から、多くの機関は最先端の商用LLMサービスへのアクセスを避け、ローカルネットワーク環境でのオープンソースLLMのデプロイと利用を必要としている。
本研究では,LLMを用いた生成IoT(Generative IoT)システムを提案する。
論文 参考訳(メタデータ) (2024-06-14T19:24:00Z) - Requirements are All You Need: From Requirements to Code with LLMs [0.0]
大規模言語モデル(LLM)は、ソフトウェア工学のタスクに適用できる。
本稿では,要求文書からコードスニペットを自動生成するLLMについて述べる。
複雑なユーザ要件を解釈し、ロバストな設計とコードソリューションを作成する上で、LCMの熟練度を実証する。
論文 参考訳(メタデータ) (2024-06-14T14:57:35Z) - A Software Engineering Perspective on Testing Large Language Models: Research, Practice, Tools and Benchmarks [2.8061460833143346]
大規模言語モデル(LLM)は、スタンドアロンツールとしても、現在および将来のソフトウェアシステムのコンポーネントとしても、急速に普及しています。
LLMを2030年のハイテイクシステムや安全クリティカルシステムで使用するためには、厳格なテストを実施する必要がある。
論文 参考訳(メタデータ) (2024-06-12T13:45:45Z) - LLM Inference Unveiled: Survey and Roofline Model Insights [62.92811060490876]
大規模言語モデル(LLM)推論は急速に進化しており、機会と課題のユニークなブレンドを提示している。
本調査は, 研究状況を要約するだけでなく, 屋上モデルに基づく枠組みを導入することによって, 従来の文献レビューから際立っている。
このフレームワークは、ハードウェアデバイスにLSMをデプロイする際のボトルネックを特定し、実用上の問題を明確に理解する。
論文 参考訳(メタデータ) (2024-02-26T07:33:05Z) - Are We Testing or Being Tested? Exploring the Practical Applications of
Large Language Models in Software Testing [0.0]
LLM(Large Language Model)は、コヒーレントなコンテンツを生成する最先端の人工知能モデルである。
LLMは、ソフトウェアテストを含むソフトウェア開発において重要な役割を担います。
本研究では,産業環境でのソフトウェアテストにおけるLCMの実用化について検討する。
論文 参考訳(メタデータ) (2023-12-08T06:30:37Z) - LM-Polygraph: Uncertainty Estimation for Language Models [71.21409522341482]
不確実性推定(UE)手法は、大規模言語モデル(LLM)の安全性、責任性、効果的な利用のための1つの経路である。
テキスト生成タスクにおけるLLMの最先端UEメソッドのバッテリを実装したフレームワークであるLM-PolygraphをPythonで統一したプログラムインタフェースで導入する。
研究者によるUEテクニックの一貫した評価のための拡張可能なベンチマークと、信頼スコア付き標準チャットダイアログを強化するデモWebアプリケーションを導入している。
論文 参考訳(メタデータ) (2023-11-13T15:08:59Z) - Towards an Understanding of Large Language Models in Software Engineering Tasks [29.30433406449331]
大規模言語モデル(LLM)は、テキスト生成や推論タスクにおける驚くべきパフォーマンスのために、広く注目を集め、研究している。
コード生成などのソフトウェア工学タスクにおけるLLMの評価と最適化が研究の焦点となっている。
本稿では,LLMとソフトウェア工学を組み合わせた研究・製品について包括的に検討・検討する。
論文 参考訳(メタデータ) (2023-08-22T12:37:29Z) - Self-Checker: Plug-and-Play Modules for Fact-Checking with Large Language Models [75.75038268227554]
Self-Checkerはファクトチェックを容易にするプラグインとプレイモジュールからなるフレームワークである。
このフレームワークは、低リソース環境でファクトチェックシステムを構築するための、高速で効率的な方法を提供する。
論文 参考訳(メタデータ) (2023-05-24T01:46:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。