論文の概要: Test Oracle Automation in the era of LLMs
- arxiv url: http://arxiv.org/abs/2405.12766v1
- Date: Tue, 21 May 2024 13:19:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-22 13:19:55.403893
- Title: Test Oracle Automation in the era of LLMs
- Title(参考訳): LLM時代のOracle Automationをテストする
- Authors: Facundo Molina, Alessandra Gorla,
- Abstract要約: 大規模言語モデル(LLM)は、多様なソフトウェアテストタスクに取り組むのに顕著な能力を示した。
本研究の目的は, 各種のオラクル生成時に生じる課題とともに, LLMs によるオラクルの自動化の可能性について検討することである。
- 参考スコア(独自算出の注目度): 52.69509240442899
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The effectiveness of a test suite in detecting faults highly depends on the correctness and completeness of its test oracles. Large Language Models (LLMs) have already demonstrated remarkable proficiency in tackling diverse software testing tasks, such as automated test generation and program repair. This paper aims to enable discussions on the potential of using LLMs for test oracle automation, along with the challenges that may emerge during the generation of various types of oracles. Additionally, our aim is to initiate discussions on the primary threats that SE researchers must consider when employing LLMs for oracle automation, encompassing concerns regarding oracle deficiencies and data leakages.
- Abstract(参考訳): 欠陥検出におけるテストスイートの有効性は、そのテストオーラクルの正確性と完全性に大きく依存する。
大規模言語モデル(LLM)は、自動テスト生成やプログラムの修正など、多様なソフトウェアテストタスクに取り組む上で、すでに顕著な能力を発揮している。
本研究の目的は, 各種のオラクル生成時に生じる課題とともに, LLMs によるオラクルの自動化の可能性について検討することである。
さらに,本研究の目的は, オラクルの欠陥やデータ漏洩に関する懸念を含む, オラクルの自動化にLLMを使用する場合, SE研究者が考慮すべき主要な脅威について, 議論を開始することである。
関連論文リスト
- SpecTool: A Benchmark for Characterizing Errors in Tool-Use LLMs [77.79172008184415]
SpecToolは、ツール使用タスクのLLM出力のエラーパターンを特定するための新しいベンチマークである。
もっとも顕著なLCMでも,これらの誤りパターンが出力に現れることを示す。
SPECTOOLの分析と洞察を使って、エラー軽減戦略をガイドすることができる。
論文 参考訳(メタデータ) (2024-11-20T18:56:22Z) - PentestAgent: Incorporating LLM Agents to Automated Penetration Testing [6.815381197173165]
手動浸透試験は時間と費用がかかる。
大規模言語モデル(LLM)の最近の進歩は、浸透テストを強化する新たな機会を提供する。
我々は,新しいLLMベースの自動浸透試験フレームワークであるPentestAgentを提案する。
論文 参考訳(メタデータ) (2024-11-07T21:10:39Z) - AutoPT: How Far Are We from the End2End Automated Web Penetration Testing? [54.65079443902714]
LLMによって駆動されるPSMの原理に基づく自動浸透試験エージェントであるAutoPTを紹介する。
以上の結果から, AutoPT は GPT-4o ミニモデル上でのベースラインフレームワーク ReAct よりも優れていた。
論文 参考訳(メタデータ) (2024-11-02T13:24:30Z) - Do LLMs generate test oracles that capture the actual or the expected program behaviour? [7.772338538073763]
大きな言語モデル(LLM)は、開発者のようなコードやテストケースを生成するために、膨大な量のデータに基づいて訓練されています。
この調査には、開発者によって書かれ、自動生成されるテストケースと、24のオープンソースJavaリポジトリのオーラクルが含まれている。
LLMは正しいオーラクルを分類するよりもテストオーラクルを生成する方が優れており、コードが有意義なテスト名や変数名を含む場合、よりよいテストオーラクルを生成することができる。
論文 参考訳(メタデータ) (2024-10-28T15:37:06Z) - Learning to Ask: When LLMs Meet Unclear Instruction [49.256630152684764]
大きな言語モデル(LLM)は、言語スキルだけでは達成不可能なタスクに対処するための外部ツールを活用することができる。
我々は、不完全な命令下でのLLMツールの使用性能を評価し、エラーパターンを分析し、Noisy ToolBenchと呼ばれる挑戦的なツール使用ベンチマークを構築した。
Ask-when-Needed (AwN) という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-31T23:06:12Z) - TOGLL: Correct and Strong Test Oracle Generation with LLMs [0.8057006406834466]
テストオラクルはソフトウェアテストにおいて重要な役割を担い、効果的なバグ検出を可能にします。
初期の約束にもかかわらず、自動テストオラクル生成のための神経ベースの手法は、しばしば多数の偽陽性をもたらす。
本研究は,LLMの正当性,多種多様性,強靭性テストオラクルの創出能力に関する総合的研究である。
論文 参考訳(メタデータ) (2024-05-06T18:37:35Z) - LangBiTe: A Platform for Testing Bias in Large Language Models [1.9744907811058787]
大規模言語モデル(LLM)は、フォーラム、ウェブサイト、ソーシャルメディア、その他のインターネットソースから抽出された膨大な量のデータに基づいて訓練されている。
LangBiTeを使うことで、開発チームはテストシナリオを調整し、ユーザ定義の倫理的要件に従ってテストケースを自動生成し、実行することが可能になる。
LangBiteは、LLMのバイアス評価と、最初の倫理的要件と得られた洞察の間のエンドツーエンドトレーサビリティを提供する。
論文 参考訳(メタデータ) (2024-04-29T10:02:45Z) - Characterization of Large Language Model Development in the Datacenter [55.9909258342639]
大きな言語モデル(LLM)は、いくつかの変換タスクにまたがって素晴らしいパフォーマンスを示している。
しかし,大規模クラスタ資源を効率よく利用してLCMを開発することは容易ではない。
我々は,GPUデータセンタAcmeから収集した6ヶ月のLDM開発ワークロードの詳細な評価を行った。
論文 参考訳(メタデータ) (2024-03-12T13:31:14Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - A Review on Oracle Issues in Machine Learning [0.0]
oracleはデータであり、データが機械学習がモデル化しようとする問題の正しい表現であるとは限らない。
機械学習におけるオラクル問題と、これらの問題に対処するための最先端のソリューションについて調査する。
論文 参考訳(メタデータ) (2021-05-04T10:41:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。