論文の概要: Neural-Based Test Oracle Generation: A Large-scale Evaluation and
Lessons Learned
- arxiv url: http://arxiv.org/abs/2307.16023v2
- Date: Fri, 25 Aug 2023 22:26:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-23 16:03:09.186863
- Title: Neural-Based Test Oracle Generation: A Large-scale Evaluation and
Lessons Learned
- Title(参考訳): ニューラルネットワークによるテスト Oracle生成: 大規模評価と教訓
- Authors: Soneya Binta Hossain, Antonio Filieri, Matthew B. Dwyer, Sebastian
Elbaum, Willem Visser
- Abstract要約: TOGAは、最近開発された自動テストオラクル生成のためのニューラルベース手法である。
24%の時間を必要とするオラクルのタイプを誤って分類し、その62%の時間で正しく分類すると、いかなるアサーション・オラクルも生成できない。
これらの知見は、最先端のニューラルベースオラクル生成技術の限界を明らかにしている。
- 参考スコア(独自算出の注目度): 17.43060451305942
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Defining test oracles is crucial and central to test development, but manual
construction of oracles is expensive. While recent neural-based automated test
oracle generation techniques have shown promise, their real-world effectiveness
remains a compelling question requiring further exploration and understanding.
This paper investigates the effectiveness of TOGA, a recently developed
neural-based method for automatic test oracle generation by Dinella et al. TOGA
utilizes EvoSuite-generated test inputs and generates both exception and
assertion oracles. In a Defects4j study, TOGA outperformed specification,
search, and neural-based techniques, detecting 57 bugs, including 30 unique
bugs not detected by other methods. To gain a deeper understanding of its
applicability in real-world settings, we conducted a series of external,
extended, and conceptual replication studies of TOGA.
In a large-scale study involving 25 real-world Java systems, 223.5K test
cases, and 51K injected faults, we evaluate TOGA's ability to improve
fault-detection effectiveness relative to the state-of-the-practice and the
state-of-the-art. We find that TOGA misclassifies the type of oracle needed 24%
of the time and that when it classifies correctly around 62% of the time it is
not confident enough to generate any assertion oracle. When it does generate an
assertion oracle, more than 47% of them are false positives, and the true
positive assertions only increase fault detection by 0.3% relative to prior
work. These findings expose limitations of the state-of-the-art neural-based
oracle generation technique, provide valuable insights for improvement, and
offer lessons for evaluating future automated oracle generation methods.
- Abstract(参考訳): テストオラクルの定義は、テスト開発において不可欠であり、中心となるが、手動でオークルを組み立てることは高価である。
最近のニューラルベース自動テストoracleジェネレーション技術は有望だが、実際の有効性はさらなる調査と理解を必要とする説得力のある疑問である。
本稿では,最近開発されたDinellaらによる自動テストオラクル生成法であるTOGAの有効性について検討する。
TOGAはEvoSuiteの生成したテスト入力を使用し、例外とアサーションの両方のオラクルを生成する。
Defects4jの研究では、TOGAは仕様、検索、神経ベースのテクニックよりも優れており、57のバグを検出した。
実環境における適用性についてより深く理解するために,TOGAの外部,拡張,概念的複製研究を行った。
実世界25のJavaシステム,223.5Kのテストケース,51Kのインジェクトされた障害を含む大規模研究において,TOGAは,最先端および最先端技術に対して,障害検出の有効性を向上する能力を評価する。
TOGAは24%の時間を必要とするオラクルのタイプを誤って分類し、その62%の時間で正しく分類すると、いかなるアサーション・オラクルも生成できる自信がないことがわかった。
アサーションオラクルを生成する場合、そのうち47%以上は偽陽性であり、真の正のアサーションは前処理に比べて障害検出を0.3%増加させるだけである。
これらの知見は、最先端のニューラルベースオラクル生成技術の限界を明らかにし、改善のための貴重な洞察を提供し、将来の自動オラクル生成方法を評価するための教訓を提供する。
関連論文リスト
- Exploring and Lifting the Robustness of LLM-powered Automated Program Repair with Metamorphic Testing [31.165102332393964]
大規模言語モデルを用いた自動プログラム修復(LAPR)技術は、最先端のバグ修正性能を達成した。
実際に展開する前に、LAPR技術で堅牢性テストを実施することが不可欠である。
LAPR技術専用のメタモルフィックテスティングフレームワークであるMT-LAPRを提案する。
論文 参考訳(メタデータ) (2024-10-10T01:14:58Z) - Test Oracle Automation in the era of LLMs [52.69509240442899]
大規模言語モデル(LLM)は、多様なソフトウェアテストタスクに取り組むのに顕著な能力を示した。
本研究の目的は, 各種のオラクル生成時に生じる課題とともに, LLMs によるオラクルの自動化の可能性について検討することである。
論文 参考訳(メタデータ) (2024-05-21T13:19:10Z) - TOGLL: Correct and Strong Test Oracle Generation with LLMs [0.8057006406834466]
テストオラクルはソフトウェアテストにおいて重要な役割を担い、効果的なバグ検出を可能にします。
初期の約束にもかかわらず、自動テストオラクル生成のための神経ベースの手法は、しばしば多数の偽陽性をもたらす。
本研究は,LLMの正当性,多種多様性,強靭性テストオラクルの創出能力に関する総合的研究である。
論文 参考訳(メタデータ) (2024-05-06T18:37:35Z) - Insight Into SEER [0.0]
SEERツールは、アサーションステートメントを必要とせずにテスト結果を予測するために開発された。
ツール全体の精度は93%、精度は86%、リコール94%、F1スコア90%である。
論文 参考訳(メタデータ) (2023-11-02T11:54:58Z) - Towards a Complete Metamorphic Testing Pipeline [56.75969180129005]
システムアンダーテスト(SUT)の連続実行における入出力ペア間の関係を調べてテストオラクル問題に対処するメタモルフィックテスト(MT)
これらの関係は、メタモルフィック関係 (MRs) と呼ばれ、特定の入力変化に起因する期待される出力変化を規定する。
本研究の目的は,MR の生成,制約の定義,MR 結果の説明可能性の提供を支援する手法とツールの開発である。
論文 参考訳(メタデータ) (2023-09-30T10:49:22Z) - A Stitch in Time Saves Nine: Detecting and Mitigating Hallucinations of
LLMs by Validating Low-Confidence Generation [76.34411067299331]
大規模な言語モデルは、しばしば信頼性を著しく損なう「ハロシン化」する傾向がある。
生成過程における幻覚を積極的に検出・緩和する手法を提案する。
提案手法は, GPT-3.5モデルの幻覚を平均47.5%から14.5%に低減する。
論文 参考訳(メタデータ) (2023-07-08T14:25:57Z) - Towards More Realistic Evaluation for Neural Test Oracle Generation [11.005450298374285]
単体テストはソフトウェアの品質を守り、改善するのに役立ちますが、作成とメンテナンスにはかなりの時間と労力が必要です。
最近の研究では、ニューラルモデルを利用してテストオラクル、すなわちニューラルテストオラクル生成(NTOG)を生成することが提案されている。
これらの設定は、既存のNTOGアプローチのパフォーマンスの理解を誤解させる可能性がある。
論文 参考訳(メタデータ) (2023-05-26T15:56:57Z) - Large Language Models are Few-shot Testers: Exploring LLM-based General
Bug Reproduction [14.444294152595429]
問題によりオープンソースリポジトリに追加されたテストの数は、対応するプロジェクトテストスイートサイズの約28%であった。
本稿では,Large Language Models (LLMs) を用いたLIBROを提案する。
LIBROの評価は、広く研究されているDefects4Jベンチマークにおいて、全ての研究ケースの33%で障害再現テストケースを生成することができることを示している。
論文 参考訳(メタデータ) (2022-09-23T10:50:47Z) - Exploring linguistic feature and model combination for speech
recognition based automatic AD detection [61.91708957996086]
音声ベースの自動ADスクリーニングシステムは、他の臨床スクリーニング技術に代わる非侵襲的でスケーラブルな代替手段を提供する。
専門的なデータの収集は、そのようなシステムを開発する際に、モデル選択と特徴学習の両方に不確実性をもたらす。
本稿では,BERT と Roberta の事前学習したテキストエンコーダのドメイン微調整の堅牢性向上のための特徴とモデルの組み合わせ手法について検討する。
論文 参考訳(メタデータ) (2022-06-28T05:09:01Z) - Anomaly Detection Based on Selection and Weighting in Latent Space [73.01328671569759]
SWADと呼ばれる新しい選択および重み付けに基づく異常検出フレームワークを提案する。
ベンチマークと実世界のデータセットによる実験は、SWADの有効性と優位性を示している。
論文 参考訳(メタデータ) (2021-03-08T10:56:38Z) - SUOD: Accelerating Large-Scale Unsupervised Heterogeneous Outlier
Detection [63.253850875265115]
外乱検出(OD)は、一般的なサンプルから異常物体を識別するための機械学習(ML)タスクである。
そこで我々は,SUODと呼ばれるモジュール型加速度システムを提案する。
論文 参考訳(メタデータ) (2020-03-11T00:22:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。