Fugu-MT 論文翻訳(概要): What You See Is What You Get: Attention-based Self-guided Automatic Unit Test Generation

論文の概要: What You See Is What You Get: Attention-based Self-guided Automatic Unit Test Generation

arxiv url: http://arxiv.org/abs/2412.00828v1
Date: Sun, 01 Dec 2024 14:28:48 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-04 21:11:22.203406
Title: What You See Is What You Get: Attention-based Self-guided Automatic Unit Test Generation
Title（参考訳）: 目に見えるもの:注意に基づく自己誘導自動ユニットテスト生成
Authors: Xin Yin, Chao Ni, Xiaodan Xu, Xiaohu Yang,
Abstract要約: 本稿では,AUGER(Attention-based Self-guided Automatic Unit Test GenERation)アプローチを提案する。 AUGERには欠陥検出とエラートリガーという2つのステージがある。 F1スコアと欠陥検出精度で4.7%から35.3%向上した。ユニットテスト生成において、最先端(SOTA)アプローチよりも23から84のエラーを発生させることができる。
参考スコア（独自算出の注目度）: 3.8244417073114003
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Software defects heavily affect software's functionalities and may cause huge losses. Recently, many AI-based approaches have been proposed to detect defects, which can be divided into two categories: software defect prediction and automatic unit test generation. While these approaches have made great progress in software defect detection, they still have several limitations in practical application, including the low confidence of prediction models and the inefficiency of unit testing models. To address these limitations, we propose a WYSIWYG (i.e., What You See Is What You Get) approach: Attention-based Self-guided Automatic Unit Test GenERation (AUGER), which contains two stages: defect detection and error triggering. In the former stage, AUGER first detects the proneness of defects. Then, in the latter stage, it guides to generate unit tests for triggering such an error with the help of critical information obtained by the former stage. To evaluate the effectiveness of AUGER, we conduct a large-scale experiment by comparing with the state-of-the-art (SOTA) approaches on the widely used datasets (i.e., Bears, Bugs.jar, and Defects4J). AUGER makes great improvements by 4.7% to 35.3% and 17.7% to 40.4% in terms of F1-score and Precision in defect detection, and can trigger 23 to 84 more errors than SOTAs in unit test generation. Besides, we also conduct a further study to verify the generalization in practical usage by collecting a new dataset from real-world projects.
Abstract（参考訳）: ソフトウェアの欠陥はソフトウェアの機能に大きな影響を与え、大きな損失を引き起こす可能性がある。近年,ソフトウェア欠陥予測と自動単体テスト生成という2つのカテゴリに分けられる,欠陥検出のためのAIベースのアプローチが数多く提案されている。これらのアプローチはソフトウェアの欠陥検出に大きな進歩を遂げているが、予測モデルの信頼性の低さや単体テストモデルの非効率性など、実用上はまだいくつかの制限がある。これらの制限に対処するため、WYSIWYG(What You See Is What You Get)アプローチを提案する。前段階では、AUGERはまず欠陥の発覚を検知する。そして、後者では、前段が取得した臨界情報の助けを借りて、そのようなエラーをトリガーする単体テストを生成する。 AUGERの有効性を評価するために、広く使われているデータセット(ベアズ、バグジャー、欠陥4J)の最先端(SOTA)アプローチと比較し、大規模な実験を行った。 AUGERはF1スコアと欠陥検出精度の点で4.7%から35.3%、17.7%から40.4%の大幅な改善を行い、ユニットテスト生成におけるSOTAよりも23から84のエラーを発生させることができる。また,実世界のプロジェクトから新たなデータセットを収集することで,実用化の一般化を検証するためのさらなる研究も行なっている。

関連論文リスト

From Code Generation to Software Testing: AI Copilot with Context-Based RAG [8.28588489551341]
本稿では,2つの相互接続問題として,バグ検出と少ないバグでコーディングを行うことにより,ソフトウェアテストの新たな視点を提案する。我々は、バグ検出と更新を同期する自動テストシステムであるCopilot for Testingを紹介した。評価の結果,バグ検出精度が31.2%向上し,テストカバレッジが12.6%向上し,ユーザ受け入れ率が10.5%向上した。
論文参考訳（メタデータ） (2025-04-02T16:20:05Z)
Uncertainty Estimation for 3D Object Detection via Evidential Learning [63.61283174146648]
本稿では,3次元検出器における鳥の視線表示における明らかな学習損失を利用して,3次元物体検出の不確かさを定量化するためのフレームワークを提案する。本研究では,これらの不確実性評価の有効性と重要性を,分布外シーンの特定,局所化の不十分な物体の発見,および(偽陰性)検出の欠如について示す。
論文参考訳（メタデータ） (2024-10-31T13:13:32Z)
Automating Quantum Software Maintenance: Flakiness Detection and Root Cause Analysis [4.554856650068748]
コードの変更なしに不整合に合格または失敗する、不安定なテストは、ソフトウェア工学における大きな課題である。量子ソフトウェアにおける不安定なテストを自動的に検出するフレームワークの構築を目指しています。
論文参考訳（メタデータ） (2024-10-31T02:43:04Z)
FineWAVE: Fine-Grained Warning Verification of Bugs for Automated Static Analysis Tools [18.927121513404924]
ASAT(Automated Static Analysis Tools)は、バグ検出を支援するために、時間とともに進化してきた。これまでの研究は、報告された警告を検証するための学習ベースの方法を探究してきた。我々は,バグに敏感な警告をきめ細かい粒度で検証する学習ベースアプローチであるFineWAVEを提案する。
論文参考訳（メタデータ） (2024-03-24T06:21:35Z)
Test Generation Strategies for Building Failure Models and Explaining Spurious Failures [4.995172162560306]
テスト入力は、テスト対象のシステムが故障している場合だけでなく、入力が無効または非現実的である場合も失敗する。テストインプットに対して解釈可能なルールを推論し,重大な障害を引き起こす障害モデルを構築することを提案する。提案手法は, 平均精度83%の故障モデルを生成する。
論文参考訳（メタデータ） (2023-12-09T18:36:15Z)
Cal-DETR: Calibrated Detection Transformer [67.75361289429013]
本稿では,Deformable-DETR,UP-DETR,DINOのキャリブレーション検出トランス(Cal-DETR)のメカニズムを提案する。我々は、不確実性を利用してクラスロジットを変調する不確実性誘導ロジット変調機構を開発する。その結果、Cal-DETRは、ドメイン内およびドメイン外の両方を校正する競合する列車時間法に対して有効であることがわかった。
論文参考訳（メタデータ） (2023-11-06T22:13:10Z)
Effective Test Generation Using Pre-trained Large Language Models and Mutation Testing [13.743062498008555]
大規模言語モデル(LLM)が生成するテストケースの有効性を,バグの発見の観点から改善するための MuTAP を導入する。 MuTAPは、プログラム・アンダー・テスト(PUT)の自然言語記述がない場合に有効なテストケースを生成することができる提案手法は, 最大28%の人書きコードスニペットを検出できることを示す。
論文参考訳（メタデータ） (2023-08-31T08:48:31Z)
Uncovering the Limits of Machine Learning for Automatic Vulnerability Detection [12.529028629599349]
本稿では,ML4VD技術の真の性能と限界をよりよく評価するための新しいベンチマーク手法を提案する。 6つのML4VD技術と2つのデータセットを使用して、(a)テストデータの脆弱性を予測するために、最先端のモデルが無関係な機能に過度に適合していること、(b)データ拡張によって得られるパフォーマンスが、トレーニング中に適用される特定の拡張を超えて一般化されないことを発見した。
論文参考訳（メタデータ） (2023-06-28T08:41:39Z)
From Static Benchmarks to Adaptive Testing: Psychometrics in AI Evaluation [60.14902811624433]
本稿では,静的評価手法から適応テストへのパラダイムシフトについて論じる。これには、ベンチマークで各テスト項目の特性と価値を推定し、リアルタイムでアイテムを動的に調整することが含まれる。我々は、AI評価にサイコメトリックを採用する現在のアプローチ、アドバンテージ、そして根底にある理由を分析します。
論文参考訳（メタデータ） (2023-06-18T09:54:33Z)
Conservative Prediction via Data-Driven Confidence Minimization [70.93946578046003]
機械学習の安全性クリティカルな応用においては、モデルが保守的であることが望ましいことが多い。本研究では,不確実性データセットに対する信頼性を最小化するデータ駆動信頼性最小化フレームワークを提案する。
論文参考訳（メタデータ） (2023-06-08T07:05:36Z)
Industrial Anomaly Detection and Localization Using Weakly-Supervised Residual Transformers [7.487975220416574]
弱教師付きResidual Transformer」は、広範囲なアノテーションの必要性を最小限に抑えつつ、高いAD精度を実現することを目的としている。我々は「PosFAR(Positional Fast Anomaly Residuals)」と呼ばれる残留型トランスモデルを設計する。ベンチマークデータセットMVTec-ADでは、提案したWeakRESTフレームワークが83.0%の驚くべき平均精度(AP)を達成した。
論文参考訳（メタデータ） (2023-06-06T08:19:30Z)
An Outlier Exposure Approach to Improve Visual Anomaly Detection Performance for Mobile Robots [76.36017224414523]
移動ロボットの視覚異常検出システム構築の問題点を考察する。標準異常検出モデルは、非異常データのみからなる大規模なデータセットを用いて訓練される。本研究では,これらのデータを利用してリアルNVP異常検出モデルの性能向上を図る。
論文参考訳（メタデータ） (2022-09-20T15:18:13Z)
SUPERNOVA: Automating Test Selection and Defect Prevention in AAA Video Games Using Risk Based Testing and Machine Learning [62.997667081978825]
従来の手法では、成長するソフトウェアシステムではスケールできないため、ビデオゲームのテストはますます難しいタスクになります。自動化ハブとして機能しながら,テスト選択と欠陥防止を行うシステム SUPERNOVA を提案する。この直接的な影響は、未公表のスポーツゲームタイトルの55%以上のテスト時間を減らすことが観察されている。
論文参考訳（メタデータ） (2022-03-10T00:47:46Z)
Detecting Errors and Estimating Accuracy on Unlabeled Data with Self-training Ensembles [38.23896575179384]
本稿では,この2つの課題に同時に対処する,原則的かつ実用的な枠組みを提案する。 1つのインスタンス化は、教師なし精度推定における推定誤差を少なくとも70%削減し、エラー検出のためのF1スコアを少なくとも4.7%改善する。 iWildCamでは、教師なし精度推定における推定誤差を少なくとも70%削減し、エラー検出のためのF1スコアを少なくとも4.7%改善する。
論文参考訳（メタデータ） (2021-06-29T21:32:51Z)
TACRED Revisited: A Thorough Evaluation of the TACRED Relation Extraction Task [80.38130122127882]
TACREDはリレーショナル抽出(RE)において最も大きく、最も広く使われているクラウドソースデータセットの1つであるパフォーマンスの天井に到達したのか、改善の余地はあるのか? ラベルエラーは絶対F1テストエラーの8%を占めており、例の50%以上を可逆化する必要がある。
論文参考訳（メタデータ） (2020-04-30T15:07:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。