Fugu-MT 論文翻訳(概要): Exploring Fuzzing as Data Augmentation for Neural Test Generation

論文の概要: Exploring Fuzzing as Data Augmentation for Neural Test Generation

arxiv url: http://arxiv.org/abs/2406.08665v1
Date: Wed, 12 Jun 2024 22:09:27 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-14 21:57:44.936609
Title: Exploring Fuzzing as Data Augmentation for Neural Test Generation
Title（参考訳）: ニューラルテスト生成のためのデータ拡張としてのファジングの探索
Authors: Yifeng He, Jicheng Wang, Yuyang Rong, Hao Chen,
Abstract要約: ファジィ化と大規模言語モデルの利点を組み合わせた新しいデータ拡張手法を提案する。 FuzzAugは、拡張データに有効なプログラムセマンティクスを保持し、テスト中の関数に対してより多様なインプットを提供する。 FuzzAugの利点は、ニューラルテスト生成データセットで利用して、最先端のコード生成モデルをトレーニングすることで評価する。
参考スコア（独自算出の注目度）: 7.310817657037053
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Testing is an essential part of modern software engineering to build reliable programs. As testing the software is important but expensive, automatic test case generation methods have become popular in software development. Unlike traditional search-based coverage-guided test generation like fuzzing, neural test generation backed by large language models can write tests that are semantically meaningful and can be understood by other maintainers. However, compared to regular code corpus, unit tests in the datasets are limited in amount and diversity. In this paper, we present a novel data augmentation technique **FuzzAug**, that combines the advantages of fuzzing and large language models. FuzzAug not only keeps valid program semantics in the augmented data, but also provides more diverse inputs to the function under test, helping the model to associate correct inputs embedded with the function's dynamic behaviors with the function under test. We evaluate FuzzAug's benefits by using it on a neural test generation dataset to train state-of-the-art code generation models. By augmenting the training set, our model generates test cases with $11\%$ accuracy increases. Models trained with FuzzAug generate unit test functions with double the branch coverage compared to those without it. FuzzAug can be used across various datasets to train advanced code generation models, enhancing their utility in automated software testing. Our work shows the benefits of using dynamic analysis results to enhance neural test generation. Code and data will be publicly available.
Abstract（参考訳）: テストは、信頼性のあるプログラムを構築するための、現代のソフトウェアエンジニアリングの重要な部分です。ソフトウェアのテストは重要だがコストがかかるため、自動テストケース生成手法がソフトウェア開発で人気を集めている。ファジングのような従来の検索ベースのカバレッジガイド付きテスト生成とは異なり、大きな言語モデルによって支えられたニューラルテスト生成は意味論的に意味があり、他のメンテナによって理解されるテストを記述することができる。しかしながら、通常のコードコーパスと比較して、データセットの単体テストは量と多様性に制限がある。本稿では,ファジィ化と大規模言語モデルの利点を組み合わせた新しいデータ拡張手法**FuzzAug*を提案する。 FuzzAugは、拡張データに有効なプログラムセマンティクスを保持するだけでなく、テスト中の関数に対してより多様な入力を提供する。 FuzzAugの利点は、ニューラルテスト生成データセットで利用して、最先端のコード生成モデルをトレーニングすることで評価する。トレーニングセットを拡大することにより、我々のモデルは、11.%の精度でテストケースを生成します。 FuzzAugでトレーニングされたモデルは、ブランチカバレッジが2倍の単体テスト関数を生成する。 FuzzAugは、さまざまなデータセットにまたがって高度なコード生成モデルをトレーニングし、自動ソフトウェアテストにおける有用性を向上するために使用することができる。我々の研究は、神経テスト生成を促進するために動的解析結果を使用することの利点を示している。コードとデータは公開されます。

関連論文リスト

RBT4DNN: Requirements-based Testing of Neural Networks [16.90562395404293]
ディープニューラルネットワーク(DNN)テストは、障害が深刻な結果をもたらすクリティカルシステムの信頼性と安全性に不可欠である。本稿では, セマンティックな特徴空間で定式化された自然言語要求を用いて, テストスイートを作成するための要件ベースのテストスイート生成手法を提案する。 MNIST、CelebA-HQ、ImageNet、および自律運転データセットに関する我々の実験は、生成されたテストスイートが現実的で、多様性があり、事前条件と整合性があり、欠陥を明らかにすることができることを示した。
論文参考訳（メタデータ） (2025-04-03T16:24:49Z)
LLM-based Unit Test Generation for Dynamically-Typed Programs [16.38145000434927]
TypeTestは、ベクトルベースのRetrieval-Augmented Generationシステムを通じて、テスト生成における型正しさを高める新しいフレームワークである。 125の現実世界のPythonモジュールの評価において、TypeTestは平均で86.6%、ブランチで76.8%を獲得し、それぞれ5.4%、9.3%の最先端ツールを上回った。
論文参考訳（メタデータ） (2025-03-18T08:07:17Z)
Learning to Solve and Verify: A Self-Play Framework for Code and Test Generation [69.62857948698436]
大規模言語モデル(LLM)の最近の進歩は、コーディングベンチマークのパフォーマンスを改善している。しかし、手軽に利用できる高品質なデータの枯渇により、改善は停滞している。本稿では,単一モデルのコードとテスト生成能力を共同で改善するセルフプレイ・ソルバ検証フレームワークであるSol-Verを提案する。
論文参考訳（メタデータ） (2025-02-20T18:32:19Z)
Less is More: On the Importance of Data Quality for Unit Test Generation [15.396524026122972]
単体テストはソフトウェア開発とメンテナンスに不可欠である。効果的な単体テストはソフトウェアの品質を保証し改善するが、単体テストを書くのは時間と労力がかかる。近年、単体テスト生成を自動化するためのディープラーニング(DL)技術や大規模言語モデル(LLM)が提案されている。これらのモデルは、通常、大規模なデータセットで訓練または微調整される。データ品質の重要性を認識しているにもかかわらず、テスト生成に使用されるデータセットの品質について限定的な研究がなされている。
論文参考訳（メタデータ） (2025-02-20T02:47:09Z)
Diffusion-Enhanced Test-time Adaptation with Text and Image Augmentation [67.37146712877794]
IT3Aは、未知の新しいドメインから各テストサンプルをマルチモーダル拡張するために、事前訓練された生成モデルを利用する新しいテスト時間適応手法である。事前学習された視覚と言語モデルからの強化されたデータを組み合わせることで、未知の新しいテストデータに適応するモデルの能力を高めることができる。ゼロショット設定では、IT3Aは5.50%の精度で最先端のテスト時間プロンプトチューニング手法より優れている。
論文参考訳（メタデータ） (2024-12-12T20:01:24Z)
Robust Black-box Testing of Deep Neural Networks using Co-Domain Coverage [18.355332126489756]
信頼できるデプロイメントには、マシンラーニングモデルの厳格なテストが必要です。我々は、ディープニューラルネットワーク(DNN)の堅牢なテストのためのテストスーツを生成するための新しいブラックボックスアプローチを提案する。
論文参考訳（メタデータ） (2024-08-13T09:42:57Z)
On the Challenges of Fuzzing Techniques via Large Language Models [3.8040519600259834]
本稿では,ファジングテストに大規模な言語モデルを用いた開発について,系統的に概説する。論文の統計的分析と議論は、提出の現在までの最先端の手法を要約することによって行われる。
論文参考訳（メタデータ） (2024-02-01T05:34:03Z)
Generating Enhanced Negatives for Training Language-Based Object Detectors [86.1914216335631]
我々は、現代の生成モデルに組み込まれた膨大な知識を活用して、元のデータにより関連性のある負を自動で構築することを提案する。具体的には、大言語モデルを用いて、負のテキスト記述を生成するとともに、テキスト間拡散モデルを用いて、対応する負の画像を生成する。実験により, 生成した負データとの関連性を確認し, 言語ベースの検出器での使用により, 2つの複雑なベンチマークの性能が向上した。
論文参考訳（メタデータ） (2023-12-29T23:04:00Z)
A Performance-Driven Benchmark for Feature Selection in Tabular Deep Learning [131.2910403490434]
データサイエンティストは通常、データセットにできるだけ多くの機能を集め、既存の機能から新しい機能を設計する。既存のタブ形式の特徴選択のためのベンチマークでは、古典的な下流モデル、おもちゃの合成データセット、あるいは下流のパフォーマンスに基づいて特徴セレクタを評価していない。変換器を含む下流ニューラルネットワーク上で評価された課題のある特徴選択ベンチマークを構築した。また,従来の特徴選択法よりも高い性能を有するニューラルネットワークのための,Lassoのインプット・グラディエント・ベース・アナログも提案する。
論文参考訳（メタデータ） (2023-11-10T05:26:10Z)
Diverse Data Augmentation with Diffusions for Effective Test-time Prompt Tuning [73.75282761503581]
DiffTPTを提案する。DiffTPTは,事前学習した拡散モデルを用いて,多種多様な情報データを生成する。 DiffTPTがゼロショット精度を平均5.13%向上することを示す。
論文参考訳（メタデータ） (2023-08-11T09:36:31Z)
ASPEST: Bridging the Gap Between Active Learning and Selective Prediction [56.001808843574395]
選択予測は、不確実な場合の予測を棄却する信頼性のあるモデルを学ぶことを目的としている。アクティブラーニングは、最も有意義な例を問うことで、ラベリングの全体、すなわち人間の依存度を下げることを目的としている。本研究では,移動対象領域からより情報のあるサンプルを検索することを目的とした,新たな学習パラダイムである能動的選択予測を導入する。
論文参考訳（メタデータ） (2023-04-07T23:51:07Z)
Boosted Dynamic Neural Networks [53.559833501288146]
典型的なEDNNは、ネットワークバックボーンの異なる層に複数の予測ヘッドを持つ。モデルを最適化するために、これらの予測ヘッドとネットワークバックボーンは、トレーニングデータのバッチ毎にトレーニングされる。トレーニングと2つのフェーズでのインプットの異なるテストは、トレーニングとデータ分散のテストのミスマッチを引き起こす。 EDNNを勾配強化にインスパイアされた付加モデルとして定式化し、モデルを効果的に最適化するための複数のトレーニング手法を提案する。
論文参考訳（メタデータ） (2022-11-30T04:23:12Z)
Learning to Increase the Power of Conditional Randomization Tests [8.883733362171032]
モデル-X条件ランダム化テストは、条件独立性テストのための一般的なフレームワークである。本稿では,モデルXテストのパワー向上を目的とした新しいモデル適合方式を提案する。
論文参考訳（メタデータ） (2022-07-03T12:29:25Z)
Hyperparameter-free Continuous Learning for Domain Classification in Natural Language Understanding [60.226644697970116]
ドメイン分類は自然言語理解(NLU)の基本課題である既存の継続的な学習アプローチの多くは、低い精度とパフォーマンスの変動に悩まされている。本研究では,テキストデータに対するパラメータフリー連続学習モデルを提案する。
論文参考訳（メタデータ） (2022-01-05T02:46:16Z)
Towards Neural Functional Program Evaluation [0.5586191108738562]
本稿では,意味論的に等価なプログラムに対して,構文糖を制御できる新しいプログラム生成機構を提案する。実験によると、神経機能プログラムの評価は驚くほど良く、90%の正確なプログラムマッチスコアを達成している。
論文参考訳（メタデータ） (2021-12-09T00:20:29Z)
MEMO: Test Time Robustness via Adaptation and Augmentation [131.28104376280197]
テスト時間ロバスト化の問題、すなわちモデルロバスト性を改善するためにテストインプットを用いて検討する。最近の先行研究ではテスト時間適応法が提案されているが、それぞれ追加の仮定を導入している。モデルが確率的で適応可能な任意のテスト環境で使用できるシンプルなアプローチを提案する。
論文参考訳（メタデータ） (2021-10-18T17:55:11Z)
Efficient Nearest Neighbor Language Models [114.40866461741795]
非パラメトリックニューラルネットワークモデル(NLM)は、外部データストアを用いてテキストの予測分布を学習する。比較性能を維持しながら、推論速度の最大6倍の高速化を実現する方法を示す。
論文参考訳（メタデータ） (2021-09-09T12:32:28Z)
TestRank: Bringing Order into Unlabeled Test Instances for Deep Learning Tasks [14.547623982073475]
ディープラーニングシステムはテストやデバッグが難しいことで有名です。テストコスト削減のために、テスト選択を行い、選択した“高品質”バグ修正テストインプットのみをラベル付けすることが不可欠である。本稿では,未ラベルのテストインスタンスに,バグ検出機能,すなわちTestRankに従って順序を付ける新しいテスト優先順位付け手法を提案する。
論文参考訳（メタデータ） (2021-05-21T03:41:10Z)
ALT-MAS: A Data-Efficient Framework for Active Testing of Machine Learning Algorithms [58.684954492439424]
少量のラベル付きテストデータのみを用いて機械学習モデルを効率的にテストする新しいフレームワークを提案する。ベイズニューラルネットワーク(bnn)を用いたモデルアンダーテストの関心指標の推定が目的である。
論文参考訳（メタデータ） (2021-04-11T12:14:04Z)
What is the Vocabulary of Flaky Tests? An Extended Replication [0.0]
本研究は,コード識別子を用いたテストフレキネスの予測に関する実証的研究である。トレーニング済みモデルのパフォーマンスを他のフラスコテストと異なるプロジェクトからデータセットを使用して検証しました。
論文参考訳（メタデータ） (2021-03-23T16:42:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。