論文の概要: LEAP: Efficient and Automated Test Method for NLP Software
- arxiv url: http://arxiv.org/abs/2308.11284v1
- Date: Tue, 22 Aug 2023 08:51:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-23 18:30:21.838740
- Title: LEAP: Efficient and Automated Test Method for NLP Software
- Title(参考訳): LEAP: NLPソフトウェアの効率的な自動テスト方法
- Authors: Mingxuan Xiao, Yan Xiao, Hai Dong, Shunhui Ji, Pengcheng Zhang
- Abstract要約: 本稿では,LEvy 飛行に基づく適応粒子群最適化をテキスト機能と統合した自動テスト手法 LEAP を提案する。
我々は, LEAPのNLPソフトウェアテスト能力を検証する一連の実験を行い, 敵検体生成におけるLEAPの平均成功率は79.1%であった。
LEAPは高い成功率を保証する一方で、他の慣性ベースの手法と比較して、時間オーバーヘッドを最大147.6秒削減する。
- 参考スコア(独自算出の注目度): 6.439196068684973
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The widespread adoption of DNNs in NLP software has highlighted the need for
robustness. Researchers proposed various automatic testing techniques for
adversarial test cases. However, existing methods suffer from two limitations:
weak error-discovering capabilities, with success rates ranging from 0% to
24.6% for BERT-based NLP software, and time inefficiency, taking 177.8s to
205.28s per test case, making them challenging for time-constrained scenarios.
To address these issues, this paper proposes LEAP, an automated test method
that uses LEvy flight-based Adaptive Particle swarm optimization integrated
with textual features to generate adversarial test cases. Specifically, we
adopt Levy flight for population initialization to increase the diversity of
generated test cases. We also design an inertial weight adaptive update
operator to improve the efficiency of LEAP's global optimization of
high-dimensional text examples and a mutation operator based on the greedy
strategy to reduce the search time. We conducted a series of experiments to
validate LEAP's ability to test NLP software and found that the average success
rate of LEAP in generating adversarial test cases is 79.1%, which is 6.1%
higher than the next best approach (PSOattack). While ensuring high success
rates, LEAP significantly reduces time overhead by up to 147.6s compared to
other heuristic-based methods. Additionally, the experimental results
demonstrate that LEAP can generate more transferable test cases and
significantly enhance the robustness of DNN-based systems.
- Abstract(参考訳): NLPソフトウェアにおけるDNNの普及は、堅牢性の必要性を強調している。
研究者らは敵検体に対する様々な自動検査手法を提案した。
bertベースのnlpソフトウェアでは0%から24.6%の成功率があり、テストケース毎に177.8から205.28秒を要し、時間の制約のあるシナリオでは困難である。
これらの問題に対処するため,本稿では,levy飛行に基づく適応粒子群最適化とテキスト特徴を統合した自動テスト手法であるleapを提案する。
具体的には,集団初期化にlevy flightを採用し,生成したテストケースの多様性を高めた。
我々はまた、LEAPの高次元テキスト例に対するグローバル最適化の効率を向上させるために慣性重み適応更新演算子を設計し、探索時間を短縮する欲求戦略に基づく突然変異演算子を設計する。
我々は, LEAPのNLPソフトウェアテスト能力を検証する一連の実験を行い, 敵検体生成におけるLEAPの平均成功率は79.1%であり, 次のベストアプローチ(PSOアタック)よりも6.1%高いことがわかった。
LEAPは高い成功率を確保する一方で、他のヒューリスティックな手法と比較して、時間オーバーヘッドを最大147.6秒削減する。
さらに, LEAPはより伝達可能なテストケースを生成し, DNNベースのシステムの堅牢性を大幅に向上させることができることを示した。
関連論文リスト
- An Effective Networks Intrusion Detection Approach Based on Hybrid
Harris Hawks and Multi-Layer Perceptron [47.81867479735455]
本稿では,Harris Hawks Optimization (HHO) を用いた多層パーセプトロン学習のための侵入検知システムを提案する。
HHO-MLPは、ネットワークの侵入検出エラーを最小限に抑えるため、学習プロセスにおいて最適なパラメータを選択することを目的としている。
HHO-MLPは、93.17%の精度、95.41%の感度、95.41%の特異度でトップスコアを獲得することで、優れた性能を示した。
論文 参考訳(メタデータ) (2024-02-21T06:25:50Z) - Federated Learning of Large Language Models with Parameter-Efficient
Prompt Tuning and Adaptive Optimization [71.87335804334616]
フェデレートラーニング(FL)は、分散データとの協調モデルトレーニングを可能にする、有望なパラダイムである。
LLM(Large Language Models)のトレーニングプロセスは一般的に重要なパラメータの更新を引き起こす。
本稿では,性能と効率を同時に向上する効率的な部分的プロンプトチューニング手法を提案する。
論文 参考訳(メタデータ) (2023-10-23T16:37:59Z) - Adaptation with Self-Evaluation to Improve Selective Prediction in LLMs [56.526095828316386]
大規模言語モデル(LLM)の選択予測性能を改善するために,自己評価による適応のための新しいフレームワークを提案する。
提案手法は,様々な質問応答(QA)データセット上で評価し,最先端の選択的予測手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-10-18T03:34:59Z) - Reinforcement Learning from Automatic Feedback for High-Quality Unit
Test Generation [13.658632458850144]
大規模言語モデル(LLM)は、テストケースの自動生成を含むコード生成で人気を集めている。
LLMは、多くの場合、大量の公開コードでトレーニングされ、ベストプラクティスに従わないテストケースを含む。
RLSQM(Reinforcement Learning from Static Quality Metrics)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-10-03T18:48:31Z) - Effective Test Generation Using Pre-trained Large Language Models and
Mutation Testing [13.743062498008555]
大規模言語モデル(LLM)が生成するテストケースの有効性を,バグの発見の観点から改善するための MuTAP を導入する。
MuTAPは、プログラム・アンダー・テスト(PUT)の自然言語記述がない場合に有効なテストケースを生成することができる
提案手法は, 最大28%の人書きコードスニペットを検出できることを示す。
論文 参考訳(メタデータ) (2023-08-31T08:48:31Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z) - Let's Sample Step by Step: Adaptive-Consistency for Efficient Reasoning
and Coding with LLMs [60.58434523646137]
大規模言語モデル(LLM)からの出力の正確性を改善するための一般的なアプローチは、自己整合性である。
コスト効率のよいモデルに依存しない手法であるAdaptive-Consistencyを導入し,各質問のサンプル数を動的に調整する。
実験の結果,Adaptive-Consistencyはサンプル予算を最大7.9倍に削減し,平均精度は0.1%以下であった。
論文 参考訳(メタデータ) (2023-05-19T17:49:25Z) - AEON: A Method for Automatic Evaluation of NLP Test Cases [37.71980769922552]
AEONを用いて、典型的な3つのNLPタスクにわたる5つのデータセット上で4つの一般的なテスト手法によって生成されたテストケースを評価する。
AEONは、セマンティックな不整合テストケースの検出において、最高の平均精度を達成し、最高のベースラインメトリックを10%上回る。
AEONはまた、不自然なテストケースを見つけるための平均的な精度も高く、ベースラインを15%以上越えている。
論文 参考訳(メタデータ) (2022-05-13T03:47:13Z) - Efficient and Effective Generation of Test Cases for Pedestrian
Detection -- Search-based Software Testing of Baidu Apollo in SVL [14.482670650074885]
本稿では,SVLシミュレータ内での自律走行プラットフォームであるBaidu Apolloの歩行者検出と緊急制動システムの試験について述べる。
本稿では,SVL環境におけるApolloの障害検出シナリオを生成する進化的自動テスト生成手法を提案する。
また,本手法の有効性と有効性を示すため,ベースラインランダム生成手法の結果も報告する。
論文 参考訳(メタデータ) (2021-09-16T13:11:53Z) - Adaptive Sampling for Best Policy Identification in Markov Decision
Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。
最先端アルゴリズムの利点を論じ、解説する。
論文 参考訳(メタデータ) (2020-09-28T15:22:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。