論文の概要: BASFuzz: Towards Robustness Evaluation of LLM-based NLP Software via Automated Fuzz Testing
- arxiv url: http://arxiv.org/abs/2509.17335v1
- Date: Mon, 22 Sep 2025 03:13:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 14:40:40.544585
- Title: BASFuzz: Towards Robustness Evaluation of LLM-based NLP Software via Automated Fuzz Testing
- Title(参考訳): BASFuzz: 自動ファズテストによるLCMベースのNLPソフトウェアのロバストネス評価
- Authors: Mingxuan Xiao, Yan Xiao, Shunhui Ji, Jiahe Tu, Pengcheng Zhang,
- Abstract要約: BASFuzzは、大規模言語モデル(LLM)ベースのNLPソフトウェアに適した効率的なファズテスト手法である。
ビームサーチとシミュレーションアニーリングを統合したビーム-アニーリング探索アルゴリズムを用いて,効率的なファジリングループを設計する。
実験では、BASFuzzは平均時間オーバーヘッドを2,163.852秒削減し、90.335%のテスト効率を達成している。
- 参考スコア(独自算出の注目度): 8.893978269498524
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Fuzzing has shown great success in evaluating the robustness of intelligent natural language processing (NLP) software. As large language model (LLM)-based NLP software is widely deployed in critical industries, existing methods still face two main challenges: 1 testing methods are insufficiently coupled with the behavioral patterns of LLM-based NLP software; 2 fuzzing capability for the testing scenario of natural language generation (NLG) generally degrades. To address these issues, we propose BASFuzz, an efficient Fuzz testing method tailored for LLM-based NLP software. BASFuzz targets complete test inputs composed of prompts and examples, and uses a text consistency metric to guide mutations of the fuzzing loop, aligning with the behavioral patterns of LLM-based NLP software. A Beam-Annealing Search algorithm, which integrates beam search and simulated annealing, is employed to design an efficient fuzzing loop. In addition, information entropy-based adaptive adjustment and an elitism strategy further enhance fuzzing capability. We evaluate BASFuzz on six datasets in representative scenarios of NLG and natural language understanding (NLU). Experimental results demonstrate that BASFuzz achieves a testing effectiveness of 90.335% while reducing the average time overhead by 2,163.852 seconds compared to the current best baseline, enabling more effective robustness evaluation prior to software deployment.
- Abstract(参考訳): ファジングは、インテリジェント自然言語処理(NLP)ソフトウェアの堅牢性を評価する上で大きな成功を収めている。
大規模言語モデル(LLM)ベースのNLPソフトウェアが重要な産業に広くデプロイされているため、既存の手法は依然として2つの大きな課題に直面している。
これらの問題に対処するために, LLM ベースの NLP ソフトウェアに適した効率的な Fuzz テスト手法である BASFuzz を提案する。
BASFuzzはプロンプトと例で構成された完全なテスト入力をターゲットにしており、テキスト一貫性メトリクスを使用してファジングループの突然変異を誘導し、LLMベースのNLPソフトウェアの動作パターンと整合する。
ビームサーチとシミュレーションアニーリングを統合したビーム-アニーリング探索アルゴリズムを用いて,効率的なファジリングループを設計する。
さらに、情報エントロピーに基づく適応調整とエリート戦略によりファジリング能力がさらに向上する。
我々は,NLGと自然言語理解(NLU)の代表的なシナリオにおいて,6つのデータセット上でBASFuzzを評価する。
実験の結果、BASFuzzは、現在の最良のベースラインと比較して平均時間オーバーヘッドを2,163.852秒削減し、90.335%のテスト効率を達成し、ソフトウェアデプロイメントに先立ってより効果的な堅牢性評価を可能にした。
関連論文リスト
- ABFS: Natural Robustness Testing for LLM-based NLP Software [8.833542944724465]
自然言語処理(NLP)ソフトウェアにおけるLLM(Large Language Models)は、様々な領域で急速に普及している。
これらの応用は、入力中のわずかな摂動が誤った出力につながるような堅牢性欠陥をしばしば示している。
現在のロバストネス試験法は,(1) 試験効率の低下,(2) 試験ケースの自然性不足の2つの主な限界に直面している。
論文 参考訳(メタデータ) (2025-03-03T09:02:06Z) - Token-Level Density-Based Uncertainty Quantification Methods for Eliciting Truthfulness of Large Language Models [76.17975723711886]
不確実性定量化(英: Uncertainty Quantification、UQ)は、大規模言語モデル(LLM)から真正性を求めるための顕著なアプローチである。
本研究では,テキスト生成のために,分類タスクのUQ技術であるMahalanobis Distance (MD)を適用した。
提案手法は,複数レイヤのLCMからトークン埋め込みを抽出し,各トークンのMDスコアを計算し,これらの特徴を訓練した線形回帰を用いてロバストな不確実性スコアを提供する。
論文 参考訳(メタデータ) (2025-02-20T10:25:13Z) - Assessing the Robustness of LLM-based NLP Software via Automated Testing [6.986328098563149]
本稿では,AutOmated Robustness Testing frAmework, AORTAを紹介する。
本稿では,アダプティブビームサーチ (Adaptive Beam Search) と呼ばれる AORTA 内における LLM ベースのソフトウェアの新しいテスト手法を提案する。
ABSはLLMの広範な特徴空間に合わせて調整されており、適応ビーム幅とバックトラック機能により試験効率を向上させる。
論文 参考訳(メタデータ) (2024-12-30T15:33:34Z) - Benchmarking Uncertainty Quantification Methods for Large Language Models with LM-Polygraph [83.90988015005934]
不確実性定量化は機械学習アプリケーションにおいて重要な要素である。
最新のUQベースラインの集合を実装した新しいベンチマークを導入する。
我々は、11タスクにわたるUQと正規化技術に関する大規模な実証的研究を行い、最も効果的なアプローチを特定した。
論文 参考訳(メタデータ) (2024-06-21T20:06:31Z) - RITFIS: Robust input testing framework for LLMs-based intelligent
software [6.439196068684973]
RITFISは、自然言語入力に対するインテリジェントソフトウェアの堅牢性を評価するために設計された最初のフレームワークである。
RITFISは17の自動テスト手法を採用しており、元々はディープニューラルネットワーク(DNN)ベースのインテリジェントソフトウェア用に設計された。
LLMベースの知的ソフトウェア評価におけるRITFISの有効性を実証的検証により示す。
論文 参考訳(メタデータ) (2024-02-21T04:00:54Z) - LEAP: Efficient and Automated Test Method for NLP Software [6.439196068684973]
本稿では,LEvy 飛行に基づく適応粒子群最適化をテキスト機能と統合した自動テスト手法 LEAP を提案する。
我々は, LEAPのNLPソフトウェアテスト能力を検証する一連の実験を行い, 敵検体生成におけるLEAPの平均成功率は79.1%であった。
LEAPは高い成功率を保証する一方で、他の慣性ベースの手法と比較して、時間オーバーヘッドを最大147.6秒削減する。
論文 参考訳(メタデータ) (2023-08-22T08:51:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。