論文の概要: ABFS: Natural Robustness Testing for LLM-based NLP Software
- arxiv url: http://arxiv.org/abs/2503.01319v1
- Date: Mon, 03 Mar 2025 09:02:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:22:34.207977
- Title: ABFS: Natural Robustness Testing for LLM-based NLP Software
- Title(参考訳): ABFS: LLMベースのNLPソフトウェアのための自然ロバストネステスト
- Authors: Mingxuan Xiao, Yan Xiao, Shunhui Ji, Yunhe Li, Lei Xue, Pengcheng Zhang,
- Abstract要約: 自然言語処理(NLP)ソフトウェアにおけるLLM(Large Language Models)は、様々な領域で急速に普及している。
これらの応用は、入力中のわずかな摂動が誤った出力につながるような堅牢性欠陥をしばしば示している。
現在のロバストネス試験法は,(1) 試験効率の低下,(2) 試験ケースの自然性不足の2つの主な限界に直面している。
- 参考スコア(独自算出の注目度): 8.833542944724465
- License:
- Abstract: Owing to the exceptional performance of Large Language Models (LLMs) in Natural Language Processing (NLP) tasks, LLM-based NLP software has rapidly gained traction across various domains, such as financial analysis and content moderation. However, these applications frequently exhibit robustness deficiencies, where slight perturbations in input (prompt+example) may lead to erroneous outputs. Current robustness testing methods face two main limitations: (1) low testing effectiveness, limiting the applicability of LLM-based software in safety-critical scenarios, and (2) insufficient naturalness of test cases, reducing the practical value of testing outcomes. To address these issues, this paper proposes ABFS, a straightforward yet effective automated testing method that, for the first time, treats the input prompts and examples as a unified whole for robustness testing. Specifically, ABFS formulates the testing process as a combinatorial optimization problem, employing Best-First Search to identify successful test cases within the perturbation space and designing a novel Adaptive control strategy to enhance test case naturalness. We evaluate the robustness testing performance of ABFS on three datasets across five threat models. On Llama2-13b, the traditional StressTest achieves only a 13.273% success rate, while ABFS attains a success rate of 98.064%, supporting a more comprehensive robustness assessment before software deployment. Compared to baseline methods, ABFS introduces fewer modifications to the original input and consistently generates test cases with superior naturalness. Furthermore, test cases generated by ABFS exhibit stronger transferability and higher testing efficiency, significantly reducing testing costs.
- Abstract(参考訳): 自然言語処理(NLP)タスクにおけるLLM(Large Language Models)の異常な性能のため、LLMベースのNLPソフトウェアは、財務分析やコンテンツモデレーションなど、様々な領域で急速に普及している。
しかしながら、これらの応用は、入力中のわずかな摂動(prompt+example)が誤った出力をもたらすような堅牢性欠陥をしばしば示している。
現在のロバストネステスト手法は,(1)安全性に問題のあるシナリオにおけるLCMベースのソフトウェアの適用性を制限すること,(2)テストケースの自然性に乏しいこと,そして,テスト結果の実用的価値を下げること,の2つの主な制限に直面している。
これらの問題に対処するため,本論文では,入力プロンプトと例をロバストネステストのための統一的な総合として初めて扱う,単純かつ効果的な自動テスト手法であるABFSを提案する。
具体的には、ABFSは、テストプロセスを組合せ最適化問題として定式化し、ベストファーストサーチを用いて摂動空間内で成功したテストケースを特定し、テストケースの自然性を高めるための新しい適応制御戦略を設計する。
5つの脅威モデルにわたる3つのデータセット上でABFSのロバスト性試験性能を評価する。
Llama2-13bでは、従来のScressTestは13.273%の成功率しか達成していないが、ABFSは98.064%の成功率に達し、ソフトウェアデプロイメント前のより包括的な堅牢性評価をサポートする。
ベースライン法と比較すると、ABFSは元の入力に対してより少ない修正を導入し、優れた自然性を持つテストケースを一貫して生成する。
さらに、ABFSによって生成されたテストケースは、より強い転送可能性と高いテスト効率を示し、テストコストを著しく削減する。
関連論文リスト
- Boundary Value Test Input Generation Using Prompt Engineering with LLMs: Fault Detection and Coverage Analysis [3.249891166806818]
本稿では,大規模言語モデル(LLM)のホワイトボックスソフトウェアテストにおける境界値テストインプット生成における有効性を評価するためのフレームワークを提案する。
本稿では, 境界値生成におけるLLMの強度と限界, 特に共通境界関連問題の検出について述べる。
本研究は, 境界値テストにおけるLCMの役割について考察し, 自動テスト手法の改善のための可能性と領域の両方について考察する。
論文 参考訳(メタデータ) (2025-01-24T12:54:19Z) - Automated Robustness Testing for LLM-based NLP Software [6.986328098563149]
LLMベースのNLPソフトウェア用に特別に設計された、自動化された堅牢性テスト手法は知られていない。
既存のテスト手法は AORTA による LLM ベースのソフトウェアに適用できるが,有効性は限られている。
本稿では,アダプティブビームサーチ (Adaptive Beam Search) と呼ばれる AORTA 内における LLM ベースのソフトウェアの新しいテスト手法を提案する。
論文 参考訳(メタデータ) (2024-12-30T15:33:34Z) - Fuzzy Inference System for Test Case Prioritization in Software Testing [0.0]
テストケース優先順位付け(TCP)は、テスト効率を高めるための重要な戦略である。
本稿では,新しいファジィ論理に基づくTCP自動化手法を提案する。
論文 参考訳(メタデータ) (2024-04-25T08:08:54Z) - Active Test-Time Adaptation: Theoretical Analyses and An Algorithm [51.84691955495693]
テスト時間適応(TTA)は、教師なし設定でストリーミングテストデータの分散シフトに対処する。
完全TTA設定内に能動学習を統合する能動テスト時間適応(ATTA)の新たな問題設定を提案する。
論文 参考訳(メタデータ) (2024-04-07T22:31:34Z) - An empirical study of testing machine learning in the wild [35.13282520395855]
機械学習(ML/DL)アルゴリズムは多くのソフトウェアシステムで採用されている。
インダクティブな性質のため、これらのシステムの品質を保証することは、研究コミュニティにとって重要な課題である。
ML/DLの品質保証に関する最近の研究は、信頼性を向上させるために、突然変異テストのような従来のソフトウェアテストの概念を適用している。
論文 参考訳(メタデータ) (2023-12-19T21:18:14Z) - Precise Error Rates for Computationally Efficient Testing [75.63895690909241]
本稿では,計算複雑性に着目した単純な対数-単純仮説テストの問題を再考する。
線形スペクトル統計に基づく既存の試験は、I型とII型の誤差率の間の最良のトレードオフ曲線を達成する。
論文 参考訳(メタデータ) (2023-11-01T04:41:16Z) - LEAP: Efficient and Automated Test Method for NLP Software [6.439196068684973]
本稿では,LEvy 飛行に基づく適応粒子群最適化をテキスト機能と統合した自動テスト手法 LEAP を提案する。
我々は, LEAPのNLPソフトウェアテスト能力を検証する一連の実験を行い, 敵検体生成におけるLEAPの平均成功率は79.1%であった。
LEAPは高い成功率を保証する一方で、他の慣性ベースの手法と比較して、時間オーバーヘッドを最大147.6秒削減する。
論文 参考訳(メタデータ) (2023-08-22T08:51:10Z) - Revisiting Out-of-distribution Robustness in NLP: Benchmark, Analysis,
and LLMs Evaluations [111.88727295707454]
本稿では,NLP分野におけるアウト・オブ・ディストリビューション(OOD)のロバスト性に関する研究を再検討する。
本稿では, 明確な分化と分散の困難さを保証するための, ベンチマーク構築プロトコルを提案する。
我々は,OODロバスト性の分析と評価のための事前学習言語モデルの実験を行った。
論文 参考訳(メタデータ) (2023-06-07T17:47:03Z) - On Pitfalls of Test-Time Adaptation [82.8392232222119]
TTA(Test-Time Adaptation)は、分散シフトの下で堅牢性に取り組むための有望なアプローチとして登場した。
TTABは,10の最先端アルゴリズム,多種多様な分散シフト,および2つの評価プロトコルを含むテスト時間適応ベンチマークである。
論文 参考訳(メタデータ) (2023-06-06T09:35:29Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z) - Noisy Adaptive Group Testing using Bayesian Sequential Experimental
Design [63.48989885374238]
病気の感染頻度が低い場合、Dorfman氏は80年前に、人のテストグループは個人でテストするよりも効率が良いことを示した。
本研究の目的は,ノイズの多い環境で動作可能な新しいグループテストアルゴリズムを提案することである。
論文 参考訳(メタデータ) (2020-04-26T23:41:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。