論文の概要: Automated Robustness Testing for LLM-based NLP Software
- arxiv url: http://arxiv.org/abs/2412.21016v1
- Date: Mon, 30 Dec 2024 15:33:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-31 16:02:39.273731
- Title: Automated Robustness Testing for LLM-based NLP Software
- Title(参考訳): LLMベースNLPソフトウェアにおけるロバストネス自動テスト
- Authors: Mingxuan Xiao, Yan Xiao, Shunhui Ji, Hanbo Cai, Lei Xue, Pengcheng Zhang,
- Abstract要約: LLMベースのNLPソフトウェア用に特別に設計された、自動化された堅牢性テスト手法は知られていない。
既存のテスト手法は AORTA による LLM ベースのソフトウェアに適用できるが,有効性は限られている。
本稿では,アダプティブビームサーチ (Adaptive Beam Search) と呼ばれる AORTA 内における LLM ベースのソフトウェアの新しいテスト手法を提案する。
- 参考スコア(独自算出の注目度): 6.986328098563149
- License:
- Abstract: Benefiting from the advancements in LLMs, NLP software has undergone rapid development. Such software is widely employed in various safety-critical tasks, such as financial sentiment analysis, toxic content moderation, and log generation. To our knowledge, there are no known automated robustness testing methods specifically designed for LLM-based NLP software. Given the complexity of LLMs and the unpredictability of real-world inputs (including prompts and examples), it is essential to examine the robustness of overall inputs to ensure the safety of such software. To this end, this paper introduces the first AutOmated Robustness Testing frAmework, AORTA, which reconceptualizes the testing process into a combinatorial optimization problem. Existing testing methods designed for DNN-based software can be applied to LLM-based software by AORTA, but their effectiveness is limited. To address this, we propose a novel testing method for LLM-based software within AORTA called Adaptive Beam Search. ABS is tailored for the expansive feature space of LLMs and improves testing effectiveness through an adaptive beam width and the capability for backtracking. We successfully embed 18 test methods in the designed framework AORTA and compared the test validity of ABS with three datasets and five threat models. ABS facilitates a more comprehensive and accurate robustness assessment before software deployment, with an average test success rate of 86.138%. Compared to the currently best-performing baseline PWWS, ABS significantly reduces the computational overhead by up to 3441.895 seconds per successful test case and decreases the number of queries by 218.762 times on average. Furthermore, test cases generated by ABS exhibit greater naturalness and transferability.
- Abstract(参考訳): LLMの進歩により、NLPソフトウェアは急速に開発が進んでいる。
このようなソフトウェアは、金銭的感情分析、有害なコンテンツモデレーション、ログ生成など、様々な安全クリティカルなタスクに広く利用されている。
我々の知る限り、LSMベースのNLPソフトウェア用に特別に設計された自動ロバストネステスト手法は知られていない。
LLMの複雑さと実世界のインプット(プロンプトや例を含む)の予測不可能さを考えると、そのようなソフトウェアの安全性を確保するためには、全体的なインプットの堅牢性を検討することが不可欠である。
そこで本稿では,テストプロセスを組合せ最適化問題に再認識する,最初のAutOmated Robustness Testing frAmework, AORTAを紹介する。
DNNベースのソフトウェア用に設計された既存のテスト手法は、AORTAによってLLMベースのソフトウェアに適用できるが、その有効性は限られている。
そこで本研究では,アダプティブビームサーチ (Adaptive Beam Search) と呼ばれる AORTA 内における LLM ベースのソフトウェアを対象とした新しいテスト手法を提案する。
ABSはLLMの広範な特徴空間に合わせて調整されており、適応ビーム幅とバックトラック機能により試験効率を向上させる。
設計したフレームワークAORTAに18のテストメソッドを組み込むことに成功し、ABSのテスト妥当性を3つのデータセットと5つの脅威モデルと比較した。
ABSはソフトウェア導入前のより包括的で正確なロバストネス評価を促進し、平均テスト成功率は86.138%である。
現在最高のパフォーマンスのベースラインPWWSと比較して、ABSはテストケースが成功したときの計算オーバーヘッドを最大3441.895秒減らし、クエリの数を平均218.762回減らした。
さらに、ABSが生成する試験ケースは、より自然性と転写性が高い。
関連論文リスト
- AutoPT: How Far Are We from the End2End Automated Web Penetration Testing? [54.65079443902714]
LLMによって駆動されるPSMの原理に基づく自動浸透試験エージェントであるAutoPTを紹介する。
以上の結果から, AutoPT は GPT-4o ミニモデル上でのベースラインフレームワーク ReAct よりも優れていた。
論文 参考訳(メタデータ) (2024-11-02T13:24:30Z) - Safe Load Balancing in Software-Defined-Networking [1.2521494095948067]
負荷分散のためのDeep Reinforcement Learning (DRL)アルゴリズム上に設計された制御バリア(CBF)。
DRL-CBFアプローチは,トレーニングおよびテスト中の安全性要件を満たすことができることを示す。
論文 参考訳(メタデータ) (2024-10-22T09:34:22Z) - AIME: AI System Optimization via Multiple LLM Evaluators [79.03422337674664]
AIME は複数の LLM を利用した評価プロトコルであり、それぞれが独立した基準で評価を生成し、結合を通してそれらを結合する。
コード生成タスクにおける AIME のベースラインメソッドのパフォーマンスは,LeetCodeHard と HumanEval データセットの単一 LLM 評価プロトコルよりも最大 62% 高いエラー検出率,最大 16% 高い成功率で向上している。
論文 参考訳(メタデータ) (2024-10-04T04:03:24Z) - The Power of Resets in Online Reinforcement Learning [73.64852266145387]
ローカルシミュレータアクセス(あるいはローカルプランニング)を用いたオンライン強化学習を通してシミュレータのパワーを探求する。
カバー性が低いMPPは,Qstar$-realizabilityのみのサンプル効率で学習可能であることを示す。
ローカルシミュレーターアクセス下では, 悪名高いExogenous Block MDP問題が抽出可能であることを示す。
論文 参考訳(メタデータ) (2024-04-23T18:09:53Z) - RITFIS: Robust input testing framework for LLMs-based intelligent
software [6.439196068684973]
RITFISは、自然言語入力に対するインテリジェントソフトウェアの堅牢性を評価するために設計された最初のフレームワークである。
RITFISは17の自動テスト手法を採用しており、元々はディープニューラルネットワーク(DNN)ベースのインテリジェントソフトウェア用に設計された。
LLMベースの知的ソフトウェア評価におけるRITFISの有効性を実証的検証により示す。
論文 参考訳(メタデータ) (2024-02-21T04:00:54Z) - Large Language Models Based Fuzzing Techniques: A Survey [4.155653485098873]
効率的なソフトウェアテスト手法としてのファジングテストは、様々な領域で広く使われている。
LLM(Large Language Models)の急速な開発により、ソフトウェアテストの分野での応用が促進された。
大きな言語モデルに基づいてファジングテストを採用する傾向が高まっている。
論文 参考訳(メタデータ) (2024-02-01T05:34:03Z) - Reinforcement Learning from Automatic Feedback for High-Quality Unit
Test Generation [13.658632458850144]
大規模言語モデル(LLM)は、テストケースの自動生成を含むコード生成で人気を集めている。
LLMは、多くの場合、大量の公開コードでトレーニングされ、ベストプラクティスに従わないテストケースを含む。
RLSQM(Reinforcement Learning from Static Quality Metrics)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-10-03T18:48:31Z) - Identifying the Risks of LM Agents with an LM-Emulated Sandbox [68.26587052548287]
言語モデル(LM)エージェントとツールは、豊富な機能セットを可能にすると同時に、潜在的なリスクを増幅する。
これらのエージェントを高いコストでテストすることは、高いリスクと長い尾のリスクを見つけるのをますます困難にします。
ツール実行をエミュレートするためにLMを使用し、さまざまなツールやシナリオに対してLMエージェントのテストを可能にするフレームワークであるToolEmuを紹介します。
論文 参考訳(メタデータ) (2023-09-25T17:08:02Z) - LEAP: Efficient and Automated Test Method for NLP Software [6.439196068684973]
本稿では,LEvy 飛行に基づく適応粒子群最適化をテキスト機能と統合した自動テスト手法 LEAP を提案する。
我々は, LEAPのNLPソフトウェアテスト能力を検証する一連の実験を行い, 敵検体生成におけるLEAPの平均成功率は79.1%であった。
LEAPは高い成功率を保証する一方で、他の慣性ベースの手法と比較して、時間オーバーヘッドを最大147.6秒削減する。
論文 参考訳(メタデータ) (2023-08-22T08:51:10Z) - Using Machine Learning To Identify Software Weaknesses From Software
Requirement Specifications [49.1574468325115]
本研究は、要求仕様からソフトウェア弱点を特定するための効率的な機械学習アルゴリズムを見つけることに焦点を当てる。
ProMISE_exp. Naive Bayes、サポートベクターマシン(SVM)、決定木、ニューラルネットワーク、畳み込みニューラルネットワーク(CNN)アルゴリズムをテストした。
論文 参考訳(メタデータ) (2023-08-10T13:19:10Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。