Fugu-MT 論文翻訳(概要): Automated Robustness Testing for LLM-based NLP Software

論文の概要: Automated Robustness Testing for LLM-based NLP Software

arxiv url: http://arxiv.org/abs/2412.21016v1
Date: Mon, 30 Dec 2024 15:33:34 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-31 22:07:02.803737
Title: Automated Robustness Testing for LLM-based NLP Software
Title（参考訳）: LLMベースNLPソフトウェアにおけるロバストネス自動テスト
Authors: Mingxuan Xiao, Yan Xiao, Shunhui Ji, Hanbo Cai, Lei Xue, Pengcheng Zhang,
Abstract要約: LLMベースのNLPソフトウェア用に特別に設計された、自動化された堅牢性テスト手法は知られていない。既存のテスト手法は AORTA による LLM ベースのソフトウェアに適用できるが,有効性は限られている。本稿では,アダプティブビームサーチ (Adaptive Beam Search) と呼ばれる AORTA 内における LLM ベースのソフトウェアの新しいテスト手法を提案する。
参考スコア（独自算出の注目度）: 6.986328098563149
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Benefiting from the advancements in LLMs, NLP software has undergone rapid development. Such software is widely employed in various safety-critical tasks, such as financial sentiment analysis, toxic content moderation, and log generation. To our knowledge, there are no known automated robustness testing methods specifically designed for LLM-based NLP software. Given the complexity of LLMs and the unpredictability of real-world inputs (including prompts and examples), it is essential to examine the robustness of overall inputs to ensure the safety of such software. To this end, this paper introduces the first AutOmated Robustness Testing frAmework, AORTA, which reconceptualizes the testing process into a combinatorial optimization problem. Existing testing methods designed for DNN-based software can be applied to LLM-based software by AORTA, but their effectiveness is limited. To address this, we propose a novel testing method for LLM-based software within AORTA called Adaptive Beam Search. ABS is tailored for the expansive feature space of LLMs and improves testing effectiveness through an adaptive beam width and the capability for backtracking. We successfully embed 18 test methods in the designed framework AORTA and compared the test validity of ABS with three datasets and five threat models. ABS facilitates a more comprehensive and accurate robustness assessment before software deployment, with an average test success rate of 86.138%. Compared to the currently best-performing baseline PWWS, ABS significantly reduces the computational overhead by up to 3441.895 seconds per successful test case and decreases the number of queries by 218.762 times on average. Furthermore, test cases generated by ABS exhibit greater naturalness and transferability.
Abstract（参考訳）: LLMの進歩により、NLPソフトウェアは急速に開発が進んでいる。このようなソフトウェアは、金銭的感情分析、有害なコンテンツモデレーション、ログ生成など、様々な安全クリティカルなタスクに広く利用されている。我々の知る限り、LSMベースのNLPソフトウェア用に特別に設計された自動ロバストネステスト手法は知られていない。 LLMの複雑さと実世界のインプット(プロンプトや例を含む)の予測不可能さを考えると、そのようなソフトウェアの安全性を確保するためには、全体的なインプットの堅牢性を検討することが不可欠である。そこで本稿では,テストプロセスを組合せ最適化問題に再認識する,最初のAutOmated Robustness Testing frAmework, AORTAを紹介する。 DNNベースのソフトウェア用に設計された既存のテスト手法は、AORTAによってLLMベースのソフトウェアに適用できるが、その有効性は限られている。そこで本研究では,アダプティブビームサーチ (Adaptive Beam Search) と呼ばれる AORTA 内における LLM ベースのソフトウェアを対象とした新しいテスト手法を提案する。 ABSはLLMの広範な特徴空間に合わせて調整されており、適応ビーム幅とバックトラック機能により試験効率を向上させる。設計したフレームワークAORTAに18のテストメソッドを組み込むことに成功し、ABSのテスト妥当性を3つのデータセットと5つの脅威モデルと比較した。 ABSはソフトウェア導入前のより包括的で正確なロバストネス評価を促進し、平均テスト成功率は86.138%である。現在最高のパフォーマンスのベースラインPWWSと比較して、ABSはテストケースが成功したときの計算オーバーヘッドを最大3441.895秒減らし、クエリの数を平均218.762回減らした。さらに、ABSが生成する試験ケースは、より自然性と転写性が高い。

関連論文リスト

Taming Polysemanticity in LLMs: Provable Feature Recovery via Sparse Autoencoders [50.52694757593443]
既存のSAEトレーニングアルゴリズムは厳密な数学的保証を欠いていることが多く、実用的な制限に悩まされている。まず,特徴の特定可能性という新たな概念を含む特徴回復問題の統計的枠組みを提案する。本稿では、ニューラルネットワークのバイアスパラメータを適応的に調整し、適切なアクティベーション間隔を確保する手法である「バイアス適応」に基づく新たなSAEトレーニングアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-06-16T20:58:05Z)
Boosting Rust Unit Test Coverage through Hybrid Program Analysis and Large Language Models [14.536415473544146]
本稿では,大規模言語モデル(LLM)を活用して高カバレッジ単体テストを生成する手法であるPALMを提案する。 PALMはプログラム解析を行い、関数内の分岐条件を特定し、それを経路制約に結合する。このアプローチを実装し、それを10のオープンソースのRustクラッドで評価します。
論文参考訳（メタデータ） (2025-06-10T17:21:21Z)
Training Language Models to Generate Quality Code with Program Analysis Feedback [66.0854002147103]
大規模言語モデル(LLM)によるコード生成は、ますます本番環境で採用されているが、コード品質の保証には失敗している。実運用品質のコードを生成するためにLLMにインセンティブを与える強化学習フレームワークであるREALを提案する。
論文参考訳（メタデータ） (2025-05-28T17:57:47Z)
ABFS: Natural Robustness Testing for LLM-based NLP Software [8.833542944724465]
自然言語処理(NLP)ソフトウェアにおけるLLM(Large Language Models)は、様々な領域で急速に普及している。これらの応用は、入力中のわずかな摂動が誤った出力につながるような堅牢性欠陥をしばしば示している。現在のロバストネス試験法は,(1) 試験効率の低下,(2) 試験ケースの自然性不足の2つの主な限界に直面している。
論文参考訳（メタデータ） (2025-03-03T09:02:06Z)
Leveraging Online Olympiad-Level Math Problems for LLMs Training and Contamination-Resistant Evaluation [55.21013307734612]
AoPS-Instructは60,000以上の高品質QAペアのデータセットである。 LiveAoPSBenchは、最新のフォーラムデータから派生したタイムスタンプによる進化的評価セットである。我々の研究は、高度な数学推論のための大規模で高品質なデータセットの作成と維持にスケーラブルなアプローチを提示している。
論文参考訳（メタデータ） (2025-01-24T06:39:38Z)
The Potential of LLMs in Automating Software Testing: From Generation to Reporting [0.0]
手動テストは効果的だが、時間とコストがかかり、自動化メソッドの需要が増大する。大規模言語モデル(LLM)の最近の進歩は、ソフトウェア工学に大きな影響を与えている。本稿では,人間の介入を減らし,テスト効率を向上させるため,LSMを用いた自動ソフトウェアテストに対するエージェント指向アプローチについて検討する。
論文参考訳（メタデータ） (2024-12-31T02:06:46Z)
Reinforcement Learning from Automatic Feedback for High-Quality Unit Test Generation [12.503002900186997]
大規模言語モデル(LLM)は自動テストケース生成で人気を集めている。 LLMは大量のオープンソースコードでトレーニングされているため、ベストプラクティスに従わないテストケースをしばしば生成します。静的解析に基づく品質指標に基づく高品質な単体テストを生成するために,RLSQM(Reinforcement Learning from Static Quality Metrics)を提案する。
論文参考訳（メタデータ） (2024-12-18T20:20:01Z)
AutoPT: How Far Are We from the End2End Automated Web Penetration Testing? [54.65079443902714]
LLMによって駆動されるPSMの原理に基づく自動浸透試験エージェントであるAutoPTを紹介する。以上の結果から, AutoPT は GPT-4o ミニモデル上でのベースラインフレームワーク ReAct よりも優れていた。
論文参考訳（メタデータ） (2024-11-02T13:24:30Z)
AIME: AI System Optimization via Multiple LLM Evaluators [79.03422337674664]
AIME は複数の LLM を利用した評価プロトコルであり、それぞれが独立した基準で評価を生成し、結合を通してそれらを結合する。コード生成タスクにおける AIME のベースラインメソッドのパフォーマンスは,LeetCodeHard と HumanEval データセットの単一 LLM 評価プロトコルよりも最大 62% 高いエラー検出率,最大 16% 高い成功率で向上している。
論文参考訳（メタデータ） (2024-10-04T04:03:24Z)
Benchmarking Uncertainty Quantification Methods for Large Language Models with LM-Polygraph [83.90988015005934]
不確実性定量化(英: Uncertainty Quantification、UQ)は、機械学習(ML)アプリケーションにおいて重要なコンポーネントである。最新のUQベースラインの集合を実装した新しいベンチマークを導入する。我々は、9つのタスクにわたるUQと正規化技術に関する大規模な実証的研究を行い、最も有望なアプローチを特定した。
論文参考訳（メタデータ） (2024-06-21T20:06:31Z)
The Power of Resets in Online Reinforcement Learning [73.64852266145387]
ローカルシミュレータアクセス(あるいはローカルプランニング)を用いたオンライン強化学習を通してシミュレータのパワーを探求する。カバー性が低いMPPは,Qstar$-realizabilityのみのサンプル効率で学習可能であることを示す。ローカルシミュレーターアクセス下では, 悪名高いExogenous Block MDP問題が抽出可能であることを示す。
論文参考訳（メタデータ） (2024-04-23T18:09:53Z)
RITFIS: Robust input testing framework for LLMs-based intelligent software [6.439196068684973]
RITFISは、自然言語入力に対するインテリジェントソフトウェアの堅牢性を評価するために設計された最初のフレームワークである。 RITFISは17の自動テスト手法を採用しており、元々はディープニューラルネットワーク(DNN)ベースのインテリジェントソフトウェア用に設計された。 LLMベースの知的ソフトウェア評価におけるRITFISの有効性を実証的検証により示す。
論文参考訳（メタデータ） (2024-02-21T04:00:54Z)
Large Language Models Based Fuzzing Techniques: A Survey [4.155653485098873]
効率的なソフトウェアテスト手法としてのファジングテストは、様々な領域で広く使われている。 LLM(Large Language Models)の急速な開発により、ソフトウェアテストの分野での応用が促進された。大きな言語モデルに基づいてファジングテストを採用する傾向が高まっている。
論文参考訳（メタデータ） (2024-02-01T05:34:03Z)
LEAP: Efficient and Automated Test Method for NLP Software [6.439196068684973]
本稿では,LEvy 飛行に基づく適応粒子群最適化をテキスト機能と統合した自動テスト手法 LEAP を提案する。我々は, LEAPのNLPソフトウェアテスト能力を検証する一連の実験を行い, 敵検体生成におけるLEAPの平均成功率は79.1%であった。 LEAPは高い成功率を保証する一方で、他の慣性ベースの手法と比較して、時間オーバーヘッドを最大147.6秒削減する。
論文参考訳（メタデータ） (2023-08-22T08:51:10Z)
Using Machine Learning To Identify Software Weaknesses From Software Requirement Specifications [49.1574468325115]
本研究は、要求仕様からソフトウェア弱点を特定するための効率的な機械学習アルゴリズムを見つけることに焦点を当てる。 ProMISE_exp. Naive Bayes、サポートベクターマシン(SVM)、決定木、ニューラルネットワーク、畳み込みニューラルネットワーク(CNN)アルゴリズムをテストした。
論文参考訳（メタデータ） (2023-08-10T13:19:10Z)
Log Barriers for Safe Black-box Optimization with Application to Safe Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。 LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文参考訳（メタデータ） (2022-07-21T11:14:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。