Fugu-MT 論文翻訳(概要): LEAP: Efficient and Automated Test Method for NLP Software

論文の概要: LEAP: Efficient and Automated Test Method for NLP Software

arxiv url: http://arxiv.org/abs/2308.11284v1
Date: Tue, 22 Aug 2023 08:51:10 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-23 18:30:21.838740
Title: LEAP: Efficient and Automated Test Method for NLP Software
Title（参考訳）: LEAP: NLPソフトウェアの効率的な自動テスト方法
Authors: Mingxuan Xiao, Yan Xiao, Hai Dong, Shunhui Ji, Pengcheng Zhang
Abstract要約: 本稿では,LEvy 飛行に基づく適応粒子群最適化をテキスト機能と統合した自動テスト手法 LEAP を提案する。我々は, LEAPのNLPソフトウェアテスト能力を検証する一連の実験を行い, 敵検体生成におけるLEAPの平均成功率は79.1%であった。 LEAPは高い成功率を保証する一方で、他の慣性ベースの手法と比較して、時間オーバーヘッドを最大147.6秒削減する。
参考スコア（独自算出の注目度）: 6.439196068684973
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The widespread adoption of DNNs in NLP software has highlighted the need for robustness. Researchers proposed various automatic testing techniques for adversarial test cases. However, existing methods suffer from two limitations: weak error-discovering capabilities, with success rates ranging from 0% to 24.6% for BERT-based NLP software, and time inefficiency, taking 177.8s to 205.28s per test case, making them challenging for time-constrained scenarios. To address these issues, this paper proposes LEAP, an automated test method that uses LEvy flight-based Adaptive Particle swarm optimization integrated with textual features to generate adversarial test cases. Specifically, we adopt Levy flight for population initialization to increase the diversity of generated test cases. We also design an inertial weight adaptive update operator to improve the efficiency of LEAP's global optimization of high-dimensional text examples and a mutation operator based on the greedy strategy to reduce the search time. We conducted a series of experiments to validate LEAP's ability to test NLP software and found that the average success rate of LEAP in generating adversarial test cases is 79.1%, which is 6.1% higher than the next best approach (PSOattack). While ensuring high success rates, LEAP significantly reduces time overhead by up to 147.6s compared to other heuristic-based methods. Additionally, the experimental results demonstrate that LEAP can generate more transferable test cases and significantly enhance the robustness of DNN-based systems.
Abstract（参考訳）: NLPソフトウェアにおけるDNNの普及は、堅牢性の必要性を強調している。研究者らは敵検体に対する様々な自動検査手法を提案した。 bertベースのnlpソフトウェアでは0%から24.6%の成功率があり、テストケース毎に177.8から205.28秒を要し、時間の制約のあるシナリオでは困難である。これらの問題に対処するため,本稿では,levy飛行に基づく適応粒子群最適化とテキスト特徴を統合した自動テスト手法であるleapを提案する。具体的には,集団初期化にlevy flightを採用し,生成したテストケースの多様性を高めた。我々はまた、LEAPの高次元テキスト例に対するグローバル最適化の効率を向上させるために慣性重み適応更新演算子を設計し、探索時間を短縮する欲求戦略に基づく突然変異演算子を設計する。我々は, LEAPのNLPソフトウェアテスト能力を検証する一連の実験を行い, 敵検体生成におけるLEAPの平均成功率は79.1%であり, 次のベストアプローチ(PSOアタック)よりも6.1%高いことがわかった。 LEAPは高い成功率を確保する一方で、他のヒューリスティックな手法と比較して、時間オーバーヘッドを最大147.6秒削減する。さらに, LEAPはより伝達可能なテストケースを生成し, DNNベースのシステムの堅牢性を大幅に向上させることができることを示した。

関連論文リスト

Rethinking Verification for LLM Code Generation: From Generation to Testing [44.46778801679273]
大規模言語モデル(LLM)は最近、HumanEvalやLiveCodeBenchといったコード生成ベンチマークで顕著な成功を収めた。本稿では,テストスーツの厳密な定量化を目的とした新しい多次元メトリクスを提案する。実験の結果、SAGAは90.62%、検証器の精度はTCGBenchで32.58%に達することがわかった。
論文参考訳（メタデータ） (2025-07-09T14:58:47Z)
Boosting Rust Unit Test Coverage through Hybrid Program Analysis and Large Language Models [14.536415473544146]
本稿では,大規模言語モデル(LLM)を活用して高カバレッジ単体テストを生成する手法であるPALMを提案する。 PALMはプログラム解析を行い、関数内の分岐条件を特定し、それを経路制約に結合する。このアプローチを実装し、それを10のオープンソースのRustクラッドで評価します。
論文参考訳（メタデータ） (2025-06-10T17:21:21Z)
Seek in the Dark: Reasoning via Test-Time Instance-Level Policy Gradient in Latent Space [82.75174050101108]
テスト時間インスタンスレベルの適応(TTIA)を通じて推論を強化するフレームワークであるLatentSeekを紹介した。 LatentSeekは、GSM8K、MATH-500、AIME2024など、さまざまな推論ベンチマークで評価されている。結果は、LatentSeekが一貫して強力なベースラインを上回っていることを示している。
論文参考訳（メタデータ） (2025-05-19T16:26:02Z)
AegisLLM: Scaling Agentic Systems for Self-Reflective Defense in LLM Security [74.22452069013289]
AegisLLMは、敵の攻撃や情報漏洩に対する協調的なマルチエージェント防御である。テスト時のエージェント推論システムのスケーリングは,モデルの有用性を損なうことなく,ロバスト性を大幅に向上させることを示す。アンラーニングやジェイルブレイクを含む主要な脅威シナリオに対する総合的な評価は、AegisLLMの有効性を示している。
論文参考訳（メタデータ） (2025-04-29T17:36:05Z)
ABFS: Natural Robustness Testing for LLM-based NLP Software [8.833542944724465]
自然言語処理(NLP)ソフトウェアにおけるLLM(Large Language Models)は、様々な領域で急速に普及している。これらの応用は、入力中のわずかな摂動が誤った出力につながるような堅牢性欠陥をしばしば示している。現在のロバストネス試験法は,(1) 試験効率の低下,(2) 試験ケースの自然性不足の2つの主な限界に直面している。
論文参考訳（メタデータ） (2025-03-03T09:02:06Z)
Assessing the Robustness of LLM-based NLP Software via Automated Testing [6.986328098563149]
本稿では,AutOmated Robustness Testing frAmework, AORTAを紹介する。本稿では,アダプティブビームサーチ (Adaptive Beam Search) と呼ばれる AORTA 内における LLM ベースのソフトウェアの新しいテスト手法を提案する。 ABSはLLMの広範な特徴空間に合わせて調整されており、適応ビーム幅とバックトラック機能により試験効率を向上させる。
論文参考訳（メタデータ） (2024-12-30T15:33:34Z)
PromptV: Leveraging LLM-powered Multi-Agent Prompting for High-quality Verilog Generation [9.990225157705966]
本稿では,制約に対処し,コード生成品質を向上させるための,新しいマルチエージェント・プロンプト学習フレームワークを提案する。マルチエージェントアーキテクチャは、コードエラー訂正機能を改善しつつ、変性リスクを効果的に軽減できることを示す。
論文参考訳（メタデータ） (2024-12-15T01:58:10Z)
Toward Automated Validation of Language Model Synthesized Test Cases using Semantic Entropy [0.5057850174013127]
現代の大規模言語モデル(LLM)ベースのプログラミングエージェントは、しばしば、生成されたコードを洗練するためにテスト実行フィードバックに依存する。本稿では,LLMが生成したテストケースの自動検証にセマンティックエントロピーを利用する新しいフレームワークVALTESTを紹介する。 VALTESTはテストの妥当性を最大29%向上し、パス@1スコアの大幅な増加によって証明されたコード生成のパフォーマンスが向上することを示している。
論文参考訳（メタデータ） (2024-11-13T00:07:32Z)
Adaptive Learn-then-Test: Statistically Valid and Efficient Hyperparameter Selection [35.88667386998423]
本稿では,AIモデルの集団リスクに対する有限サンプル統計保証を提供するアダプティブ・ラーニング・then-test (aLTT)を導入する。 ALTTはテストラウンドの数を減らし、テストコストのかかるシナリオや安全性のリスクを示すシナリオに適している。
論文参考訳（メタデータ） (2024-09-24T08:14:26Z)
Skill-Adpative Imitation Learning for UI Test Reuse [13.538724823517292]
UIテストマイグレーションの有効性を高めるために,スキル適応型模倣学習フレームワークを提案する。その結果、SAILはUIテストマイグレーションの有効性を大幅に改善し、149%の成功率が最先端のアプローチよりも高いことがわかった。
論文参考訳（メタデータ） (2024-09-20T08:13:04Z)
On Speeding Up Language Model Evaluation [48.51924035873411]
LLM(Large Language Models)を用いたプロンプトベースの手法の開発には、多くの意思決定が必要である。この課題に対処するための新しい手法を提案する。典型的に必要とされるリソースの5～15%しか必要とせず,トップパフォーマンスの手法を識別できることが示される。
論文参考訳（メタデータ） (2024-07-08T17:48:42Z)
Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文参考訳（メタデータ） (2024-06-07T11:37:45Z)
Active Test-Time Adaptation: Theoretical Analyses and An Algorithm [51.84691955495693]
テスト時間適応(TTA)は、教師なし設定でストリーミングテストデータの分散シフトに対処する。完全TTA設定内に能動学習を統合する能動テスト時間適応(ATTA)の新たな問題設定を提案する。
論文参考訳（メタデータ） (2024-04-07T22:31:34Z)
Reinforcement Learning from Automatic Feedback for High-Quality Unit Test Generation [13.658632458850144]
大規模言語モデル(LLM)は、テストケースの自動生成を含むコード生成で人気を集めている。 LLMは、多くの場合、大量の公開コードでトレーニングされ、ベストプラクティスに従わないテストケースを含む。 RLSQM(Reinforcement Learning from Static Quality Metrics)と呼ばれる新しい手法を提案する。
論文参考訳（メタデータ） (2023-10-03T18:48:31Z)
Effective Test Generation Using Pre-trained Large Language Models and Mutation Testing [13.743062498008555]
大規模言語モデル(LLM)が生成するテストケースの有効性を,バグの発見の観点から改善するための MuTAP を導入する。 MuTAPは、プログラム・アンダー・テスト(PUT)の自然言語記述がない場合に有効なテストケースを生成することができる提案手法は, 最大28%の人書きコードスニペットを検出できることを示す。
論文参考訳（メタデータ） (2023-08-31T08:48:31Z)
LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文参考訳（メタデータ） (2023-05-23T21:50:06Z)
Let's Sample Step by Step: Adaptive-Consistency for Efficient Reasoning and Coding with LLMs [60.58434523646137]
大規模言語モデル(LLM)からの出力の正確性を改善するための一般的なアプローチは、自己整合性である。コスト効率のよいモデルに依存しない手法であるAdaptive-Consistencyを導入し,各質問のサンプル数を動的に調整する。実験の結果,Adaptive-Consistencyはサンプル予算を最大7.9倍に削減し,平均精度は0.1%以下であった。
論文参考訳（メタデータ） (2023-05-19T17:49:25Z)
Efficient and Effective Generation of Test Cases for Pedestrian Detection -- Search-based Software Testing of Baidu Apollo in SVL [14.482670650074885]
本稿では,SVLシミュレータ内での自律走行プラットフォームであるBaidu Apolloの歩行者検出と緊急制動システムの試験について述べる。本稿では,SVL環境におけるApolloの障害検出シナリオを生成する進化的自動テスト生成手法を提案する。また,本手法の有効性と有効性を示すため,ベースラインランダム生成手法の結果も報告する。
論文参考訳（メタデータ） (2021-09-16T13:11:53Z)
Adaptive Sampling for Best Policy Identification in Markov Decision Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。最先端アルゴリズムの利点を論じ、解説する。
論文参考訳（メタデータ） (2020-09-28T15:22:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。