Fugu-MT 論文翻訳(概要): Intergenerational Test Generation for Natural Language Processing Applications

論文の概要: Intergenerational Test Generation for Natural Language Processing Applications

arxiv url: http://arxiv.org/abs/2302.10499v2
Date: Sat, 29 Jul 2023 02:12:42 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-24 13:16:55.816708
Title: Intergenerational Test Generation for Natural Language Processing Applications
Title（参考訳）: 自然言語処理のための世代間テスト生成
Authors: Pin Ji, Yang Feng, Weitao Huang, Jia Liu, Zhihong Zhao
Abstract要約: 各種NLPアプリケーションの誤動作を検出する自動テスト生成手法を提案する。この手法をNLPLegoに実装し、シード文の可能性を完全に活用する。 NLPLegoは3つのタスクで約95.7%の精度で1,732, 5301, 261,879の誤った行動を検出することに成功した。
参考スコア（独自算出の注目度）: 16.63835131985415
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The development of modern NLP applications often relies on various benchmark datasets containing plenty of manually labeled tests to evaluate performance. While constructing datasets often costs many resources, the performance on the held-out data may not properly reflect their capability in real-world application scenarios and thus cause tremendous misunderstanding and monetary loss. To alleviate this problem, in this paper, we propose an automated test generation method for detecting erroneous behaviors of various NLP applications. Our method is designed based on the sentence parsing process of classic linguistics, and thus it is capable of assembling basic grammatical elements and adjuncts into a grammatically correct test with proper oracle information. We implement this method into NLPLego, which is designed to fully exploit the potential of seed sentences to automate the test generation. NLPLego disassembles the seed sentence into the template and adjuncts and then generates new sentences by assembling context-appropriate adjuncts with the template in a specific order. Unlike the taskspecific methods, the tests generated by NLPLego have derivation relations and different degrees of variation, which makes constructing appropriate metamorphic relations easier. Thus, NLPLego is general, meaning it can meet the testing requirements of various NLP applications. To validate NLPLego, we experiment with three common NLP tasks, identifying failures in four state-of-art models. Given seed tests from SQuAD 2.0, SST, and QQP, NLPLego successfully detects 1,732, 5301, and 261,879 incorrect behaviors with around 95.7% precision in three tasks, respectively.
Abstract（参考訳）: 現代のNLPアプリケーションの開発は、パフォーマンスを評価するために、多くの手動でラベル付けされたテストを含む様々なベンチマークデータセットに依存することが多い。データセットの構築には多くのリソースが費やされることが多いが、保持されたデータのパフォーマンスは実際のアプリケーションシナリオでその能力を適切に反映していないため、大きな誤解と金銭的損失を引き起こす可能性がある。そこで本研究では,様々なNLPアプリケーションの誤動作を検出する自動テスト生成手法を提案する。本手法は,古典言語学の文解析プロセスに基づいて設計されており,基本的な文法的要素や副詞を適切なオラクル情報で文法的に正しいテストに組み込むことができる。この手法をNLPLegoに実装し、テスト生成を自動化するためにシード文の可能性を完全に活用する。 NLPLegoは、シード文をテンプレートとアジュネートに分解し、特定の順序でコンテキストに適したアジュネートを組み立てることで新しい文を生成する。タスク固有の方法とは異なり、NLPLegoによって生成されたテストは導出関係と変分度が異なるため、適切なメタモルフィック関係の構築が容易になる。したがって、NLPLegoは一般的なもので、様々なNLPアプリケーションのテスト要件を満たすことができる。 NLPLegoを検証するために、我々は4つの最先端モデルにおける失敗を識別する3つの共通NLPタスクを実験した。 SQuAD 2.0、SST、QQPのシードテストにより、NLPLegoは3つのタスクでそれぞれ95.7%の精度で1,732, 5301, 261,879の不正な振る舞いを検知した。

関連論文リスト

Directed Grammar-Based Test Generation [2.0948216657769616]
この研究は自動テスト生成アプローチ(FdLoopと呼ばれる)を提案する。 FdLoopは、既存の入力から関連する入力特性を反復的に学習し、ゴール固有の入力を生成する。 FdLoopは3つのよく知られた入力形式(JSON、CSS、JavaScript)と20のオープンソースソフトウェアを用いて評価する。
論文参考訳（メタデータ） (2025-08-02T19:43:15Z)
Mutation Testing via Iterative Large Language Model-Driven Scientific Debugging [10.334617290353192]
我々は,Large Language Models (LLM) が変異体に対するテストを生成する上で,科学的計算が有効かどうかを評価する。 LLMは、より良い障害検出とカバレッジを持つテストを生成する上で、Pynguinを一貫して上回っている。重要なことは、テストケースの反復的な改善が高品質なテストスイートを実現する上で重要であるということだ。
論文参考訳（メタデータ） (2025-03-11T08:47:13Z)
EquiBench: Benchmarking Large Language Models' Understanding of Program Semantics via Equivalence Checking [55.81461218284736]
EquiBenchは、大規模言語モデル(LLM)を評価するための新しいベンチマークである。 2つのプログラムが全ての可能な入力に対して同一の出力を生成するかどうかを決定する。 19の最先端LCMを評価し、最高の精度は63.8%と76.2%であり、これは50%のランダムベースラインよりわずかに高い。
論文参考訳（メタデータ） (2025-02-18T02:54:25Z)
Toward Automated Validation of Language Model Synthesized Test Cases using Semantic Entropy [0.5057850174013127]
現代の大規模言語モデル(LLM)ベースのプログラミングエージェントは、しばしば、生成されたコードを洗練するためにテスト実行フィードバックに依存する。本稿では,LLMが生成したテストケースの自動検証にセマンティックエントロピーを利用する新しいフレームワークVALTESTを紹介する。 VALTESTはテストの妥当性を最大29%向上し、パス@1スコアの大幅な増加によって証明されたコード生成のパフォーマンスが向上することを示している。
論文参考訳（メタデータ） (2024-11-13T00:07:32Z)
Likelihood as a Performance Gauge for Retrieval-Augmented Generation [78.28197013467157]
言語モデルの性能の効果的な指標としての可能性を示す。提案手法は,より優れた性能をもたらすプロンプトの選択と構築のための尺度として,疑似可能性を利用する2つの手法を提案する。
論文参考訳（メタデータ） (2024-11-12T13:14:09Z)
Localizing Factual Inconsistencies in Attributable Text Generation [91.981439746404]
本稿では,帰属可能なテキスト生成における事実の不整合をローカライズするための新しい形式であるQASemConsistencyを紹介する。まず,人間のアノテーションに対するQASemConsistency法の有効性を示す。そこで我々は,局所的な事実の不整合を自動的に検出するいくつかの手法を実装した。
論文参考訳（メタデータ） (2024-10-09T22:53:48Z)
SYNTHEVAL: Hybrid Behavioral Testing of NLP Models with Synthetic CheckLists [59.08999823652293]
我々は,NLPモデルの包括的評価のために,SyntheVALを提案する。最後の段階では、人間の専門家が困難な例を調査し、手動でテンプレートを設計し、タスク固有のモデルが一貫して示す障害の種類を特定します。我々は、感情分析と有害言語検出という2つの分類課題にSynTHEVALを適用し、これらの課題における強力なモデルの弱点を特定するのに、我々のフレームワークが有効であることを示す。
論文参考訳（メタデータ） (2024-08-30T17:41:30Z)
Automatic Generation of Behavioral Test Cases For Natural Language Processing Using Clustering and Prompting [6.938766764201549]
本稿では,大規模言語モデルと統計的手法の力を活用したテストケースの自動開発手法を提案する。 4つの異なる分類アルゴリズムを用いて行動テストプロファイルを分析し、それらのモデルの限界と強みについて議論する。
論文参考訳（メタデータ） (2024-07-31T21:12:21Z)
Benchmarking Uncertainty Quantification Methods for Large Language Models with LM-Polygraph [83.90988015005934]
不確実性定量化(英: Uncertainty Quantification、UQ)は、機械学習(ML)アプリケーションにおいて重要なコンポーネントである。最新のUQベースラインの集合を実装した新しいベンチマークを導入する。我々は、9つのタスクにわたるUQと正規化技術に関する大規模な実証的研究を行い、最も有望なアプローチを特定した。
論文参考訳（メタデータ） (2024-06-21T20:06:31Z)
LLM-Powered Test Case Generation for Detecting Tricky Bugs [30.82169191775785]
AIDは、少なくとも正しいプログラムをターゲットにしたテスト入力とオラクルを生成する。 TrickyBugs と EvalPlus の2つの大規模データセットに対する AID の評価を行った。その結果,AIDのリコール,精度,F1スコアは,それぞれ1.80x,2.65x,1.66xに優れていた。
論文参考訳（メタデータ） (2024-04-16T06:20:06Z)
Code-Aware Prompting: A study of Coverage Guided Test Generation in Regression Setting using LLM [32.44432906540792]
テスト生成における大規模言語モデルのコード認識促進戦略であるSymPromptを提案する。 SymPromptは、正しいテスト世代を5倍に増やし、CodeGen2の相対カバレッジを26%向上させる。特に、GPT-4に適用すると、SymPromptはベースラインのプロンプト戦略に比べて2倍以上のカバレッジが向上する。
論文参考訳（メタデータ） (2024-01-31T18:21:49Z)
Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文参考訳（メタデータ） (2023-10-09T07:27:15Z)
Reranking for Natural Language Generation from Logical Forms: A Study based on Large Language Models [47.08364281023261]
大規模言語モデル(LLM)は、自然言語生成において印象的な能力を示している。しかし、それらの出力品質は矛盾する可能性があり、論理形式(LF)から自然言語を生成する上での課題を提起する。
論文参考訳（メタデータ） (2023-09-21T17:54:58Z)
Zero-Shot Cross-lingual Semantic Parsing [56.95036511882921]
7つのテスト言語に対する並列データを持たないゼロショット問題として,言語間セマンティックパーシングについて検討した。英文論理形式ペアデータのみを用いて解析知識を付加言語に転送するマルチタスクエンコーダデコーダモデルを提案する。このシステムは、ゼロショット解析を潜時空間アライメント問題としてフレーム化し、事前訓練されたモデルを改善し、最小のクロスリンガル転送ペナルティで論理形式を生成することができる。
論文参考訳（メタデータ） (2021-04-15T16:08:43Z)
Language Models are Few-Shot Learners [61.36677350504291]
言語モデルのスケールアップにより、タスクに依存しない、少数ショットのパフォーマンスが大幅に向上することを示す。我々は、1750億のパラメータを持つ自動回帰言語モデルであるGPT-3を訓練し、その性能を数ショットでテストする。 GPT-3は、翻訳、質問応答、クローズタスクを含む多くのNLPデータセットで高いパフォーマンスを達成する。
論文参考訳（メタデータ） (2020-05-28T17:29:03Z)
Beyond Accuracy: Behavioral Testing of NLP models with CheckList [66.42971817954806]
CheckList は NLP モデルをテストするためのタスクに依存しない方法論である。 CheckListには、包括的なテストのアイデアを促進する一般的な言語機能とテストタイプのマトリックスが含まれている。ユーザスタディでは、CheckListのNLP実践者が2倍の数のテストを作成し、それのないユーザの約3倍のバグを発見しました。
論文参考訳（メタデータ） (2020-05-08T15:48:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。