論文の概要: Intergenerational Test Generation for Natural Language Processing
Applications
- arxiv url: http://arxiv.org/abs/2302.10499v2
- Date: Sat, 29 Jul 2023 02:12:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 13:16:55.816708
- Title: Intergenerational Test Generation for Natural Language Processing
Applications
- Title(参考訳): 自然言語処理のための世代間テスト生成
- Authors: Pin Ji, Yang Feng, Weitao Huang, Jia Liu, Zhihong Zhao
- Abstract要約: 各種NLPアプリケーションの誤動作を検出する自動テスト生成手法を提案する。
この手法をNLPLegoに実装し、シード文の可能性を完全に活用する。
NLPLegoは3つのタスクで約95.7%の精度で1,732, 5301, 261,879の誤った行動を検出することに成功した。
- 参考スコア(独自算出の注目度): 16.63835131985415
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The development of modern NLP applications often relies on various benchmark
datasets containing plenty of manually labeled tests to evaluate performance.
While constructing datasets often costs many resources, the performance on the
held-out data may not properly reflect their capability in real-world
application scenarios and thus cause tremendous misunderstanding and monetary
loss. To alleviate this problem, in this paper, we propose an automated test
generation method for detecting erroneous behaviors of various NLP
applications. Our method is designed based on the sentence parsing process of
classic linguistics, and thus it is capable of assembling basic grammatical
elements and adjuncts into a grammatically correct test with proper oracle
information. We implement this method into NLPLego, which is designed to fully
exploit the potential of seed sentences to automate the test generation.
NLPLego disassembles the seed sentence into the template and adjuncts and then
generates new sentences by assembling context-appropriate adjuncts with the
template in a specific order. Unlike the taskspecific methods, the tests
generated by NLPLego have derivation relations and different degrees of
variation, which makes constructing appropriate metamorphic relations easier.
Thus, NLPLego is general, meaning it can meet the testing requirements of
various NLP applications. To validate NLPLego, we experiment with three common
NLP tasks, identifying failures in four state-of-art models. Given seed tests
from SQuAD 2.0, SST, and QQP, NLPLego successfully detects 1,732, 5301, and
261,879 incorrect behaviors with around 95.7% precision in three tasks,
respectively.
- Abstract(参考訳): 現代のNLPアプリケーションの開発は、パフォーマンスを評価するために、多くの手動でラベル付けされたテストを含む様々なベンチマークデータセットに依存することが多い。
データセットの構築には多くのリソースが費やされることが多いが、保持されたデータのパフォーマンスは実際のアプリケーションシナリオでその能力を適切に反映していないため、大きな誤解と金銭的損失を引き起こす可能性がある。
そこで本研究では,様々なNLPアプリケーションの誤動作を検出する自動テスト生成手法を提案する。
本手法は,古典言語学の文解析プロセスに基づいて設計されており,基本的な文法的要素や副詞を適切なオラクル情報で文法的に正しいテストに組み込むことができる。
この手法をNLPLegoに実装し、テスト生成を自動化するためにシード文の可能性を完全に活用する。
NLPLegoは、シード文をテンプレートとアジュネートに分解し、特定の順序でコンテキストに適したアジュネートを組み立てることで新しい文を生成する。
タスク固有の方法とは異なり、NLPLegoによって生成されたテストは導出関係と変分度が異なるため、適切なメタモルフィック関係の構築が容易になる。
したがって、NLPLegoは一般的なもので、様々なNLPアプリケーションのテスト要件を満たすことができる。
NLPLegoを検証するために、我々は4つの最先端モデルにおける失敗を識別する3つの共通NLPタスクを実験した。
SQuAD 2.0、SST、QQPのシードテストにより、NLPLegoは3つのタスクでそれぞれ95.7%の精度で1,732, 5301, 261,879の不正な振る舞いを検知した。
関連論文リスト
- Code-Aware Prompting: A study of Coverage Guided Test Generation in
Regression Setting using LLM [34.07127332725332]
テスト生成における大規模言語モデルのコード認識促進戦略であるSymPromptを提案する。
我々のアプローチは、事前訓練されたLLMが、追加の訓練をすることなく、より完全なテストケースを生成することを可能にする。
論文 参考訳(メタデータ) (2024-01-31T18:21:49Z) - Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。
我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。
実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文 参考訳(メタデータ) (2023-10-09T07:27:15Z) - Reranking for Natural Language Generation from Logical Forms: A Study
based on Large Language Models [47.08364281023261]
大規模言語モデル(LLM)は、自然言語生成において印象的な能力を示している。
しかし、それらの出力品質は矛盾する可能性があり、論理形式(LF)から自然言語を生成する上での課題を提起する。
論文 参考訳(メタデータ) (2023-09-21T17:54:58Z) - Coupling Large Language Models with Logic Programming for Robust and
General Reasoning from Text [5.532477732693001]
大規模言語モデルは, 意味論的に非常に効果的な数ショットとして機能することを示す。
自然言語文を論理形式に変換し、応答集合プログラムの入力として機能する。
本手法は,bAbI, StepGame, CLUTRR, gSCAN など,いくつかのベンチマークにおいて最先端性能を実現する。
論文 参考訳(メタデータ) (2023-07-15T03:29:59Z) - Recitation-Augmented Language Models [85.30591349383849]
知識集約型NLPタスクにおいて,RECITEは強力なパラダイムであることを示す。
具体的には、リサイクリングを中間ステップとして活用することにより、新しい最先端性能を実現することができることを示す。
論文 参考訳(メタデータ) (2022-10-04T00:49:20Z) - AEON: A Method for Automatic Evaluation of NLP Test Cases [37.71980769922552]
AEONを用いて、典型的な3つのNLPタスクにわたる5つのデータセット上で4つの一般的なテスト手法によって生成されたテストケースを評価する。
AEONは、セマンティックな不整合テストケースの検出において、最高の平均精度を達成し、最高のベースラインメトリックを10%上回る。
AEONはまた、不自然なテストケースを見つけるための平均的な精度も高く、ベースラインを15%以上越えている。
論文 参考訳(メタデータ) (2022-05-13T03:47:13Z) - Zero-Shot Cross-lingual Semantic Parsing [56.95036511882921]
7つのテスト言語に対する並列データを持たないゼロショット問題として,言語間セマンティックパーシングについて検討した。
英文論理形式ペアデータのみを用いて解析知識を付加言語に転送するマルチタスクエンコーダデコーダモデルを提案する。
このシステムは、ゼロショット解析を潜時空間アライメント問題としてフレーム化し、事前訓練されたモデルを改善し、最小のクロスリンガル転送ペナルティで論理形式を生成することができる。
論文 参考訳(メタデータ) (2021-04-15T16:08:43Z) - Language Models are Few-Shot Learners [61.36677350504291]
言語モデルのスケールアップにより、タスクに依存しない、少数ショットのパフォーマンスが大幅に向上することを示す。
我々は、1750億のパラメータを持つ自動回帰言語モデルであるGPT-3を訓練し、その性能を数ショットでテストする。
GPT-3は、翻訳、質問応答、クローズタスクを含む多くのNLPデータセットで高いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-05-28T17:29:03Z) - Beyond Accuracy: Behavioral Testing of NLP models with CheckList [66.42971817954806]
CheckList は NLP モデルをテストするためのタスクに依存しない方法論である。
CheckListには、包括的なテストのアイデアを促進する一般的な言語機能とテストタイプのマトリックスが含まれている。
ユーザスタディでは、CheckListのNLP実践者が2倍の数のテストを作成し、それのないユーザの約3倍のバグを発見しました。
論文 参考訳(メタデータ) (2020-05-08T15:48:31Z) - Probing the Natural Language Inference Task with Automated Reasoning
Tools [6.445605125467574]
自然言語推論(NLI)タスクは、現在のNLPにおいて重要なタスクである。
我々はNLIタスクの論理構造を調べるために他の手法を用いる。
我々は、機械指向の自然言語がNLI文のパースにどの程度うまく利用できるか、また、自動定理証明器が結果の式に対していかにうまく推論できるかを示す。
論文 参考訳(メタデータ) (2020-05-06T03:18:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。