Fugu-MT 論文翻訳(概要): AutoTestForge: A Multidimensional Automated Testing Framework for Natural Language Processing Models

論文の概要: AutoTestForge: A Multidimensional Automated Testing Framework for Natural Language Processing Models

arxiv url: http://arxiv.org/abs/2503.05102v1
Date: Fri, 07 Mar 2025 02:44:17 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-10 19:13:14.859617
Title: AutoTestForge: A Multidimensional Automated Testing Framework for Natural Language Processing Models
Title（参考訳）: AutoTestForge:自然言語処理モデルのための多次元自動テストフレームワーク
Authors: Hengrui Xing, Cong Tian, Liang Zhao, Zhi Ma, WenSheng Wang, Nan Zhang, Chao Huang, Zhenhua Duan,
Abstract要約: NLPモデルの自動化および多次元テストフレームワークであるAutoTestForgeを紹介する。 AutoTestForge内では、テストテンプレートを自動的に生成してインスタンス化するLarge Language Models(LLM)の利用により、手作業による関与が大幅に削減される。また、このフレームワークは、分類学、公正性、堅牢性の3つの側面にまたがってテストスイートを拡張し、NLPモデルの能力を総合的に評価する。
参考スコア（独自算出の注目度）: 11.958545255487735
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In recent years, the application of behavioral testing in Natural Language Processing (NLP) model evaluation has experienced a remarkable and substantial growth. However, the existing methods continue to be restricted by the requirements for manual labor and the limited scope of capability assessment. To address these limitations, we introduce AutoTestForge, an automated and multidimensional testing framework for NLP models in this paper. Within AutoTestForge, through the utilization of Large Language Models (LLMs) to automatically generate test templates and instantiate them, manual involvement is significantly reduced. Additionally, a mechanism for the validation of test case labels based on differential testing is implemented which makes use of a multi-model voting system to guarantee the quality of test cases. The framework also extends the test suite across three dimensions, taxonomy, fairness, and robustness, offering a comprehensive evaluation of the capabilities of NLP models. This expansion enables a more in-depth and thorough assessment of the models, providing valuable insights into their strengths and weaknesses. A comprehensive evaluation across sentiment analysis (SA) and semantic textual similarity (STS) tasks demonstrates that AutoTestForge consistently outperforms existing datasets and testing tools, achieving higher error detection rates (an average of $30.89\%$ for SA and $34.58\%$ for STS). Moreover, different generation strategies exhibit stable effectiveness, with error detection rates ranging from $29.03\% - 36.82\%$.
Abstract（参考訳）: 近年,自然言語処理(NLP)モデル評価における行動検査の適用は,顕著かつ顕著な成長を遂げている。しかし、既存の手法は、手作業の要件や能力評価の限界によって制限され続けている。これらの制約に対処するため,本稿では,NLPモデルの自動化および多次元テストフレームワークであるAutoTestForgeを紹介する。 AutoTestForge内では、テストテンプレートを自動的に生成してインスタンス化するLarge Language Models(LLM)の利用により、手作業による関与が大幅に削減される。さらに、テストケースの品質を保証するために、多モデル投票システムを利用する差分テストに基づくテストケースラベルの検証機構を実装した。また、このフレームワークは、分類学、公正性、堅牢性の3つの側面にまたがってテストスイートを拡張し、NLPモデルの能力を総合的に評価する。この拡張により、モデルのより深く、徹底的な評価が可能になり、その強みと弱みに関する貴重な洞察を提供する。感情分析(SA)とセマンティックテキスト類似性(STS)タスクの総合的な評価は、AutoTestForgeが既存のデータセットやテストツールを一貫して上回り、より高いエラー検出率(SAが30.89 %、STSが34.58 %)を達成することを示している。さらに、異なる生成戦略は安定した有効性を示し、エラー検出率は29.03\%から36.82\%$まで様々である。

関連論文リスト

AutoLogi: Automated Generation of Logic Puzzles for Evaluating Reasoning Abilities of Large Language Models [86.83875864328984]
本稿では,オープンエンド論理パズルを自動合成する手法を提案し,それをバイリンガルベンチマークであるAutoLogiの開発に利用する。提案手法は,プログラムベースの検証と制御可能な難易度を特徴とし,モデルの推論能力をよりよく区別する信頼性の高い評価を可能にする。
論文参考訳（メタデータ） (2025-02-24T07:02:31Z)
VALTEST: Automated Validation of Language Model Generated Test Cases [0.7059472280274008]
大規模言語モデル(LLM)は、ソフトウェアテストの自動化、特に単体テストケースの生成において大きな可能性を証明している。本稿では,トークンの確率を利用してLLMが生成したテストケースを自動的に検証する新しいフレームワークVALTESTを紹介する。
論文参考訳（メタデータ） (2024-11-13T00:07:32Z)
Context-Aware Testing: A New Paradigm for Model Testing with Large Language Models [49.06068319380296]
我々は,コンテキストを帰納バイアスとして用いて意味のあるモデル障害を探索するコンテキスト認識テスト(CAT)を導入する。最初のCATシステムSMART Testingをインスタンス化し、大きな言語モデルを用いて、関連性があり、起こりうる失敗を仮説化します。
論文参考訳（メタデータ） (2024-10-31T15:06:16Z)
ASTER: Natural and Multi-language Unit Test Generation with LLMs [6.259245181881262]
静的解析を組み込んだジェネリックパイプラインを記述し,コンパイル可能な高カバレッジテストケースの生成においてLCMをガイドする。コードカバレッジとテスト自然性の観点から,生成したテストの品質を評価するための実証的研究を行った。
論文参考訳（メタデータ） (2024-09-04T21:46:18Z)
SYNTHEVAL: Hybrid Behavioral Testing of NLP Models with Synthetic CheckLists [59.08999823652293]
我々は,NLPモデルの包括的評価のために,SyntheVALを提案する。最後の段階では、人間の専門家が困難な例を調査し、手動でテンプレートを設計し、タスク固有のモデルが一貫して示す障害の種類を特定します。我々は、感情分析と有害言語検出という2つの分類課題にSynTHEVALを適用し、これらの課題における強力なモデルの弱点を特定するのに、我々のフレームワークが有効であることを示す。
論文参考訳（メタデータ） (2024-08-30T17:41:30Z)
A System for Automated Unit Test Generation Using Large Language Models and Assessment of Generated Test Suites [1.4563527353943984]
大規模言語モデル(LLM)はソフトウェア開発の様々な側面に適用されている。 Javaプロジェクトのテストスイートを生成する自動化システムであるAgoneTestを紹介します。
論文参考訳（メタデータ） (2024-08-14T23:02:16Z)
Automatic Generation of Behavioral Test Cases For Natural Language Processing Using Clustering and Prompting [6.938766764201549]
本稿では,大規模言語モデルと統計的手法の力を活用したテストケースの自動開発手法を提案する。 4つの異なる分類アルゴリズムを用いて行動テストプロファイルを分析し、それらのモデルの限界と強みについて議論する。
論文参考訳（メタデータ） (2024-07-31T21:12:21Z)
Can You Rely on Your Model Evaluation? Improving Model Evaluation with Synthetic Test Data [75.20035991513564]
本稿では,モデル評価を容易にする深層生成モデリングフレームワークである3Sテストを紹介する。私たちの実験では、3Sテストが従来のベースラインより優れていることが示されています。これらの結果は、限られた実テストデータから合成テストデータへのパラダイムシフトが必要かどうかという問題を提起する。
論文参考訳（メタデータ） (2023-10-25T10:18:44Z)
From Static Benchmarks to Adaptive Testing: Psychometrics in AI Evaluation [60.14902811624433]
本稿では,静的評価手法から適応テストへのパラダイムシフトについて論じる。これには、ベンチマークで各テスト項目の特性と価値を推定し、リアルタイムでアイテムを動的に調整することが含まれる。我々は、AI評価にサイコメトリックを採用する現在のアプローチ、アドバンテージ、そして根底にある理由を分析します。
論文参考訳（メタデータ） (2023-06-18T09:54:33Z)
Active Testing: Sample-Efficient Model Evaluation [39.200332879659456]
サンプル効率のよいモデル評価のための新しいフレームワークであるactive testingを紹介する。アクティブテストは、ラベルにテストポイントを慎重に選択することでこれに対処する。我々は,推定器のばらつきを低減しつつ,バイアスの除去方法を示す。
論文参考訳（メタデータ） (2021-03-09T10:20:49Z)
Beyond Accuracy: Behavioral Testing of NLP models with CheckList [66.42971817954806]
CheckList は NLP モデルをテストするためのタスクに依存しない方法論である。 CheckListには、包括的なテストのアイデアを促進する一般的な言語機能とテストタイプのマトリックスが含まれている。ユーザスタディでは、CheckListのNLP実践者が2倍の数のテストを作成し、それのないユーザの約3倍のバグを発見しました。
論文参考訳（メタデータ） (2020-05-08T15:48:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。