論文の概要: ACETest: Automated Constraint Extraction for Testing Deep Learning
Operators
- arxiv url: http://arxiv.org/abs/2305.17914v2
- Date: Sun, 4 Jun 2023 04:01:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 05:18:16.596059
- Title: ACETest: Automated Constraint Extraction for Testing Deep Learning
Operators
- Title(参考訳): ACETest:ディープラーニングオペレータのテストのための制約自動抽出
- Authors: Jingyi Shi, Yang Xiao, Yuekang Li, Yeting Li, Dongsong Yu, Chendong
Yu, Hui Su, Yufeng Chen, Wei Huo
- Abstract要約: テストケースが入力妥当性チェックをパスし、演算子のコア関数ロジックに到達できることが不可欠である。
既存のテクニックは、制約を抽出するために、DLライブラリAPIの人的努力またはドキュメントに依存する。
本研究では,コードから入力検証制約を自動的に抽出し,有効かつ多様なテストケースを構築する技術であるACETestを提案する。
- 参考スコア(独自算出の注目度): 23.129431525952263
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep learning (DL) applications are prevalent nowadays as they can help with
multiple tasks. DL libraries are essential for building DL applications.
Furthermore, DL operators are the important building blocks of the DL
libraries, that compute the multi-dimensional data (tensors). Therefore, bugs
in DL operators can have great impacts. Testing is a practical approach for
detecting bugs in DL operators. In order to test DL operators effectively, it
is essential that the test cases pass the input validity check and are able to
reach the core function logic of the operators. Hence, extracting the input
validation constraints is required for generating high-quality test cases.
Existing techniques rely on either human effort or documentation of DL library
APIs to extract the constraints. They cannot extract complex constraints and
the extracted constraints may differ from the actual code implementation.
To address the challenge, we propose ACETest, a technique to automatically
extract input validation constraints from the code to build valid yet diverse
test cases which can effectively unveil bugs in the core function logic of DL
operators. For this purpose, ACETest can automatically identify the input
validation code in DL operators, extract the related constraints and generate
test cases according to the constraints. The experimental results on popular DL
libraries, TensorFlow and PyTorch, demonstrate that ACETest can extract
constraints with higher quality than state-of-the-art (SOTA) techniques.
Moreover, ACETest is capable of extracting 96.4% more constraints and detecting
1.95 to 55 times more bugs than SOTA techniques. In total, we have used ACETest
to detect 108 previously unknown bugs on TensorFlow and PyTorch, with 87 of
them confirmed by the developers. Lastly, five of the bugs were assigned with
CVE IDs due to their security impacts.
- Abstract(参考訳): ディープラーニング(DL)アプリケーションは、最近は複数のタスクに役立ちます。
DLライブラリはDLアプリケーションを構築するのに不可欠である。
さらに、DL演算子は多次元データ(テンソル)を演算するDLライブラリの重要な構成要素である。
したがって、dlオペレータのバグは大きな影響を与える可能性がある。
テストはdlオペレータのバグを検出するための実用的なアプローチである。
DL演算子を効果的にテストするためには、テストケースが入力妥当性チェックをパスし、演算子のコア関数ロジックに到達できることが不可欠である。
したがって、高品質なテストケースを生成するには、入力検証制約を抽出する必要がある。
既存のテクニックは、制約を抽出するためにDLライブラリAPIの人的努力またはドキュメントに依存する。
それらは複雑な制約を抽出できず、抽出された制約は実際のコード実装と異なる可能性がある。
この課題に対処するため,コードから入力検証制約を自動的に抽出して,多種多様なテストケースを構築する手法であるACETestを提案し,DL演算子のコア関数ロジックのバグを効果的に露呈する。
この目的でacetestは、dlオペレータの入力検証コードを自動的に識別し、関連する制約を抽出し、制約に従ってテストケースを生成する。
人気のDLライブラリであるTensorFlowとPyTorchの実験結果は、ACETestが最先端(SOTA)技術よりも高い品質の制約を抽出できることを実証している。
さらにACETestは96.4%の制約を抽出し、SOTAテクニックの1.95から55倍のバグを検出することができる。
私たちはacetestを使って、tensorflowとpytorchでこれまで知られていなかった108のバグを検出しました。
最後に、セキュリティ上の影響により5つのバグがCVE IDに割り当てられた。
関連論文リスト
- A Tale of Two DL Cities: When Library Tests Meet Compiler [12.751626834965231]
DLライブラリのテスト入力からドメイン知識を抽出するOPERAを提案する。
OPERAはDLライブラリの様々なテストインプットから様々なテストを構築する。
多様性に基づくテストの優先順位付け戦略を取り入れて、これらのテストインプットを移行し実行します。
論文 参考訳(メタデータ) (2024-07-23T16:35:45Z) - CITADEL: Context Similarity Based Deep Learning Framework Bug Finding [36.34154201748415]
既存のディープラーニング(DL)フレームワークテストツールには、バグタイプが限定されている。
我々はCitadelを提案する。Citadelは効率と有効性の観点からバグの発見を高速化する手法だ。
論文 参考訳(メタデータ) (2024-06-18T01:51:16Z) - DLLens: Testing Deep Learning Libraries via LLM-aided Synthesis [8.779035160734523]
テストは、ディープラーニング(DL)ライブラリの品質を保証するための主要なアプローチである。
既存のテスト技術では、テストオラクルの構築を緩和するために差分テストを採用するのが一般的である。
本稿では,DLライブラリテストのための新しい差分試験手法であるシーレンスを紹介する。
論文 参考訳(メタデータ) (2024-06-12T07:06:38Z) - MoCo: Fuzzing Deep Learning Libraries via Assembling Code [13.937180393991616]
ディープラーニング技術は様々なアプリケーションシナリオを持つソフトウェアシステムに応用されている。
DLライブラリはDLシステムの基盤として機能し、その中のバグは予測不可能な影響をもたらす可能性がある。
そこで本研究では,組立コードによるDLライブラリのファジングテスト手法であるMoCoを提案する。
論文 参考訳(メタデータ) (2024-05-13T13:40:55Z) - Active Test-Time Adaptation: Theoretical Analyses and An Algorithm [51.84691955495693]
テスト時間適応(TTA)は、教師なし設定でストリーミングテストデータの分散シフトに対処する。
完全TTA設定内に能動学習を統合する能動テスト時間適応(ATTA)の新たな問題設定を提案する。
論文 参考訳(メタデータ) (2024-04-07T22:31:34Z) - GPT-HateCheck: Can LLMs Write Better Functional Tests for Hate Speech Detection? [50.53312866647302]
HateCheckは、合成データに対してきめ細かいモデル機能をテストするスイートである。
GPT-HateCheckは,スクラッチからより多彩で現実的な機能テストを生成するフレームワークである。
クラウドソースのアノテーションは、生成されたテストケースが高品質であることを示しています。
論文 参考訳(メタデータ) (2024-02-23T10:02:01Z) - Test-Time Self-Adaptive Small Language Models for Question Answering [63.91013329169796]
ラベルのないテストデータのみを用いて、より小さな自己適応型LMの能力を示し、検討する。
提案した自己適応戦略は,ベンチマークQAデータセットの大幅な性能向上を示す。
論文 参考訳(メタデータ) (2023-10-20T06:49:32Z) - CodeT: Code Generation with Generated Tests [49.622590050797236]
テストケースを自動的に生成するための事前学習言語モデルについて検討する。
CodeTは生成されたテストケースを使ってコードソリューションを実行し、次に最良のソリューションを選択します。
我々は,HumanEvalとMBPPのベンチマークを用いて,5種類の事前学習モデル上でCodeTを評価する。
論文 参考訳(メタデータ) (2022-07-21T10:18:37Z) - Auditing AI models for Verified Deployment under Semantic Specifications [65.12401653917838]
AuditAIは、解釈可能な形式検証とスケーラビリティのギャップを埋める。
AuditAIは、画素空間の摂動のみを用いた検証の限界に対処しながら、検証と認定トレーニングのための制御されたバリエーションを得られるかを示す。
論文 参考訳(メタデータ) (2021-09-25T22:53:24Z) - DocTer: Documentation Guided Fuzzing for Testing Deep Learning API
Functions [16.62942039883249]
DocTerを使ってAPIドキュメントを分析し、ディープラーニング(DL)ライブラリのAPI関数の入力制約を抽出します。
DocTerは、API記述の依存性解析ツリーの形式で構文パターンからAPIパラメータ制約を抽出するルールを自動的に構築する、新しいアルゴリズムを備えている。
3つのDLライブラリに対する評価の結果,入力制約抽出におけるDocTerの精度は85.4%であった。
論文 参考訳(メタデータ) (2021-09-02T14:57:36Z) - Beyond Accuracy: Behavioral Testing of NLP models with CheckList [66.42971817954806]
CheckList は NLP モデルをテストするためのタスクに依存しない方法論である。
CheckListには、包括的なテストのアイデアを促進する一般的な言語機能とテストタイプのマトリックスが含まれている。
ユーザスタディでは、CheckListのNLP実践者が2倍の数のテストを作成し、それのないユーザの約3倍のバグを発見しました。
論文 参考訳(メタデータ) (2020-05-08T15:48:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。