論文の概要: DLLens: Testing Deep Learning Libraries via LLM-aided Synthesis
- arxiv url: http://arxiv.org/abs/2406.07944v1
- Date: Wed, 12 Jun 2024 07:06:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-13 18:05:32.511746
- Title: DLLens: Testing Deep Learning Libraries via LLM-aided Synthesis
- Title(参考訳): DLLens: LLM支援合成によるディープラーニングライブラリのテスト
- Authors: Meiziniu Li, Dongze Li, Jianmeng Liu, Jialun Cao, Yongqiang Tian, Shing-Chi Cheung,
- Abstract要約: テストは、ディープラーニング(DL)ライブラリの品質を保証するための主要なアプローチである。
既存のテスト技術では、テストオラクルの構築を緩和するために差分テストを採用するのが一般的である。
本稿では,DLライブラリテストのための新しい差分試験手法であるシーレンスを紹介する。
- 参考スコア(独自算出の注目度): 8.779035160734523
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Testing is a major approach to ensuring the quality of deep learning (DL) libraries. Existing testing techniques commonly adopt differential testing to relieve the need for test oracle construction. However, these techniques are limited in finding implementations that offer the same functionality and generating diverse test inputs for differential testing. This paper introduces DLLens, a novel differential testing technique for DL library testing. Our insight is that APIs in different DL libraries are commonly designed to accomplish various computations for the same set of published DL algorithms. Although the mapping of these APIs is not often one-to-one, we observe that their computations can be mutually simulated after proper composition and adaptation. The use of these simulation counterparts facilitates differential testing for the detection of functional DL library bugs. Leveraging the insight, we propose DLLens as a novel mechanism that utilizes a large language model (LLM) to synthesize valid counterparts of DL library APIs. To generate diverse test inputs, DLLens incorporates a static analysis method aided by LLM to extract path constraints from all execution paths in each API and its counterpart's implementations. These path constraints are then used to guide the generation of diverse test inputs. We evaluate DLLens on two popular DL libraries, TensorFlow and PyTorch. Our evaluation shows that DLLens can synthesize counterparts for more than twice as many APIs found by state-of-the-art techniques on these libraries. Moreover, DLLens can extract 26.7% more constraints and detect 2.5 times as many bugs as state-of-the-art techniques. DLLens has successfully found 56 bugs in recent TensorFlow and PyTorch libraries. Among them, 41 are previously unknown, 39 of which have been confirmed by developers after reporting, and 19 of those confirmed bugs have been fixed by developers.
- Abstract(参考訳): テストは、ディープラーニング(DL)ライブラリの品質を保証するための主要なアプローチである。
既存のテスト技術では、テストオラクルの構築を緩和するために差分テストを採用するのが一般的である。
しかし、これらのテクニックは、同じ機能を提供し、差分テストのために多様なテストインプットを生成する実装を見つけることに限られている。
本稿では,DLライブラリテストのための新しい差分テスト手法であるDLLensを紹介する。
我々の洞察では、異なるDLライブラリのAPIは、一般的に、発行されたDLアルゴリズムと同じセットに対して様々な計算を行うように設計されている。
これらのAPIのマッピングは1対1ではないことが多いが、適切な構成と適応の後に、それらの計算を相互にシミュレートできることが観察されている。
これらのシミュレーションは、機能的なDLライブラリのバグを検出するための差分テストを容易にする。
そこで我々は,DLLensを大規模言語モデル(LLM)を用いて,DLライブラリAPIの有効な実装を合成する機構として提案する。
多様なテストインプットを生成するため、DLLensはLLMが支援する静的解析手法を導入し、各APIとその実装のすべての実行パスからパス制約を抽出する。
これらのパス制約は、様々なテストインプットの生成を導くのに使用される。
TensorFlowとPyTorchの2つの人気のあるDLライブラリ上でDLLensを評価する。
評価の結果,DLLensは,これらのライブラリの最先端技術による2倍以上のAPIを合成できることがわかった。
さらに、DLLensは26.7%の制約を抽出し、最先端技術の2.5倍のバグを検出することができる。
DLLensは最近のTensorFlowとPyTorchライブラリで56のバグを発見した。
その中の41は以前不明であり、そのうち39は報告後に開発者によって確認され、19は開発者が修正した。
関連論文リスト
- LlamaRestTest: Effective REST API Testing with Small Language Models [50.058600784556816]
LlamaRestTestは、2つのカスタムLCMを使って現実的なテストインプットを生成する新しいアプローチである。
LlamaRestTestは、RESTGPTで強化された仕様でさえ、コードカバレッジとエラー検出において最先端のツールを上回っている。
論文 参考訳(メタデータ) (2025-01-15T05:51:20Z) - Your Fix Is My Exploit: Enabling Comprehensive DL Library API Fuzzing with Large Language Models [49.214291813478695]
AIアプリケーションで広く使用されているディープラーニング(DL)ライブラリは、オーバーフローやバッファフリーエラーなどの脆弱性を含むことが多い。
従来のファジィングはDLライブラリの複雑さとAPIの多様性に悩まされている。
DLライブラリのためのLLM駆動ファジィ手法であるDFUZZを提案する。
論文 参考訳(メタデータ) (2025-01-08T07:07:22Z) - LLM Based Input Space Partitioning Testing for Library APIs [13.070272424794744]
ライブラリAPIテストのための LLM ベースの入力空間分割テスト手法 LISP を提案する。
LISPを10の人気のあるオープンソースJavaライブラリから抽出した2,205以上のライブラリAPIメソッドで評価する。
平均して、LISPは67.82%のブランチカバレッジを獲得し、EvoSuiteを1.21倍上回っている。
論文 参考訳(メタデータ) (2024-12-15T17:50:50Z) - Subgraph-Oriented Testing for Deep Learning Libraries [9.78188667672054]
我々は,異なるハードウェアプラットフォーム上でディープラーニング(DL)ライブラリをテストするためのSORT(Subgraph-Oriented Realistic Testing)を提案する。
SORTは、テスト対象として、しばしばモデルグラフのサブグラフとして表現される、人気のあるAPIインタラクションパターンを採用している。
SORTは100%有効な入力生成率を実現し、既存のメソッドよりも精度の高いバグを検出し、シングルAPIテストで欠落したインタラクション関連のバグを明らかにする。
論文 参考訳(メタデータ) (2024-12-09T12:10:48Z) - ExploraCoder: Advancing code generation for multiple unseen APIs via planning and chained exploration [70.26807758443675]
ExploraCoderはトレーニング不要のフレームワークで、大規模な言語モデルにコードソリューションで見えないAPIを呼び出す権限を与える。
ExploraCoderは,事前のAPI知識を欠いたモデルのパフォーマンスを著しく向上させ,NAGアプローチの11.24%,pass@10の事前トレーニングメソッドの14.07%を絶対的に向上させることを示す。
論文 参考訳(メタデータ) (2024-12-06T19:00:15Z) - Commit0: Library Generation from Scratch [77.38414688148006]
Commit0は、AIエージェントにスクラッチからライブラリを書くよう促すベンチマークである。
エージェントには、ライブラリのAPIを概説する仕様文書と、インタラクティブなユニットテストスイートが提供されている。
Commit0はまた、モデルが生成したコードに対して静的解析と実行フィードバックを受け取る、インタラクティブな環境も提供する。
論文 参考訳(メタデータ) (2024-12-02T18:11:30Z) - Model Equality Testing: Which Model Is This API Serving? [59.005869726179455]
2サンプルテスト問題であるモデル品質テストのような歪みの検出を形式化する。
単純な文字列カーネル上に構築されたテストは、歪みの範囲に対して77.4%の中央値を達成する。
次に、このテストを4つのLlamaモデルの商用推論APIに適用し、31のエンドポイントのうち11がMetaがリリースしたリファレンスウェイトとは異なる分布を提供することがわかった。
論文 参考訳(メタデータ) (2024-10-26T18:34:53Z) - A Tale of Two DL Cities: When Library Tests Meet Compiler [12.751626834965231]
DLライブラリのテスト入力からドメイン知識を抽出するOPERAを提案する。
OPERAはDLライブラリの様々なテストインプットから様々なテストを構築する。
多様性に基づくテストの優先順位付け戦略を取り入れて、これらのテストインプットを移行し実行します。
論文 参考訳(メタデータ) (2024-07-23T16:35:45Z) - torchgfn: A PyTorch GFlowNet library [56.071033896777784]
torchgfnはPyTorchライブラリで、このニーズに対処することを目指している。
環境のためのシンプルなAPIと、サンプルと損失のための有用な抽象化を提供する。
論文 参考訳(メタデータ) (2023-05-24T00:20:59Z) - MEMO: Coverage-guided Model Generation For Deep Learning Library Testing [11.263121366956726]
テスト入力としてDLモデルを生成することによって、ディープラーニング(DL)ライブラリをテストするためのいくつかの技術が提案されている。
しかし、これらの手法のテストの有効性は、生成されたDLモデルの多様性によって制約される。
本稿では,レイヤタイプ,層ペア,層パラメータを探索することにより,多様なDLモデルを効率的に生成するMEMOを提案する。
論文 参考訳(メタデータ) (2022-08-02T14:53:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。