Fugu-MT 論文翻訳(概要): DLLens: Testing Deep Learning Libraries via LLM-aided Synthesis

論文の概要: DLLens: Testing Deep Learning Libraries via LLM-aided Synthesis

arxiv url: http://arxiv.org/abs/2406.07944v1
Date: Wed, 12 Jun 2024 07:06:38 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-13 18:05:32.511746
Title: DLLens: Testing Deep Learning Libraries via LLM-aided Synthesis
Title（参考訳）: DLLens: LLM支援合成によるディープラーニングライブラリのテスト
Authors: Meiziniu Li, Dongze Li, Jianmeng Liu, Jialun Cao, Yongqiang Tian, Shing-Chi Cheung,
Abstract要約: テストは、ディープラーニング(DL)ライブラリの品質を保証するための主要なアプローチである。既存のテスト技術では、テストオラクルの構築を緩和するために差分テストを採用するのが一般的である。本稿では,DLライブラリテストのための新しい差分試験手法であるシーレンスを紹介する。
参考スコア（独自算出の注目度）: 8.779035160734523
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Testing is a major approach to ensuring the quality of deep learning (DL) libraries. Existing testing techniques commonly adopt differential testing to relieve the need for test oracle construction. However, these techniques are limited in finding implementations that offer the same functionality and generating diverse test inputs for differential testing. This paper introduces DLLens, a novel differential testing technique for DL library testing. Our insight is that APIs in different DL libraries are commonly designed to accomplish various computations for the same set of published DL algorithms. Although the mapping of these APIs is not often one-to-one, we observe that their computations can be mutually simulated after proper composition and adaptation. The use of these simulation counterparts facilitates differential testing for the detection of functional DL library bugs. Leveraging the insight, we propose DLLens as a novel mechanism that utilizes a large language model (LLM) to synthesize valid counterparts of DL library APIs. To generate diverse test inputs, DLLens incorporates a static analysis method aided by LLM to extract path constraints from all execution paths in each API and its counterpart's implementations. These path constraints are then used to guide the generation of diverse test inputs. We evaluate DLLens on two popular DL libraries, TensorFlow and PyTorch. Our evaluation shows that DLLens can synthesize counterparts for more than twice as many APIs found by state-of-the-art techniques on these libraries. Moreover, DLLens can extract 26.7% more constraints and detect 2.5 times as many bugs as state-of-the-art techniques. DLLens has successfully found 56 bugs in recent TensorFlow and PyTorch libraries. Among them, 41 are previously unknown, 39 of which have been confirmed by developers after reporting, and 19 of those confirmed bugs have been fixed by developers.
Abstract（参考訳）: テストは、ディープラーニング(DL)ライブラリの品質を保証するための主要なアプローチである。既存のテスト技術では、テストオラクルの構築を緩和するために差分テストを採用するのが一般的である。しかし、これらのテクニックは、同じ機能を提供し、差分テストのために多様なテストインプットを生成する実装を見つけることに限られている。本稿では,DLライブラリテストのための新しい差分テスト手法であるDLLensを紹介する。我々の洞察では、異なるDLライブラリのAPIは、一般的に、発行されたDLアルゴリズムと同じセットに対して様々な計算を行うように設計されている。これらのAPIのマッピングは1対1ではないことが多いが、適切な構成と適応の後に、それらの計算を相互にシミュレートできることが観察されている。これらのシミュレーションは、機能的なDLライブラリのバグを検出するための差分テストを容易にする。そこで我々は,DLLensを大規模言語モデル(LLM)を用いて,DLライブラリAPIの有効な実装を合成する機構として提案する。多様なテストインプットを生成するため、DLLensはLLMが支援する静的解析手法を導入し、各APIとその実装のすべての実行パスからパス制約を抽出する。これらのパス制約は、様々なテストインプットの生成を導くのに使用される。 TensorFlowとPyTorchの2つの人気のあるDLライブラリ上でDLLensを評価する。評価の結果,DLLensは,これらのライブラリの最先端技術による2倍以上のAPIを合成できることがわかった。さらに、DLLensは26.7%の制約を抽出し、最先端技術の2.5倍のバグを検出することができる。 DLLensは最近のTensorFlowとPyTorchライブラリで56のバグを発見した。その中の41は以前不明であり、そのうち39は報告後に開発者によって確認され、19は開発者が修正した。

関連論文リスト

LlamaRestTest: Effective REST API Testing with Small Language Models [50.058600784556816]
LlamaRestTestは、2つのLLM(Large Language Models)を使って現実的なテストインプットを生成する新しいアプローチである。私たちは、GPTを使った仕様強化ツールであるRESTGPTなど、最先端のREST APIテストツールに対して、これを評価しています。私たちの研究は、REST APIテストにおいて、小さな言語モデルは、大きな言語モデルと同様に、あるいは、より良く機能することができることを示しています。
論文参考訳（メタデータ） (2025-01-15T05:51:20Z)
Your Fix Is My Exploit: Enabling Comprehensive DL Library API Fuzzing with Large Language Models [49.214291813478695]
AIアプリケーションで広く使用されているディープラーニング(DL)ライブラリは、オーバーフローやバッファフリーエラーなどの脆弱性を含むことが多い。従来のファジィングはDLライブラリの複雑さとAPIの多様性に悩まされている。 DLライブラリのためのLLM駆動ファジィ手法であるDFUZZを提案する。
論文参考訳（メタデータ） (2025-01-08T07:07:22Z)
LLM Based Input Space Partitioning Testing for Library APIs [13.070272424794744]
ライブラリAPIテストのための LLM ベースの入力空間分割テスト手法 LISP を提案する。 LISPを10の人気のあるオープンソースJavaライブラリから抽出した2,205以上のライブラリAPIメソッドで評価する。平均して、LISPは67.82%のブランチカバレッジを獲得し、EvoSuiteを1.21倍上回っている。
論文参考訳（メタデータ） (2024-12-15T17:50:50Z)
Subgraph-Oriented Testing for Deep Learning Libraries [9.78188667672054]
我々は,異なるハードウェアプラットフォーム上でディープラーニング(DL)ライブラリをテストするためのSORT(Subgraph-Oriented Realistic Testing)を提案する。 SORTは、テスト対象として、しばしばモデルグラフのサブグラフとして表現される、人気のあるAPIインタラクションパターンを採用している。 SORTは100%有効な入力生成率を実現し、既存のメソッドよりも精度の高いバグを検出し、シングルAPIテストで欠落したインタラクション関連のバグを明らかにする。
論文参考訳（メタデータ） (2024-12-09T12:10:48Z)
ExploraCoder: Advancing code generation for multiple unseen APIs via planning and chained exploration [70.26807758443675]
ExploraCoderはトレーニング不要のフレームワークで、大規模な言語モデルにコードソリューションで見えないAPIを呼び出す権限を与える。 ExploraCoderは,事前のAPI知識を欠いたモデルのパフォーマンスを著しく向上させ,NAGアプローチの11.24%,pass@10の事前トレーニングメソッドの14.07%を絶対的に向上させることを示す。
論文参考訳（メタデータ） (2024-12-06T19:00:15Z)
Commit0: Library Generation from Scratch [77.38414688148006]
Commit0は、AIエージェントにスクラッチからライブラリを書くよう促すベンチマークである。エージェントには、ライブラリのAPIを概説する仕様文書と、インタラクティブなユニットテストスイートが提供されている。 Commit0はまた、モデルが生成したコードに対して静的解析と実行フィードバックを受け取る、インタラクティブな環境も提供する。
論文参考訳（メタデータ） (2024-12-02T18:11:30Z)
The Seeds of the FUTURE Sprout from History: Fuzzing for Unveiling Vulnerabilities in Prospective Deep-Learning Libraries [14.260990784121423]
Futureは、新しく導入され、将来的なDLライブラリ用に調整された最初のユニバーサルファジィフレームワークである。既存のライブラリからの履歴バグ情報と、特殊なコード生成のための微調整LDMを使用する。バグ検出、バグ再現の成功率、コード生成の妥当性、APIカバレッジにおいて、既存のファジィアよりも大幅に優れています。
論文参考訳（メタデータ） (2024-12-02T09:33:28Z)
Detecting Multi-Parameter Constraint Inconsistencies in Python Data Science Libraries [21.662640566736098]
コードとドキュメンテーションの不整合を検出するためにMPDetectorを提案する。 MPDetectorは、シンボリック実行を通じて実行パスを探索することで、これらの制約をコードレベルで識別する。本研究では,LLM出力の予測不可能性を再現するファジィ制約論理を提案する。
論文参考訳（メタデータ） (2024-11-18T09:30:14Z)
Model Equality Testing: Which Model Is This API Serving? [59.005869726179455]
2サンプルテスト問題であるモデル品質テストのような歪みの検出を形式化する。単純な文字列カーネル上に構築されたテストは、歪みの範囲に対して77.4%の中央値を達成する。次に、このテストを4つのLlamaモデルの商用推論APIに適用し、31のエンドポイントのうち11がMetaがリリースしたリファレンスウェイトとは異なる分布を提供することがわかった。
論文参考訳（メタデータ） (2024-10-26T18:34:53Z)
SYNTHEVAL: Hybrid Behavioral Testing of NLP Models with Synthetic CheckLists [59.08999823652293]
我々は,NLPモデルの包括的評価のために,SyntheVALを提案する。最後の段階では、人間の専門家が困難な例を調査し、手動でテンプレートを設計し、タスク固有のモデルが一貫して示す障害の種類を特定します。我々は、感情分析と有害言語検出という2つの分類課題にSynTHEVALを適用し、これらの課題における強力なモデルの弱点を特定するのに、我々のフレームワークが有効であることを示す。
論文参考訳（メタデータ） (2024-08-30T17:41:30Z)
A Tale of Two DL Cities: When Library Tests Meet Compiler [12.751626834965231]
DLライブラリのテスト入力からドメイン知識を抽出するOPERAを提案する。 OPERAはDLライブラリの様々なテストインプットから様々なテストを構築する。多様性に基づくテストの優先順位付け戦略を取り入れて、これらのテストインプットを移行し実行します。
論文参考訳（メタデータ） (2024-07-23T16:35:45Z)
KAT: Dependency-aware Automated API Testing with Large Language Models [1.7264233311359707]
KAT(Katalon API Testing)は、APIを検証するためのテストケースを自律的に生成する、AI駆動の新たなアプローチである。実世界の12のサービスを用いたKATの評価は、検証カバレッジを改善し、文書化されていないステータスコードを検出し、これらのサービスの偽陽性を低減できることを示している。
論文参考訳（メタデータ） (2024-07-14T14:48:18Z)
ACETest: Automated Constraint Extraction for Testing Deep Learning Operators [23.129431525952263]
テストケースが入力妥当性チェックをパスし、演算子のコア関数ロジックに到達できることが不可欠である。既存のテクニックは、制約を抽出するために、DLライブラリAPIの人的努力またはドキュメントに依存する。本研究では,コードから入力検証制約を自動的に抽出し,有効かつ多様なテストケースを構築する技術であるACETestを提案する。
論文参考訳（メタデータ） (2023-05-29T06:49:40Z)
torchgfn: A PyTorch GFlowNet library [56.071033896777784]
torchgfnはPyTorchライブラリで、このニーズに対処することを目指している。環境のためのシンプルなAPIと、サンプルと損失のための有用な抽象化を提供する。
論文参考訳（メタデータ） (2023-05-24T00:20:59Z)
SequeL: A Continual Learning Library in PyTorch and JAX [50.33956216274694]
SequeLは継続学習のためのライブラリで、PyTorchとJAXフレームワークの両方をサポートする。それは、正規化ベースのアプローチ、リプレイベースのアプローチ、ハイブリッドアプローチを含む、幅広い連続学習アルゴリズムのための統一インターフェースを提供する。私たちはSequeLをオープンソースライブラリとしてリリースし、研究者や開発者が自身の目的で簡単にライブラリを実験し拡張することができます。
論文参考訳（メタデータ） (2023-04-21T10:00:22Z)
Salesforce CausalAI Library: A Fast and Scalable Framework for Causal Analysis of Time Series and Tabular Data [76.85310770921876]
観測データを用いた因果解析のためのオープンソースライブラリであるSalesforce CausalAI Libraryを紹介した。このライブラリの目標は、因果関係の領域における様々な問題に対して、迅速かつ柔軟なソリューションを提供することである。
論文参考訳（メタデータ） (2023-01-25T22:42:48Z)
MEMO: Coverage-guided Model Generation For Deep Learning Library Testing [11.263121366956726]
テスト入力としてDLモデルを生成することによって、ディープラーニング(DL)ライブラリをテストするためのいくつかの技術が提案されている。しかし、これらの手法のテストの有効性は、生成されたDLモデルの多様性によって制約される。本稿では,レイヤタイプ,層ペア,層パラメータを探索することにより,多様なDLモデルを効率的に生成するMEMOを提案する。
論文参考訳（メタデータ） (2022-08-02T14:53:02Z)
D2A: A Dataset Built for AI-Based Vulnerability Detection Methods Using Differential Analysis [55.15995704119158]
静的解析ツールによって報告されたラベル問題に対する差分解析に基づくアプローチであるD2Aを提案する。 D2Aを使用して大きなラベル付きデータセットを生成し、脆弱性識別のためのモデルをトレーニングします。
論文参考訳（メタデータ） (2021-02-16T07:46:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。