Fugu-MT 論文翻訳(概要): Enhancing Differential Testing With LLMs For Testing Deep Learning Libraries

論文の概要: Enhancing Differential Testing With LLMs For Testing Deep Learning Libraries

arxiv url: http://arxiv.org/abs/2406.07944v2
Date: Thu, 08 May 2025 15:48:00 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-09 21:43:49.511244
Title: Enhancing Differential Testing With LLMs For Testing Deep Learning Libraries
Title（参考訳）: ディープラーニングライブラリのテストのためのLLMによる差分テストの強化
Authors: Meiziniu Li, Dongze Li, Jianmeng Liu, Jialun Cao, Yongqiang Tian, Shing-Chi Cheung,
Abstract要約: 本稿では,DLライブラリのためのLLM強化差分試験手法を提案する。与えられたAPIの代替実装を見つけ、多様なテストインプットを生成するという課題に対処する。最先端技術で見られるAPIの1.84倍の数のAPIを合成する。
参考スコア（独自算出の注目度）: 8.779035160734523
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Differential testing offers a promising strategy to alleviate the test oracle problem by comparing the test results between alternative implementations. However, existing differential testing techniques for deep learning (DL) libraries are limited by the key challenges of finding alternative implementations (called counterparts) for a given API and subsequently generating diverse test inputs. To address the two challenges, this paper introduces DLLens, an LLM-enhanced differential testing technique for DL libraries. To address the first challenge, DLLens incorporates an LLM-based counterpart synthesis workflow, with the insight that the counterpart of a given DL library API's computation could be successfully synthesized through certain composition and adaptation of the APIs from another DL library. To address the second challenge, DLLens incorporates a static analysis technique that extracts the path constraints from the implementations of a given API and its counterpart to guide diverse test input generation. The extraction is facilitated by LLM's knowledge of the concerned DL library and its upstream libraries. We evaluate DLLens on two popular DL libraries, TensorFlow and PyTorch. Our evaluation shows that DLLens synthesizes counterparts for 1.84 times as many APIs as those found by state-of-the-art techniques on these libraries. Moreover, under the same time budget, DLLens covers 7.23% more branches and detects 1.88 times as many bugs as state-of-the-art techniques on 200 randomly sampled APIs. DLLens has successfully detected 71 bugs in recent TensorFlow and PyTorch libraries. Among them, 59 are confirmed by developers, including 46 confirmed as previously unknown bugs, and 10 of these previously unknown bugs have been fixed in the latest version of TensorFlow and PyTorch.
Abstract（参考訳）: 差別化テストは、代替実装間でテスト結果を比較することで、テストオラクル問題を緩和するための有望な戦略を提供する。しかし、ディープラーニング(DL)ライブラリの既存の差分テスト技術は、あるAPIの代替実装(その実装と呼ばれる)を見つけ、その後多様なテストインプットを生成するという重要な課題によって制限されている。この2つの課題に対処するために,本論文では,DLライブラリのLLM強化差分テスト手法であるDLLensを紹介する。最初の課題に対処するため、DLLensはLLMベースの対応する合成ワークフローを導入し、あるDLライブラリAPIの計算の処理が、他のDLライブラリからのAPIの特定の構成と適応によってうまく合成できるという洞察を得た。 2つ目の課題に対処するため、DLLensは静的解析技術を導入し、与えられたAPIの実装とその実装からパス制約を抽出し、さまざまなテスト入力生成をガイドする。この抽出は、LLMの関連するDLライブラリとその上流ライブラリに関する知識によって促進される。 TensorFlowとPyTorchの2つの人気のあるDLライブラリ上でDLLensを評価する。評価の結果,DLLensはこれらのライブラリの最先端技術によるAPIの1.84倍のAPIを合成していることがわかった。さらに、同時に予算として、DLLensは7.23%以上のブランチをカバーし、200のランダムにサンプリングされたAPI上での最先端のテクニックの1.88倍のバグを検出する。 DLLensは、TensorFlowとPyTorchライブラリの71のバグを正常に検出した。その中には、これまで未知のバグとして確認された46と、TensorFlowとPyTorchの最新バージョンで修正された10のバグが含まれている。

関連論文リスト

LlamaRestTest: Effective REST API Testing with Small Language Models [50.058600784556816]
LlamaRestTestは、2つのLLM(Large Language Models)を使って現実的なテストインプットを生成する新しいアプローチである。私たちは、GPTを使った仕様強化ツールであるRESTGPTなど、最先端のREST APIテストツールに対して、これを評価しています。私たちの研究は、REST APIテストにおいて、小さな言語モデルは、大きな言語モデルと同様に、あるいは、より良く機能することができることを示しています。
論文参考訳（メタデータ） (2025-01-15T05:51:20Z)
Your Fix Is My Exploit: Enabling Comprehensive DL Library API Fuzzing with Large Language Models [49.214291813478695]
AIアプリケーションで広く使用されているディープラーニング(DL)ライブラリは、オーバーフローやバッファフリーエラーなどの脆弱性を含むことが多い。従来のファジィングはDLライブラリの複雑さとAPIの多様性に悩まされている。 DLライブラリのためのLLM駆動ファジィ手法であるDFUZZを提案する。
論文参考訳（メタデータ） (2025-01-08T07:07:22Z)
LLM Based Input Space Partitioning Testing for Library APIs [13.070272424794744]
ライブラリAPIテストのための LLM ベースの入力空間分割テスト手法 LISP を提案する。 LISPを10の人気のあるオープンソースJavaライブラリから抽出した2,205以上のライブラリAPIメソッドで評価する。平均して、LISPは67.82%のブランチカバレッジを獲得し、EvoSuiteを1.21倍上回っている。
論文参考訳（メタデータ） (2024-12-15T17:50:50Z)
Subgraph-Oriented Testing for Deep Learning Libraries [9.78188667672054]
我々は,異なるハードウェアプラットフォーム上でディープラーニング(DL)ライブラリをテストするためのSORT(Subgraph-Oriented Realistic Testing)を提案する。 SORTは、テスト対象として、しばしばモデルグラフのサブグラフとして表現される、人気のあるAPIインタラクションパターンを採用している。 SORTは100%有効な入力生成率を実現し、既存のメソッドよりも精度の高いバグを検出し、シングルAPIテストで欠落したインタラクション関連のバグを明らかにする。
論文参考訳（メタデータ） (2024-12-09T12:10:48Z)
ExploraCoder: Advancing code generation for multiple unseen APIs via planning and chained exploration [70.26807758443675]
ExploraCoderはトレーニング不要のフレームワークで、大規模な言語モデルにコードソリューションで見えないAPIを呼び出す権限を与える。 ExploraCoderは,事前のAPI知識を欠いたモデルのパフォーマンスを著しく向上させ,NAGアプローチの11.24%,pass@10の事前トレーニングメソッドの14.07%を絶対的に向上させることを示す。
論文参考訳（メタデータ） (2024-12-06T19:00:15Z)
Commit0: Library Generation from Scratch [77.38414688148006]
Commit0は、AIエージェントにスクラッチからライブラリを書くよう促すベンチマークである。エージェントには、ライブラリのAPIを概説する仕様文書と、インタラクティブなユニットテストスイートが提供されている。 Commit0はまた、モデルが生成したコードに対して静的解析と実行フィードバックを受け取る、インタラクティブな環境も提供する。
論文参考訳（メタデータ） (2024-12-02T18:11:30Z)
The Seeds of the FUTURE Sprout from History: Fuzzing for Unveiling Vulnerabilities in Prospective Deep-Learning Libraries [14.260990784121423]
Futureは、新しく導入され、将来的なDLライブラリ用に調整された最初のユニバーサルファジィフレームワークである。既存のライブラリからの履歴バグ情報と、特殊なコード生成のための微調整LDMを使用する。バグ検出、バグ再現の成功率、コード生成の妥当性、APIカバレッジにおいて、既存のファジィアよりも大幅に優れています。
論文参考訳（メタデータ） (2024-12-02T09:33:28Z)
Detecting Multi-Parameter Constraint Inconsistencies in Python Data Science Libraries [21.662640566736098]
コードとドキュメンテーションの不整合を検出するためにMPDetectorを提案する。 MPDetectorは、シンボリック実行を通じて実行パスを探索することで、これらの制約をコードレベルで識別する。本研究では,LLM出力の予測不可能性を再現するファジィ制約論理を提案する。
論文参考訳（メタデータ） (2024-11-18T09:30:14Z)
Model Equality Testing: Which Model Is This API Serving? [59.005869726179455]
2サンプルテスト問題であるモデル品質テストのような歪みの検出を形式化する。単純な文字列カーネル上に構築されたテストは、歪みの範囲に対して77.4%の中央値を達成する。次に、このテストを4つのLlamaモデルの商用推論APIに適用し、31のエンドポイントのうち11がMetaがリリースしたリファレンスウェイトとは異なる分布を提供することがわかった。
論文参考訳（メタデータ） (2024-10-26T18:34:53Z)
SYNTHEVAL: Hybrid Behavioral Testing of NLP Models with Synthetic CheckLists [59.08999823652293]
我々は,NLPモデルの包括的評価のために,SyntheVALを提案する。最後の段階では、人間の専門家が困難な例を調査し、手動でテンプレートを設計し、タスク固有のモデルが一貫して示す障害の種類を特定します。我々は、感情分析と有害言語検出という2つの分類課題にSynTHEVALを適用し、これらの課題における強力なモデルの弱点を特定するのに、我々のフレームワークが有効であることを示す。
論文参考訳（メタデータ） (2024-08-30T17:41:30Z)
A Tale of Two DL Cities: When Library Tests Meet Compiler [12.751626834965231]
DLライブラリのテスト入力からドメイン知識を抽出するOPERAを提案する。 OPERAはDLライブラリの様々なテストインプットから様々なテストを構築する。多様性に基づくテストの優先順位付け戦略を取り入れて、これらのテストインプットを移行し実行します。
論文参考訳（メタデータ） (2024-07-23T16:35:45Z)
KAT: Dependency-aware Automated API Testing with Large Language Models [1.7264233311359707]
KAT(Katalon API Testing)は、APIを検証するためのテストケースを自律的に生成する、AI駆動の新たなアプローチである。実世界の12のサービスを用いたKATの評価は、検証カバレッジを改善し、文書化されていないステータスコードを検出し、これらのサービスの偽陽性を低減できることを示している。
論文参考訳（メタデータ） (2024-07-14T14:48:18Z)
ACETest: Automated Constraint Extraction for Testing Deep Learning Operators [23.129431525952263]
テストケースが入力妥当性チェックをパスし、演算子のコア関数ロジックに到達できることが不可欠である。既存のテクニックは、制約を抽出するために、DLライブラリAPIの人的努力またはドキュメントに依存する。本研究では,コードから入力検証制約を自動的に抽出し,有効かつ多様なテストケースを構築する技術であるACETestを提案する。
論文参考訳（メタデータ） (2023-05-29T06:49:40Z)
torchgfn: A PyTorch GFlowNet library [56.071033896777784]
torchgfnはPyTorchライブラリで、このニーズに対処することを目指している。環境のためのシンプルなAPIと、サンプルと損失のための有用な抽象化を提供する。
論文参考訳（メタデータ） (2023-05-24T00:20:59Z)
SequeL: A Continual Learning Library in PyTorch and JAX [50.33956216274694]
SequeLは継続学習のためのライブラリで、PyTorchとJAXフレームワークの両方をサポートする。それは、正規化ベースのアプローチ、リプレイベースのアプローチ、ハイブリッドアプローチを含む、幅広い連続学習アルゴリズムのための統一インターフェースを提供する。私たちはSequeLをオープンソースライブラリとしてリリースし、研究者や開発者が自身の目的で簡単にライブラリを実験し拡張することができます。
論文参考訳（メタデータ） (2023-04-21T10:00:22Z)
Salesforce CausalAI Library: A Fast and Scalable Framework for Causal Analysis of Time Series and Tabular Data [76.85310770921876]
観測データを用いた因果解析のためのオープンソースライブラリであるSalesforce CausalAI Libraryを紹介した。このライブラリの目標は、因果関係の領域における様々な問題に対して、迅速かつ柔軟なソリューションを提供することである。
論文参考訳（メタデータ） (2023-01-25T22:42:48Z)
MEMO: Coverage-guided Model Generation For Deep Learning Library Testing [11.263121366956726]
テスト入力としてDLモデルを生成することによって、ディープラーニング(DL)ライブラリをテストするためのいくつかの技術が提案されている。しかし、これらの手法のテストの有効性は、生成されたDLモデルの多様性によって制約される。本稿では,レイヤタイプ,層ペア,層パラメータを探索することにより,多様なDLモデルを効率的に生成するMEMOを提案する。
論文参考訳（メタデータ） (2022-08-02T14:53:02Z)
D2A: A Dataset Built for AI-Based Vulnerability Detection Methods Using Differential Analysis [55.15995704119158]
静的解析ツールによって報告されたラベル問題に対する差分解析に基づくアプローチであるD2Aを提案する。 D2Aを使用して大きなラベル付きデータセットを生成し、脆弱性識別のためのモデルをトレーニングします。
論文参考訳（メタデータ） (2021-02-16T07:46:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。