論文の概要: DevMuT: Testing Deep Learning Framework via Developer Expertise-Based Mutation
- arxiv url: http://arxiv.org/abs/2507.04360v1
- Date: Sun, 06 Jul 2025 11:48:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.138579
- Title: DevMuT: Testing Deep Learning Framework via Developer Expertise-Based Mutation
- Title(参考訳): DevMuT: 開発者エキスパートベースのミューテーションによるディープラーニングフレームワークのテスト
- Authors: Yanzhou Mu, Juan Zhai, Chunrong Fang, Xiang Chen, Zhixiang Cao, Peiran Yang, Yinglong Zou, Tao Zheng, Zhenyu Chen,
- Abstract要約: DevMuTは開発における開発者の共通操作をシミュレートし、より多様な欠陥を検出する。
生成されたモデルの多様性の平均で、少なくとも71.68%の改善が達成できる。
DevMuTは2023年12月からMindSporeコミュニティにデプロイされている。
- 参考スコア(独自算出の注目度): 15.407978476058483
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning (DL) frameworks are the fundamental infrastructure for various DL applications. Framework defects can profoundly cause disastrous accidents, thus requiring sufficient detection. In previous studies, researchers adopt DL models as test inputs combined with mutation to generate more diverse models. Though these studies demonstrate promising results, most detected defects are considered trivial (i.e., either treated as edge cases or ignored by the developers). To identify important bugs that matter to developers, we propose a novel DL framework testing method DevMuT, which generates models by adopting mutation operators and constraints derived from developer expertise. DevMuT simulates developers'common operations in development and detects more diverse defects within more stages of the DL model lifecycle (e.g., model training and inference). We evaluate the performance of DevMuT on three widely used DL frameworks (i.e., PyTorch, JAX, and Mind- Spore) with 29 DL models from nine types of industry tasks. The experiment results show that DevMuT outperforms state-of-the-art baselines: it can achieve at least 71.68% improvement on average in the diversity of generated models and 28.20% improvement on average in the legal rates of generated models. Moreover, DevMuT detects 117 defects, 63 of which are confirmed, 24 are fixed, and eight are of high value confirmed by developers. Finally, DevMuT has been deployed in the MindSpore community since December 2023. These demonstrate the effectiveness of DevMuT in detecting defects that are close to the real scenes and are of concern to developers.
- Abstract(参考訳): ディープラーニング(DL)フレームワークは、さまざまなDLアプリケーションの基盤となる。
フレームワークの欠陥は悲惨な事故を引き起こす可能性があるため、十分な検出が必要である。
これまでの研究では、DLモデルを変異と組み合わせてより多様なモデルを生成するテスト入力として採用していた。
これらの研究は有望な結果を示しているが、ほとんどの検出された欠陥は自明である(すなわち、エッジケースとして扱われるか、開発者によって無視される)。
開発者にとって重要な重要なバグを特定するため,新しいDLフレームワークテスト手法であるDevMuTを提案する。
DevMuTは、開発における開発者の共通操作をシミュレートし、DLモデルのライフサイクル(例えば、モデルトレーニングと推論)のさらなる段階において、より多様な欠陥を検出する。
我々は、9種類の産業タスクから29のDLモデルを用いて、広く使われている3つのDLフレームワーク(PyTorch、JAX、Mind-Spre)上でのDevMuTの性能を評価した。
実験の結果、DevMuTは最先端のベースラインよりも優れており、生成されたモデルの多様性の平均で71.68%、生成されたモデルの法定レートで平均で28.20%改善できることがわかった。
さらに、DevMuTは117の欠陥を検出し、63は確認され、24は修正され、8は開発者が確認した高い値である。
最後に、DevMuTは2023年12月からMindSporeコミュニティにデプロイされている。
これらはDevMuTが実際のシーンに近い欠陥の検出に有効であることを示し、開発者に懸念を与えている。
関連論文リスト
- Deep Learning Framework Testing via Model Mutation: How Far Are We? [30.292791319442404]
既存の突然変異に基づく検査手法の欠陥検出機能を再検討する。
わずか23モデルで39のユニークな欠陥を特定しました。そのうち31は開発者によって確認され、8つは修正されました。
論文 参考訳(メタデータ) (2025-06-21T08:44:33Z) - An Empirical Study on Eliciting and Improving R1-like Reasoning Models [90.52239241349504]
RLトレーニングのスケーリングは、そのような推論モデルを実装するための中心的なテクニックとなっている。
我々のRLトレーニングアプローチはQwen2.5-32Bベースモデルを継続的に改善することを示した。
また、ツール操作の利用についても検討し、大きな推論モデルの推論性能を大幅に向上させることを見出した。
論文 参考訳(メタデータ) (2025-03-06T15:34:27Z) - Learning to Solve and Verify: A Self-Play Framework for Code and Test Generation [69.62857948698436]
大規模言語モデル(LLM)の最近の進歩は、コーディングベンチマークのパフォーマンスを改善している。
しかし、手軽に利用できる高品質なデータの枯渇により、改善は停滞している。
本稿では,単一モデルのコードとテスト生成能力を共同で改善するセルフプレイ・ソルバ検証フレームワークであるSol-Verを提案する。
論文 参考訳(メタデータ) (2025-02-20T18:32:19Z) - Explore Theory of Mind: Program-guided adversarial data generation for theory of mind reasoning [88.68573198200698]
本研究では,多様で挑戦的な心的データ理論を大規模に生成するための最初のフレームワークであるExploreToMを紹介する。
我々のアプローチは、A*検索をカスタムドメイン特化言語に利用して、複雑なストーリ構造と、新しく、多様だが、もっともらしいシナリオを生成します。
評価の結果,Llama-3.1-70B や GPT-4o などの最先端 LLM はExploreToM 生成データに対して0%,9% の精度を示した。
論文 参考訳(メタデータ) (2024-12-12T21:29:00Z) - CITADEL: Context Similarity Based Deep Learning Framework Bug Finding [36.34154201748415]
既存のディープラーニング(DL)フレームワークテストツールには、バグタイプが限定されている。
我々はCitadelを提案する。Citadelは効率と有効性の観点からバグの発見を高速化する手法だ。
論文 参考訳(メタデータ) (2024-06-18T01:51:16Z) - An Empirical Study of Deep Learning Models for Vulnerability Detection [4.243592852049963]
我々は、広く使われている2つの脆弱性検出データセット上で、最先端の9つのディープラーニングモデルを調査し、再現した。
モデル能力,トレーニングデータ,モデル解釈について検討した。
我々の研究結果は、モデル結果の理解を深め、トレーニングデータ作成のガイダンスを提供し、モデルの堅牢性を向上させるのに役立つ。
論文 参考訳(メタデータ) (2022-12-15T19:49:34Z) - Finding Deep-Learning Compilation Bugs with NNSmith [20.082492391396933]
本稿では,ディープラーニングコンパイラのバグ発見のためのファズテスト手法を提案する。
我々の中核的なアプローチは、(i)軽量な演算子仕様を使用して、多種多様な有効なモデルを生成し、(ii)勾配ベースの探索プロセスを作成し、(iii)差分テストによってバグを特定します。
我々は,この手法をNSmithで実施し,TVM,RT,ONNXRuntime,PyTorchの過去7ヶ月で65の新たなバグを発見した。そのうち52件が確認され,メンテナによって44件が修正されている。
論文 参考訳(メタデータ) (2022-07-26T17:39:51Z) - DirectDebug: Automated Testing and Debugging of Feature Models [55.41644538483948]
変数モデル(例えば、特徴モデル)は、ソフトウェアアーティファクトの変数と共通性を表現する一般的な方法である。
複雑でしばしば大規模な機能モデルは欠陥になりうる、すなわち、ソフトウェアアーチファクトの期待される変動特性を表現しない。
論文 参考訳(メタデータ) (2021-02-11T11:22:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。