論文の概要: Toward Understanding Deep Learning Framework Bugs
- arxiv url: http://arxiv.org/abs/2203.04026v4
- Date: Wed, 21 Aug 2024 06:52:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-22 23:35:54.725733
- Title: Toward Understanding Deep Learning Framework Bugs
- Title(参考訳): ディープラーニングフレームワークバグの理解に向けて
- Authors: Junjie Chen, Yihua Liang, Qingchao Shen, Jiajun Jiang, Shuochuan Li,
- Abstract要約: 我々は4つの人気のある多種多様なDLフレームワークから1,000のバグについて大規模な調査を行っている。
我々は,DLフレームワークのバグの包括的理解と既存のDLフレームワークテストプラクティスの現状について,12の主要な知見を得た。
このガイドラインに基づいて、我々はTenFuzzと呼ばれるDLフレームワークテストツールのプロトタイプを設計、実装する。
- 参考スコア(独自算出の注目度): 6.38591361654859
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: DL frameworks are the basis of constructing all DL programs and models, and thus their bugs could lead to the unexpected behaviors of any DL program or model relying on them. Such a wide effect demonstrates the necessity and importance of guaranteeing DL frameworks' quality. Understanding the characteristics of DL framework bugs is a fundamental step for this quality assurance task, facilitating designing effective bug detection and debugging approaches. Hence, in this work we conduct the most large-scale study on 1,000 bugs from four popular and diverse DL frameworks (i.e., TensorFlow, PyTorch, MXNet, and DL4J). By analyzing the root causes and symptoms of DL framework bugs associated with 5 components decomposed from DL frameworks, as well as measuring test coverage achieved by three state-of-the-art testing techniques, we obtain 12 major findings for the comprehensive understanding of DL framework bugs and the current status of existing DL framework testing practice, and then provide a series of actionable guidelines for better DL framework bug detection and debugging. Finally, based on the guidelines, we design and implement a prototype DL-framework testing tool, called TenFuzz, which is evaluated to be effective and finds 3 unknown bugs on the latest TensorFlow framework in a preliminary study, indicating the significance of our guidelines.
- Abstract(参考訳): DLフレームワークは、全てのDLプログラムとモデルを構築する基盤であり、それらのバグは、DLプログラムやモデルに依存しているあらゆるDLプログラムやモデルの予期せぬ振舞いを引き起こす可能性がある。
このような大きな影響は、DLフレームワークの品質を保証する必要性と重要性を示している。
DLフレームワークのバグの特徴を理解することは、この品質保証タスクの基本的なステップであり、効果的なバグ検出とデバッグのアプローチを設計することを容易にする。
したがって、この作業では、人気のある4つのDLフレームワーク(TensorFlow、PyTorch、MXNet、DL4J)から1,000のバグについて、最も大規模な調査を行います。
DLフレームワークから分解された5つのコンポーネントに関連するDLフレームワークバグの根本原因と症状を解析し、3つの最先端のテスト技術によって達成されたテストカバレッジを測定することにより、DLフレームワークバグの包括的理解と既存のDLフレームワークテストプラクティスの現状に関する12の大きな発見を得るとともに、DLフレームワークバグの検出とデバッグを改善するための一連の実行可能なガイドラインを提供する。
最後に、このガイドラインに基づいて、TenFuzzと呼ばれるプロトタイプのDLフレームワークテストツールを設計、実装し、有効であると評価し、最新のTensorFlowフレームワークに3つの未知のバグを発見し、ガイドラインの重要性を示している。
関連論文リスト
- Mutation-Based Deep Learning Framework Testing Method in JavaScript Environment [16.67312523556796]
そこで本研究では,DLJSFuzzerという変異ベースのJavaScript DLフレームワークテスティング手法を提案する。
DLJSFuzzerは21のユニークなクラッシュと126のNaN & Inconsistencyバグを正常に検出する。
DLJSFuzzerはモデル生成効率が47%以上、バグ検出効率が91%以上改善されている。
論文 参考訳(メタデータ) (2024-09-23T12:37:56Z) - AutoDetect: Towards a Unified Framework for Automated Weakness Detection in Large Language Models [95.09157454599605]
大規模言語モデル(LLM)はますます強力になってきていますが、それでも顕著ですが微妙な弱点があります。
従来のベンチマークアプローチでは、特定のモデルの欠陥を徹底的に特定することはできない。
さまざまなタスクにまたがるLLMの弱点を自動的に露呈する統合フレームワークであるAutoDetectを導入する。
論文 参考訳(メタデータ) (2024-06-24T15:16:45Z) - CITADEL: Context Similarity Based Deep Learning Framework Bug Finding [36.34154201748415]
既存のディープラーニング(DL)フレームワークテストツールには、バグタイプが限定されている。
我々はCitadelを提案する。Citadelは効率と有効性の観点からバグの発見を高速化する手法だ。
論文 参考訳(メタデータ) (2024-06-18T01:51:16Z) - DLAP: A Deep Learning Augmented Large Language Model Prompting Framework for Software Vulnerability Detection [12.686480870065827]
本稿では,ディープラーニング(DL)モデルとLLM(Large Language Models)モデルの両方を最大限に組み合わせて,例外的な脆弱性検出性能を実現するフレームワークである textbfDLAP について述べる。
実験の結果、DLAPは、ロールベースのプロンプト、補助情報プロンプト、チェーン・オブ・シントプロンプト、コンテキスト内学習プロンプトなど、最先端のプロンプトフレームワークより優れていることが確認された。
論文 参考訳(メタデータ) (2024-05-02T11:44:52Z) - DebugBench: Evaluating Debugging Capability of Large Language Models [80.73121177868357]
DebugBench - LLM(Large Language Models)のベンチマーク。
C++、Java、Pythonの4つの主要なバグカテゴリと18のマイナータイプをカバーする。
ゼロショットシナリオで2つの商用および4つのオープンソースモデルを評価する。
論文 参考訳(メタデータ) (2024-01-09T15:46:38Z) - Mitigating Hallucination in Large Multi-Modal Models via Robust Instruction Tuning [92.85265959892115]
本稿では,Large-scale Robust Visual (LRV)-Instructionという,大規模かつ多様な視覚的インストラクションチューニングデータセットを紹介する。
本データセットは, GPT4が生成した400kの視覚的命令からなり, 16の視覚・言語的タスクをオープンエンドの指示と回答でカバーする。
LMMが生み出す幻覚を効果的に測定するために,人間の専門家による視覚指導のチューニングを安定的に評価するためのGAVIE(GPT4-Assisted Visual Instruction Evaluation)を提案する。
論文 参考訳(メタデータ) (2023-06-26T10:26:33Z) - Benchmarking the Robustness of LiDAR Semantic Segmentation Models [78.6597530416523]
本稿では,LiDARセマンティックセグメンテーションモデルのロバスト性を,様々な汚職の下で包括的に解析することを目的とする。
本稿では,悪天候,計測ノイズ,デバイス間不一致という3つのグループで16のドメイン外LiDAR破損を特徴とするSemanticKITTI-Cというベンチマークを提案する。
我々は、単純だが効果的な修正によってロバスト性を大幅に向上させるロバストLiDARセグメンテーションモデル(RLSeg)を設計する。
論文 参考訳(メタデータ) (2023-01-03T06:47:31Z) - MEMO: Coverage-guided Model Generation For Deep Learning Library Testing [11.263121366956726]
テスト入力としてDLモデルを生成することによって、ディープラーニング(DL)ライブラリをテストするためのいくつかの技術が提案されている。
しかし、これらの手法のテストの有効性は、生成されたDLモデルの多様性によって制約される。
本稿では,レイヤタイプ,層ペア,層パラメータを探索することにより,多様なDLモデルを効率的に生成するMEMOを提案する。
論文 参考訳(メタデータ) (2022-08-02T14:53:02Z) - Towards a Fair Comparison and Realistic Design and Evaluation Framework
of Android Malware Detectors [63.75363908696257]
一般的な評価フレームワークを用いて,Androidのマルウェア検出に関する10の研究成果を分析した。
データセットの作成やデザイナの設計に考慮しない場合、トレーニングされたMLモデルに大きく影響する5つの要因を特定します。
その結果,MLに基づく検出器は楽観的に評価され,良好な結果が得られた。
論文 参考訳(メタデータ) (2022-05-25T08:28:08Z) - Challenges in Migrating Imperative Deep Learning Programs to Graph
Execution: An Empirical Study [4.415977307120617]
我々は、信頼できるがパフォーマンスのよい命令型DLコードを書くことに関わる課題と結果のバグを、データ駆動で分析します。
命令型DLコードを効果的にハイブリダイズするために、いくつかの推奨事項、ベストプラクティス、アンチパターンを提示しました。
論文 参考訳(メタデータ) (2022-01-24T21:12:38Z) - Stance Detection Benchmark: How Robust Is Your Stance Detection? [65.91772010586605]
Stance Detection (StD) は、あるトピックやクレームに対する著者の姿勢を検出することを目的としている。
マルチデータセット学習環境において、さまざまなドメインの10のStDデータセットから学習するStDベンチマークを導入する。
このベンチマーク設定では、5つのデータセットに新しい最先端結果を表示することができます。
論文 参考訳(メタデータ) (2020-01-06T13:37:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。