論文の概要: Silent Bugs in Deep Learning Frameworks: An Empirical Study of Keras and
TensorFlow
- arxiv url: http://arxiv.org/abs/2112.13314v1
- Date: Sun, 26 Dec 2021 04:18:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-28 17:33:29.991849
- Title: Silent Bugs in Deep Learning Frameworks: An Empirical Study of Keras and
TensorFlow
- Title(参考訳): ディープラーニングフレームワークにおけるサイレントバグ:KerasとTensorFlowの実証的研究
- Authors: Florian Tambon, Amin Nikanjam, Le An, Foutse Khomh, Giuliano Antoniol
- Abstract要約: ディープラーニング(DL)フレームワークは今や広く使われており、複雑なモデルの作成を単純化し、DLの専門家でない人たちにも様々なアプリケーションとの統合が可能である。
本稿では,無声バグと呼ばれるバグのサブカテゴリを扱い,誤った動作を導くが,システムクラッシュやハングを発生させることなく,エラーメッセージをユーザに提示する。
本稿では,Kerasとサイレントバグに関する最初の実証的研究とそのユーザプログラムへの影響について述べる。
- 参考スコア(独自算出の注目度): 11.797229793822623
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep Learning (DL) frameworks are now widely used, simplifying the creation
of complex models as well as their integration to various applications even to
non DL experts. However, like any other programs, they are prone to bugs. This
paper deals with the subcategory of bugs named silent bugs: they lead to wrong
behavior but they do not cause system crashes or hangs, nor show an error
message to the user. Such bugs are even more dangerous in DL applications and
frameworks due to the "black-box" and stochastic nature of the systems (the end
user can not understand how the model makes decisions). This paper presents the
first empirical study of Keras and TensorFlow silent bugs, and their impact on
users' programs. We extracted closed issues related to Keras from the
TensorFlow GitHub repository. Out of the 1,168 issues that we gathered, 77 were
reproducible silent bugs affecting users' programs. We categorized the bugs
based on the effects on the users' programs and the components where the issues
occurred, using information from the issue reports. We then derived a threat
level for each of the issues, based on the impact they had on the users'
programs. To assess the relevance of identified categories and the impact
scale, we conducted an online survey with 103 DL developers. The participants
generally agreed with the significant impact of silent bugs in DL libraries and
acknowledged our findings (i.e., categories of silent bugs and the proposed
impact scale). Finally, leveraging our analysis, we provide a set of guidelines
to facilitate safeguarding against such bugs in DL frameworks.
- Abstract(参考訳): ディープラーニング(DL)フレームワークは今や広く使われており、複雑なモデルの作成を単純化し、DLの専門家でない人たちにも様々なアプリケーションとの統合が可能である。
しかし、他のプログラムと同様に、それらはバグを起こしやすい。
本稿では,無声バグと呼ばれるバグのサブカテゴリを扱い,誤った動作を導くが,システムクラッシュやハングを発生させることなく,エラーメッセージをユーザに提示する。
このようなバグは、dlアプリケーションやフレームワークにおいて、システムの"ブラックボックス"と確率的性質(エンドユーザはモデルがどのように意思決定するかを理解できない)のため、さらに危険である。
本稿では,kerasとtensorflowのサイレントバグに関する最初の実証研究と,そのユーザプログラムへの影響について述べる。
我々はTensorFlow GitHubリポジトリからKerasに関するクローズドな問題を抽出した。
収集した1,168件の問題のうち,77件がユーザのプログラムに影響を与えるサイレントバグを再現可能としていた。
ユーザのプログラムや問題が発生したコンポーネントへの影響に基づいてバグを分類し,イシューレポートの情報を用いてバグを分類した。
次に、ユーザプログラムに対する影響に基づいて、各問題に対する脅威レベルを導出しました。
特定カテゴリとインパクト尺度との関連性を評価するため,103人のDL開発者を対象にオンライン調査を行った。
参加者は概してdlライブラリにおけるサイレントバグの重大な影響に同意し、我々の発見(サイレントバグのカテゴリと提案されたインパクトスケール)を認めた。
最後に、分析の活用により、dlフレームワークのこのようなバグに対する保護を容易にするためのガイドラインのセットを提供します。
関連論文リスト
- CITADEL: Context Similarity Based Deep Learning Framework Bug Finding [36.34154201748415]
既存のディープラーニング(DL)フレームワークテストツールには、バグタイプが限定されている。
我々はCitadelを提案する。Citadelは効率と有効性の観点からバグの発見を高速化する手法だ。
論文 参考訳(メタデータ) (2024-06-18T01:51:16Z) - The Impact Of Bug Localization Based on Crash Report Mining: A Developers' Perspective [7.952391285456257]
事故報告をグループ化し,バグコードを見つけるためのアプローチを18ヶ月にわたって毎週実施した経験を報告する。
この調査で調査されたアプローチは、バギーファイルの大部分を正しく示唆していた。
論文 参考訳(メタデータ) (2024-03-16T01:23:01Z) - Towards Understanding the Challenges of Bug Localization in Deep
Learning Systems [2.9312156642007294]
我々は、ディープラーニングシステムにおけるバグのローカライズに関する課題をより深く理解するために、大規模な実証的研究を行っている。
まず,ディープラーニングシステムの2,365バグと,従来のソフトウェアによる2,913バグを用いて,既存の4つのテクニックのバグローカライズ性能を判定する。
第2に,ディープラーニングシステムにおけるバグタイプの違いが,バグのローカライゼーションに与える影響を評価する。
論文 参考訳(メタデータ) (2024-02-01T21:17:42Z) - DebugBench: Evaluating Debugging Capability of Large Language Models [80.73121177868357]
DebugBench - LLM(Large Language Models)のベンチマーク。
C++、Java、Pythonの4つの主要なバグカテゴリと18のマイナータイプをカバーする。
ゼロショットシナリオで2つの商用および4つのオープンソースモデルを評価する。
論文 参考訳(メタデータ) (2024-01-09T15:46:38Z) - A Comprehensive Empirical Study of Bugs in Open-Source Federated
Learning Frameworks [11.835104059182832]
Federated Learning(FL)は、分散機械学習(ML)パラダイムであり、複数のクライアントがクライアントのデータプライバシを公開することなく、共同でMLモデルをトレーニングすることができる。
FLの適用を促進するために、さまざまなFLフレームワークが提案されている。
FLフレームワークのバグを包括的に収集し,分類し,特徴付けるための,最初の実証的研究を行った。
論文 参考訳(メタデータ) (2023-08-09T15:14:16Z) - An Empirical Study on Bugs Inside PyTorch: A Replication Study [10.848682558737494]
私たちは、非常に人気のあるディープラーニングフレームワークであるPyTorchライブラリのバグを特徴付けています。
私たちの結果は、PyTorchのバグはディープラーニングの特徴よりも、従来のソフトウェアプロジェクトのバグに近いことを強調しています。
論文 参考訳(メタデータ) (2023-07-25T19:23:55Z) - Using Developer Discussions to Guide Fixing Bugs in Software [51.00904399653609]
我々は,タスク実行前に利用可能であり,また自然発生しているバグレポートの議論を,開発者による追加情報の必要性を回避して利用することを提案する。
このような議論から派生したさまざまな自然言語コンテキストがバグ修正に役立ち、オラクルのバグ修正コミットに対応するコミットメッセージの使用よりもパフォーマンスの向上につながることを実証する。
論文 参考訳(メタデータ) (2022-11-11T16:37:33Z) - DapStep: Deep Assignee Prediction for Stack Trace Error rePresentation [61.99379022383108]
本稿では,バグトリアージ問題を解決するための新しいディープラーニングモデルを提案する。
モデルは、注目された双方向のリカレントニューラルネットワークと畳み込みニューラルネットワークに基づいている。
ランキングの質を向上させるために,バージョン管理システムのアノテーションから追加情報を利用することを提案する。
論文 参考訳(メタデータ) (2022-01-14T00:16:57Z) - Indiscriminate Poisoning Attacks Are Shortcuts [77.38947817228656]
その結果, 標的ラベルを付与した場合, 進行性毒素攻撃の摂動は, ほぼ分離可能であることがわかった。
このような合成摂動は、故意に作られた攻撃と同じくらい強力であることを示す。
我々の発見は、アンフショートカット学習の問題が以前考えられていたよりも深刻であることを示唆している。
論文 参考訳(メタデータ) (2021-11-01T12:44:26Z) - Scarecrow: A Framework for Scrutinizing Machine Text [69.26985439191151]
我々はScarecrowと呼ばれる新しい構造化されたクラウドソースエラーアノテーションスキーマを導入する。
Scarecrowは1.3kの人文と機械が生成する英語ニューステキストの13kのアノテーションを収集する。
これらの結果は,現在および将来のテキスト生成システムの評価において,Scarecrowアノテーションの価値を示すものである。
論文 参考訳(メタデータ) (2021-07-02T22:37:03Z) - TACRED Revisited: A Thorough Evaluation of the TACRED Relation
Extraction Task [80.38130122127882]
TACREDはリレーショナル抽出(RE)において最も大きく、最も広く使われているクラウドソースデータセットの1つである
パフォーマンスの天井に到達したのか、改善の余地はあるのか?
ラベルエラーは絶対F1テストエラーの8%を占めており、例の50%以上を可逆化する必要がある。
論文 参考訳(メタデータ) (2020-04-30T15:07:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。