論文の概要: Real Faults in Deep Learning Fault Benchmarks: How Real Are They?
- arxiv url: http://arxiv.org/abs/2412.16336v1
- Date: Fri, 20 Dec 2024 20:52:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 16:01:51.834741
- Title: Real Faults in Deep Learning Fault Benchmarks: How Real Are They?
- Title(参考訳): ディープラーニングの障害ベンチマークにおける本当の障害: どれ程本物か?
- Authors: Gunel Jahangirova, Nargiz Humbatova, Jinhan Kim, Shin Yoo, Paolo Tonella,
- Abstract要約: 本研究では,5つのベンチマークから490の障害を手動で解析し,その内314が本研究に適していることを確認した。
以上の結果から, 現実主義的条件を満たす障害は18.5%に過ぎなかった。
再発例は52%に過ぎなかった。
- 参考スコア(独自算出の注目度): 17.586333091528594
- License:
- Abstract: As the adoption of Deep Learning (DL) systems continues to rise, an increasing number of approaches are being proposed to test these systems, localise faults within them, and repair those faults. The best attestation of effectiveness for such techniques is an evaluation that showcases their capability to detect, localise and fix real faults. To facilitate these evaluations, the research community has collected multiple benchmarks of real faults in DL systems. In this work, we perform a manual analysis of 490 faults from five different benchmarks and identify that 314 of them are eligible for our study. Our investigation focuses specifically on how well the bugs correspond to the sources they were extracted from, which fault types are represented, and whether the bugs are reproducible. Our findings indicate that only 18.5% of the faults satisfy our realism conditions. Our attempts to reproduce these faults were successful only in 52% of cases.
- Abstract(参考訳): ディープラーニング(DL)システムの採用が進むにつれて、これらのシステムのテストや障害のローカライズ、障害の修復など、多くのアプローチが提案されている。
このようなテクニックの有効性の最も優れた証明は、実際の障害を検出し、ローカライズし、修正する能力を示す評価である。
これらの評価を容易にするため、研究コミュニティはDLシステムにおける実際の欠陥のベンチマークを複数収集した。
本研究では,5つのベンチマークから490の障害を手動で解析し,その内314が本研究に適していることを確認した。
本研究は,バグが抽出されたソースにどの程度対応しているか,どの障害タイプが表現されているか,また,バグが再現可能かどうかについて,特に焦点を当てる。
以上の結果から, 現実主義的条件を満たす障害は18.5%に過ぎなかった。
再発例は52%に過ぎなかった。
関連論文リスト
- Exploring and Lifting the Robustness of LLM-powered Automated Program Repair with Metamorphic Testing [31.165102332393964]
大規模言語モデルを用いた自動プログラム修復(LAPR)技術は、最先端のバグ修正性能を達成した。
実際に展開する前に、LAPR技術で堅牢性テストを実施することが不可欠である。
LAPR技術専用のメタモルフィックテスティングフレームワークであるMT-LAPRを提案する。
論文 参考訳(メタデータ) (2024-10-10T01:14:58Z) - AutoDetect: Towards a Unified Framework for Automated Weakness Detection in Large Language Models [95.09157454599605]
大規模言語モデル(LLM)はますます強力になってきていますが、それでも顕著ですが微妙な弱点があります。
従来のベンチマークアプローチでは、特定のモデルの欠陥を徹底的に特定することはできない。
さまざまなタスクにまたがるLLMの弱点を自動的に露呈する統合フレームワークであるAutoDetectを導入する。
論文 参考訳(メタデータ) (2024-06-24T15:16:45Z) - SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal Behaviors [64.9938658716425]
安全でないユーザリクエストを認識して拒否する、大規模な言語モデル(LLM)の既存の評価は、3つの制限に直面している。
まず、既存の手法では、安全でないトピックの粗い粒度を使い、いくつかのきめ細かいトピックを過剰に表現している。
第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
第3に、既存の評価は大きなLCMに頼っているため、コストがかかる可能性がある。
論文 参考訳(メタデータ) (2024-06-20T17:56:07Z) - A Comprehensive Library for Benchmarking Multi-class Visual Anomaly Detection [52.228708947607636]
本稿では,新しい手法のモジュラーフレームワークであるADerを包括的視覚異常検出ベンチマークとして紹介する。
このベンチマークには、産業ドメインと医療ドメインからの複数のデータセットが含まれており、15の最先端メソッドと9つの包括的なメトリクスを実装している。
我々は,異なる手法の長所と短所を客観的に明らかにし,多クラス視覚異常検出の課題と今後の方向性について考察する。
論文 参考訳(メタデータ) (2024-06-05T13:40:07Z) - Leveraging Stack Traces for Spectrum-based Fault Localization in the Absence of Failing Tests [44.13331329339185]
我々は,スタックトレースデータをテストカバレッジと統合し,障害局所化を強化する新しいアプローチであるSBESTを導入する。
提案手法では,平均精度(MAP)が32.22%向上し,平均相互ランク(MRR)が17.43%向上した。
論文 参考訳(メタデータ) (2024-05-01T15:15:52Z) - Demystifying Faulty Code with LLM: Step-by-Step Reasoning for Explainable Fault Localization [5.7821087202452]
本研究では, 説明可能な断層定位のためのステップバイステップ推論について検討した。
私たちは600行の欠陥に関する説明とともに、欠陥のあるコードファイルのデータセットを作成しました。
ランダムに採取された30例中22例において,FuseFLは正しい説明が得られた。
論文 参考訳(メタデータ) (2024-03-15T17:47:20Z) - SURE: A Visualized Failure Indexing Approach using Program Memory
Spectrum [2.4151044161696587]
本稿では,プログラムメモリスペクトルを用いたsualized failuRe indExingアプローチであるSUREを提案する。
まず、失敗したテストケースの実行中に、事前に設定されたブレークポイントで実行時のメモリ情報を収集する。
2つの障害のプロキシとして機能するPMSイメージの任意のペアは、トレーニングされたシームズ畳み込みニューラルネットワークに供給される。
論文 参考訳(メタデータ) (2023-10-19T02:04:35Z) - Plugin estimators for selective classification with out-of-distribution
detection [67.28226919253214]
現実世界の分類器は、信頼性の低いサンプルの予測を控えることの恩恵を受けることができる。
これらの設定は、選択分類(SC)とアウト・オブ・ディストリビューション(OOD)の検出文献において広範囲に研究されている。
OOD検出による選択分類に関する最近の研究は、これらの問題の統一的な研究を議論している。
本稿では,既存の手法を理論的に基礎づけ,有効かつ一般化したSCOD用プラグイン推定器を提案する。
論文 参考訳(メタデータ) (2023-01-29T07:45:17Z) - Towards a Fair Comparison and Realistic Design and Evaluation Framework
of Android Malware Detectors [63.75363908696257]
一般的な評価フレームワークを用いて,Androidのマルウェア検出に関する10の研究成果を分析した。
データセットの作成やデザイナの設計に考慮しない場合、トレーニングされたMLモデルに大きく影響する5つの要因を特定します。
その結果,MLに基づく検出器は楽観的に評価され,良好な結果が得られた。
論文 参考訳(メタデータ) (2022-05-25T08:28:08Z) - DeepFD: Automated Fault Diagnosis and Localization for Deep Learning
Programs [15.081278640511998]
DeepFDは学習ベースの障害診断およびローカライゼーションフレームワークである。
フォールトローカライゼーションタスクを学習問題にマップする。
52%の欠陥DLプログラムを正しく診断し、最先端の成果によって達成された約半分(27%)と比較する。
論文 参考訳(メタデータ) (2022-05-04T08:15:56Z) - What Stops Learning-based 3D Registration from Working in the Real
World? [53.68326201131434]
この研究は、3Dポイントのクラウド登録失敗の原因を特定し、その原因を分析し、解決策を提案する。
最終的に、これは最も実践的な3D登録ネットワーク(BPNet)に変換される。
我々のモデルは微調整をせずに実データに一般化し、商用センサで得られた見えない物体の点雲上で最大67%の精度に達する。
論文 参考訳(メタデータ) (2021-11-19T19:24:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。