論文の概要: Deep Learning Framework Testing via Model Mutation: How Far Are We?
- arxiv url: http://arxiv.org/abs/2506.17638v1
- Date: Sat, 21 Jun 2025 08:44:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.521521
- Title: Deep Learning Framework Testing via Model Mutation: How Far Are We?
- Title(参考訳): モデル変異によるディープラーニングフレームワークのテスト: どこまであるのか?
- Authors: Yanzhou Mu, Rong Wang, Juan Zhai, Chunrong Fang, Xiang Chen, Zhiyuan Peng, Peiran Yang, Ruixiang Qian, Shaoyu Yang, Zhenyu Chen,
- Abstract要約: 既存の突然変異に基づく検査手法の欠陥検出機能を再検討する。
わずか23モデルで39のユニークな欠陥を特定しました。そのうち31は開発者によって確認され、8つは修正されました。
- 参考スコア(独自算出の注目度): 30.292791319442404
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep Learning (DL) frameworks are a fundamental component of DL development. Therefore, the detection of DL framework defects is important and challenging. As one of the most widely adopted DL testing techniques, model mutation has recently gained significant attention. In this study, we revisit the defect detection ability of existing mutation-based testing methods and investigate the factors that influence their effectiveness. To begin with, we reviewed existing methods and observed that many of them mutate DL models (e.g., changing their parameters) without any customization, ignoring the unique challenges in framework testing. Another issue with these methods is their limited effectiveness, characterized by a high rate of false positives caused by illegal mutations arising from the use of generic, non-customized mutation operators. Moreover, we tracked the defects identified by these methods and discovered that most of them were ignored by developers. Motivated by these observations, we investigate the effectiveness of existing mutation-based testing methods in detecting important defects that have been authenticated by framework developers. We begin by collecting defect reports from three popular frameworks and classifying them based on framework developers' ratings to build a comprehensive dataset. We then perform an in-depth analysis to uncover valuable insights. Based on our findings, we propose optimization strategies to address the shortcomings of existing approaches. Following these optimizations, we identified seven new defects, four of which were confirmed by developers as high-priority issues, with three resolved. In summary, we identified 39 unique defects across just 23 models, of which 31 were confirmed by developers, and eight have been fixed.
- Abstract(参考訳): ディープラーニング(DL)フレームワークは、DL開発の基本コンポーネントである。
したがって,DLフレームワークの欠陥の検出は重要かつ困難である。
最も広く採用されているDL試験手法の1つとして、モデル変異が近年注目されている。
本研究では,既存の突然変異検査手法の欠陥検出能力を再考し,その効果に影響を与える因子について検討する。
まず、既存のメソッドをレビューし、その多くがDLモデル(例えばパラメータの変更)をカスタマイズせずに変更し、フレームワークテストにおけるユニークな課題を無視しているのを観察しました。
これらの方法のもう1つの問題は、その限定された有効性であり、一般的な非共生突然変異演算子の使用によって生じる違法な突然変異による偽陽性の頻度が特徴である。
さらに、これらの手法によって同定された欠陥を追跡し、そのほとんどは開発者によって無視されていることを発見した。
本研究の目的は, フレームワーク開発者によって認証された重要な欠陥の検出において, 既存の突然変異に基づく検査手法の有効性を検討することである。
まず、人気のある3つのフレームワークから欠陥レポートを収集し、フレームワーク開発者の評価に基づいてそれらを分類して、包括的なデータセットを構築します。
そして、価値ある洞察を明らかにするために、詳細な分析を行います。
そこで本研究では,既存手法の欠点に対処するための最適化手法を提案する。
これらの最適化に続いて、我々は7つの新しい欠陥を特定し、そのうち4つは開発者が優先度の高い問題として確認し、3つは解決した。
まとめると、わずか23モデルにわたる39のユニークな欠陥を特定し、そのうち31が開発者によって確認され、8が修正されました。
関連論文リスト
- A Framework for Creating Non-Regressive Test Cases via Branch Consistency Analysis Driven by Descriptions [9.141981611891715]
DISTINCT は Description-guided, branch-consistency analysis framework である。
LLM(Large Language Model)ベースのジェネレータを障害対応テストジェネレータに変換する。
コンパイル成功率(CSR)が14.64%、通過率(PR)が6.66%の平均的な改善を実現している。
論文 参考訳(メタデータ) (2025-06-09T07:05:48Z) - Data Fusion for Partial Identification of Causal Effects [62.56890808004615]
本稿では,研究者が重要な疑問に答えられるような,新しい部分的識別フレームワークを提案する。
因果効果は肯定的か否定的か?
本研究の枠組みをSTARプロジェクトに適用し,第3級の標準試験性能に対する教室規模の影響について検討する。
論文 参考訳(メタデータ) (2025-05-30T07:13:01Z) - On the Within-class Variation Issue in Alzheimer's Disease Detection [60.08015780474457]
Alzheimer's Disease (AD) 検出では、ADと非ADの個人を区別するために、機械学習の分類モデルを使用している。
そこで本研究では,サンプルスコア推定器を用いて,認知的スコアと整合した標本特異的なソフトスコアを生成できることを確認した。
ソフトターゲット蒸留(SoTD)とインスタンスレベルの再分散(InRe)の2つの簡易かつ効果的な方法を提案する。
論文 参考訳(メタデータ) (2024-09-22T02:06:05Z) - An Exploratory Study on Using Large Language Models for Mutation Testing [32.91472707292504]
LLM(Large Language Models)は、コードに関連するタスクにおいて大きな可能性を示しているが、突然変異テストにおけるそれらの有用性は未解明のままである。
本稿では, LLMのユーザビリティ, 障害検出可能性, および実際のバグとの関係について, 効果的な突然変異生成における性能について検討する。
既存のアプローチと比較して、LSMは実際のバグに近い振る舞いをする、より多様な突然変異を生成する。
論文 参考訳(メタデータ) (2024-06-14T08:49:41Z) - Semi-supervised Anomaly Detection via Adaptive Reinforcement Learning-Enabled Method with Causal Inference for Sensor Signals [15.249261198557218]
センサ信号の半教師付き異常検出は、スマート製造におけるシステムの信頼性確保に不可欠である。
本稿では,三重補足型因果強化学習モデル(Tri-CRLAD)を革新的に構築する。
7つのセンサ信号データセットに対する実験結果から、Tri-CRLADは9つの最先端のベースライン法より優れていることが示された。
論文 参考訳(メタデータ) (2024-05-11T06:10:05Z) - Unified Uncertainty Estimation for Cognitive Diagnosis Models [70.46998436898205]
本稿では,幅広い認知診断モデルに対する統一的不確実性推定手法を提案する。
診断パラメータの不確かさをデータ・アスペクトとモデル・アスペクトに分解する。
本手法は有効であり,認知診断の不確実性に関する有用な知見を提供することができる。
論文 参考訳(メタデータ) (2024-03-09T13:48:20Z) - Self-supervised Feature Adaptation for 3D Industrial Anomaly Detection [59.41026558455904]
具体的には,大規模ビジュアルデータセット上で事前学習されたモデルを利用した初期のマルチモーダルアプローチについて検討する。
本研究では,アダプタを微調整し,異常検出に向けたタスク指向の表現を学習するためのLSFA法を提案する。
論文 参考訳(メタデータ) (2024-01-06T07:30:41Z) - A Stitch in Time Saves Nine: Detecting and Mitigating Hallucinations of
LLMs by Validating Low-Confidence Generation [76.34411067299331]
大規模な言語モデルは、しばしば信頼性を著しく損なう「ハロシン化」する傾向がある。
生成過程における幻覚を積極的に検出・緩和する手法を提案する。
提案手法は, GPT-3.5モデルの幻覚を平均47.5%から14.5%に低減する。
論文 参考訳(メタデータ) (2023-07-08T14:25:57Z) - On Pitfalls of Test-Time Adaptation [82.8392232222119]
TTA(Test-Time Adaptation)は、分散シフトの下で堅牢性に取り組むための有望なアプローチとして登場した。
TTABは,10の最先端アルゴリズム,多種多様な分散シフト,および2つの評価プロトコルを含むテスト時間適応ベンチマークである。
論文 参考訳(メタデータ) (2023-06-06T09:35:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。