論文の概要: An Empirical Study of the Realism of Mutants in Deep Learning
- arxiv url: http://arxiv.org/abs/2512.16741v1
- Date: Thu, 18 Dec 2025 16:37:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:32.162056
- Title: An Empirical Study of the Realism of Mutants in Deep Learning
- Title(参考訳): 深層学習におけるミュータントの実在性に関する実証的研究
- Authors: Zaheed Ahmed, Philip Makedonski, Jens Grabowski,
- Abstract要約: 本研究は,深層学習における事前学習と後学習による突然変異アプローチの実証的研究である。
その結果, プレトレーニング変異体は, ポストトレーニング変異体よりも強い結合性を示し, 実断層との挙動類似性が示唆された。
- 参考スコア(独自算出の注目度): 0.34410212782758043
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mutation analysis is a well-established technique for assessing test quality in the traditional software development paradigm by injecting artificial faults into programs. Its application to deep learning (DL) has expanded beyond classical testing to support tasks such as fault localization, repair, data generation, and model robustness evaluation. The core assumption is that mutants behave similarly to real faults, an assumption well established in traditional software systems but largely unverified for DL. This study presents the first empirical comparison of pre-training and post-training mutation approaches in DL with respect to realism. We introduce a statistical framework to quantify their coupling strength and behavioral similarity to real faults using publicly available bugs datasets: CleanML, DeepFD, DeepLocalize, and defect4ML. Mutants are generated using state-of-the-art tools representing both approaches. Results show that pre-training mutants exhibit consistently stronger coupling and higher behavioral similarity to real faults than post-training mutants, indicating greater realism. However, the substantial computational cost of pre-training mutation underscores the need for more effective post-training operators that match or exceed the realism demonstrated by pre-training mutants.
- Abstract(参考訳): 突然変異解析は、プログラムに人工欠陥を注入することによって、従来のソフトウェア開発パラダイムにおけるテスト品質を評価するための確立された手法である。
深層学習(DL)への適用は、故障の局所化、修復、データ生成、モデルロバストネス評価などのタスクをサポートするため、古典的なテストを超えて拡張されている。
核となる仮定は、ミュータントは、従来のソフトウェアシステムでよく確立された仮定である実際のフォールトと同じような振る舞いをするが、DLにはほとんど検証されていないことである。
本研究は、リアリズムに関するDLにおける事前学習と後学習の突然変異アプローチに関する最初の経験的比較を提示する。
cleanML, DeepFD, DeepLocalize, defect4MLという, 公開されているバグデータセットを使用して, 実際の障害との結合強度と行動的類似性を定量化する統計フレームワークを導入する。
ミュータントは、両方のアプローチを表す最先端のツールを使って生成される。
その結果, 事前学習変異体は, ポストトレーニング変異体よりも強い結合性を示し, 行動的類似性も高いことが示唆された。
しかし、事前学習突然変異の実質的な計算コストは、事前学習変異によって示される現実性にマッチまたは超えるより効果的な後学習作用素の必要性を浮き彫りにしている。
関連論文リスト
- WITNESS: A lightweight and practical approach to fine-grained predictive mutation testing [22.980743296712856]
WITNESSは、新しい微細な予測突然変異試験手法である。
トレーニングと予測には軽量な古典的機械学習モデルを使用する。
さまざまなシナリオにわたる最先端の予測パフォーマンスを一貫して達成します。
論文 参考訳(メタデータ) (2025-11-15T02:38:00Z) - Robust Molecular Property Prediction via Densifying Scarce Labeled Data [53.24886143129006]
薬物発見において、研究を進める上で最も重要な化合物は、しばしば訓練セットを越えている。
本稿では, ラベル付きデータを利用して, 分布内データ(ID)と分布外データ(OOD)を補間する2段階最適化手法を提案する。
論文 参考訳(メタデータ) (2025-06-13T15:27:40Z) - Consistency-based Abductive Reasoning over Perceptual Errors of Multiple Pre-trained Models in Novel Environments [5.5855749614100825]
本稿では,複数の事前学習モデルを活用することで,このリコール低減を緩和できるという仮説を述べる。
我々は,一貫性に基づく推論問題として,様々なモデルからの矛盾する予測を特定し,管理することの課題を定式化する。
本研究は,複数の不完全なモデルから得られた知識を,難易度の高い新しいシナリオにおいて堅牢に統合するための効果的なメカニズムとして,一貫性に基づく誘拐の有効性を検証するものである。
論文 参考訳(メタデータ) (2025-05-25T23:17:47Z) - Demystifying amortized causal discovery with transformers [21.058343547918053]
観測データからの因果発見のための教師付き学習アプローチは、しばしば競争性能を達成する。
本研究では,CSIvAについて検討する。CSIvAは,合成データのトレーニングと実データへの転送を約束するトランスフォーマーモデルである。
既存の識別可能性理論とギャップを埋め、トレーニングデータ分布の制約がテスト観測の事前を暗黙的に定義していることを示します。
論文 参考訳(メタデータ) (2024-05-27T08:17:49Z) - Investigating the Robustness of Counterfactual Learning to Rank Models: A Reproducibility Study [71.04084063541777]
ランク付けのためのカウンターファクトラーニングはIRコミュニティで広く注目を集めている。
モデルは、ユーザの振る舞いの仮定が正しく、確率推定が正確であるときに理論的に非バイアス化される。
それらの有効性は通常シミュレーションベースの実験を通じて実証的に評価されるが、これは広く利用可能な大規模で実際のクリックログが不足しているためである。
論文 参考訳(メタデータ) (2024-04-04T10:54:38Z) - Variance of ML-based software fault predictors: are we really improving
fault prediction? [0.3222802562733786]
我々は、最先端の故障予測手法のばらつきを実験的に分析する。
我々は,クラス毎の精度測定値において最大10.10%のばらつきを観測した。
論文 参考訳(メタデータ) (2023-10-26T09:31:32Z) - TWINS: A Fine-Tuning Framework for Improved Transferability of
Adversarial Robustness and Generalization [89.54947228958494]
本稿では,様々な分類タスクにおいて,逆向きに事前訓練されたモデルの微調整に焦点を当てる。
本稿では,TWINS(Two-WIng NormliSation)ファインチューニングフレームワークを提案する。
TWINSは、一般化とロバスト性の両方の観点から、幅広い画像分類データセットに有効であることが示されている。
論文 参考訳(メタデータ) (2023-03-20T14:12:55Z) - Improving Maximum Likelihood Training for Text Generation with Density
Ratio Estimation [51.091890311312085]
本稿では,テキスト生成で遭遇する大規模なサンプル空間において,効率よく安定な自動回帰シーケンス生成モデルのトレーニング手法を提案する。
本手法は,品質と多様性の両面で,最大類似度推定や他の最先端シーケンス生成モデルよりも安定に優れている。
論文 参考訳(メタデータ) (2020-07-12T15:31:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。