論文の概要: Improving Deep Learning Framework Testing with Model-Level Metamorphic Testing
- arxiv url: http://arxiv.org/abs/2507.04354v1
- Date: Sun, 06 Jul 2025 11:38:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.13575
- Title: Improving Deep Learning Framework Testing with Model-Level Metamorphic Testing
- Title(参考訳): モデルレベル変成テストによるディープラーニングフレームワークテストの改善
- Authors: Yanzhou Mu, Juan Zhai, Chunrong Fang, Xiang Chen, Zhixiang Cao, Peiran Yang, Kexin Zhao, An Guo, Zhenyu Chen,
- Abstract要約: DL(Deep Learning)フレームワークは、DLベースのソフトウェアシステムに必須であり、フレームワークのバグは重大な災害につながる可能性がある。
研究者はDLモデルや単一インターフェースをテスト入力として採用し、実行結果を分析してバグを検出する。
浮動小数点誤差、固有のランダム性、そしてテスト入力の複雑さは、実行結果を効果的に分析することを困難にしている。
- 参考スコア(独自算出の注目度): 19.880543046739252
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning (DL) frameworks are essential to DL-based software systems, and framework bugs may lead to substantial disasters, thus requiring effective testing. Researchers adopt DL models or single interfaces as test inputs and analyze their execution results to detect bugs. However, floating-point errors, inherent randomness, and the complexity of test inputs make it challenging to analyze execution results effectively, leading to existing methods suffering from a lack of suitable test oracles. Some researchers utilize metamorphic testing to tackle this challenge. They design Metamorphic Relations (MRs) based on input data and parameter settings of a single framework interface to generate equivalent test inputs, ensuring consistent execution results between original and generated test inputs. Despite their promising effectiveness, they still face certain limitations. (1) Existing MRs overlook structural complexity, limiting test input diversity. (2) Existing MRs focus on limited interfaces, which limits generalization and necessitates additional adaptations. (3) Their detected bugs are related to the result consistency of single interfaces and far from those exposed in multi-interface combinations and runtime metrics (e.g., resource usage). To address these limitations, we propose ModelMeta, a model-level metamorphic testing method for DL frameworks with four MRs focused on the structure characteristics of DL models. ModelMeta augments seed models with diverse interface combinations to generate test inputs with consistent outputs, guided by the QR-DQN strategy. It then detects bugs through fine-grained analysis of training loss/gradients, memory/GPU usage, and execution time.
- Abstract(参考訳): ディープラーニング(DL)フレームワークは、DLベースのソフトウェアシステムに必須であり、フレームワークのバグは重大な災害につながる可能性があるため、効果的なテストが必要である。
研究者はDLモデルや単一インターフェースをテスト入力として採用し、実行結果を分析してバグを検出する。
しかし、浮動小数点誤差、固有乱数性、およびテスト入力の複雑さは、実行結果を効果的に分析することが困難となり、既存のメソッドは適切なテストオラクルの欠如に悩まされる。
一部の研究者はこの課題に対処するために変成テストを利用する。
彼らは、単一のフレームワークインターフェースの入力データとパラメータ設定に基づいてメタモルフィックリレーショナル(MR)を設計し、等価なテストインプットを生成し、元のテストインプットと生成されたテストインプットの間に一貫した実行結果を保証する。
その有望な効果にもかかわらず、それらはまだ一定の限界に直面している。
1)既存のMRは構造的複雑さを見落とし、入力の多様性を制限している。
2)既存のMRは、一般化を制限し、追加の適応を必要とする限られたインタフェースに重点を置いている。
(3) 検出されたバグは、単一のインターフェースの結果の一貫性に関係しており、マルチインターフェースの組み合わせと実行時のメトリクス(例えば、リソース使用量)に露呈するものとはかけ離れている。
これらの制約に対処するため、我々は、DLモデルの構造特性に着目した4つのMRを持つDLフレームワークのモデルレベルのメタモルフィックテスト手法であるModelMetaを提案する。
ModelMetaは、QR-DQN戦略によってガイドされた、テストインプットと一貫した出力を生成するために、さまざまなインターフェースの組み合わせでシードモデルを拡張する。
そして、トレーニング損失/段階、メモリ/GPU使用量、実行時間のきめ細かい分析を通じてバグを検出する。
関連論文リスト
- LlamaRestTest: Effective REST API Testing with Small Language Models [50.058600784556816]
LlamaRestTestは、2つのLLM(Large Language Models)を使って現実的なテストインプットを生成する新しいアプローチである。
私たちは、GPTを使った仕様強化ツールであるRESTGPTなど、最先端のREST APIテストツールに対して、これを評価しています。
私たちの研究は、REST APIテストにおいて、小さな言語モデルは、大きな言語モデルと同様に、あるいは、より良く機能することができることを示しています。
論文 参考訳(メタデータ) (2025-01-15T05:51:20Z) - Context-Aware Testing: A New Paradigm for Model Testing with Large Language Models [49.06068319380296]
我々は,コンテキストを帰納バイアスとして用いて意味のあるモデル障害を探索するコンテキスト認識テスト(CAT)を導入する。
最初のCATシステムSMART Testingをインスタンス化し、大きな言語モデルを用いて、関連性があり、起こりうる失敗を仮説化します。
論文 参考訳(メタデータ) (2024-10-31T15:06:16Z) - SYNTHEVAL: Hybrid Behavioral Testing of NLP Models with Synthetic CheckLists [59.08999823652293]
我々は,NLPモデルの包括的評価のために,SyntheVALを提案する。
最後の段階では、人間の専門家が困難な例を調査し、手動でテンプレートを設計し、タスク固有のモデルが一貫して示す障害の種類を特定します。
我々は、感情分析と有害言語検出という2つの分類課題にSynTHEVALを適用し、これらの課題における強力なモデルの弱点を特定するのに、我々のフレームワークが有効であることを示す。
論文 参考訳(メタデータ) (2024-08-30T17:41:30Z) - Scalable Similarity-Aware Test Suite Minimization with Reinforcement Learning [6.9290255098776425]
TripRLは、多種多様なテストスイートを高いテスト効率で生成する新しい技術である。
本稿では,TripRLのランタイムは,Multi-Criteria Test Suite Minimization問題の規模と線形にスケール可能であることを示す。
論文 参考訳(メタデータ) (2024-08-24T08:43:03Z) - Deep anytime-valid hypothesis testing [29.273915933729057]
非パラメトリックなテスト問題に対する強力なシーケンシャルな仮説テストを構築するための一般的なフレームワークを提案する。
テスト・バイ・ベッティング・フレームワーク内で、機械学習モデルの表現能力を活用するための原則的なアプローチを開発する。
合成および実世界のデータセットに関する実証的な結果は、我々の一般的なフレームワークを用いてインスタンス化されたテストが、特殊なベースラインと競合することを示している。
論文 参考訳(メタデータ) (2023-10-30T09:46:19Z) - Single-Stage Visual Relationship Learning using Conditional Queries [60.90880759475021]
TraCQは、マルチタスク学習問題とエンティティペアの分布を回避する、シーングラフ生成の新しい定式化である。
我々は,DETRをベースとしたエンコーダ-デコーダ条件付きクエリを用いて,エンティティラベル空間を大幅に削減する。
実験結果から、TraCQは既存のシングルステージシーングラフ生成法よりも優れており、Visual Genomeデータセットの最先端の2段階メソッドを多く上回っていることがわかった。
論文 参考訳(メタデータ) (2023-06-09T06:02:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。