論文の概要: RBT4DNN: Requirements-based Testing of Neural Networks
- arxiv url: http://arxiv.org/abs/2504.02737v2
- Date: Fri, 04 Apr 2025 01:24:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-14 11:12:54.466774
- Title: RBT4DNN: Requirements-based Testing of Neural Networks
- Title(参考訳): RBT4DNN: ニューラルネットワークの要求ベーステスト
- Authors: Nusrat Jahan Mozumder, Felipe Toledo, Swaroopa Dola, Matthew B. Dwyer,
- Abstract要約: ディープニューラルネットワーク(DNN)テストは、障害が深刻な結果をもたらすクリティカルシステムの信頼性と安全性に不可欠である。
本稿では, セマンティックな特徴空間で定式化された自然言語要求を用いて, テストスイートを作成するための要件ベースのテストスイート生成手法を提案する。
MNIST、CelebA-HQ、ImageNet、および自律運転データセットに関する我々の実験は、生成されたテストスイートが現実的で、多様性があり、事前条件と整合性があり、欠陥を明らかにすることができることを示した。
- 参考スコア(独自算出の注目度): 16.90562395404293
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep neural network (DNN) testing is crucial for the reliability and safety of critical systems, where failures can have severe consequences. Although various techniques have been developed to create robustness test suites, requirements-based testing for DNNs remains largely unexplored - yet such tests are recognized as an essential component of software validation of critical systems. In this work, we propose a requirements-based test suite generation method that uses structured natural language requirements formulated in a semantic feature space to create test suites by prompting text-conditional latent diffusion models with the requirement precondition and then using the associated postcondition to define a test oracle to judge outputs of the DNN under test. We investigate the approach using fine-tuned variants of pre-trained generative models. Our experiments on the MNIST, CelebA-HQ, ImageNet, and autonomous car driving datasets demonstrate that the generated test suites are realistic, diverse, consistent with preconditions, and capable of revealing faults.
- Abstract(参考訳): ディープニューラルネットワーク(DNN)テストは、障害が深刻な結果をもたらすクリティカルシステムの信頼性と安全性に不可欠である。
堅牢性テストスイートを作成するために様々な技術が開発されているが、DNNの要件ベースのテストはほとんど探索されていない。
本研究では,要求条件付きテキスト条件付き潜時拡散モデルを作成し,関連する後条件を用いて,テスト中のDNNの出力を判断するためのテストオラクルを定義することで,セマンティック特徴空間で定式化された構造化自然言語要求を用いてテストスイートを作成する。
事前学習した生成モデルの微調整によるアプローチについて検討する。
MNIST、CelebA-HQ、ImageNet、および自律運転データセットに関する我々の実験は、生成されたテストスイートが現実的で、多様性があり、事前条件と整合性があり、欠陥を明らかにすることができることを示した。
関連論文リスト
- Validating Formal Specifications with LLM-generated Test Cases [1.2031796234206136]
本稿では,事前学習された大規模言語モデル(LLM)を用いて,自然言語要求からテストケースを生成する実験結果について報告する。
評価は最先端の GPT-5 モデルに焦点をあてるが,他のクローズドおよびオープンソース LLM の結果も報告する。
論文 参考訳(メタデータ) (2025-10-27T14:02:20Z) - Accelerated Test-Time Scaling with Model-Free Speculative Sampling [58.69141724095398]
STAND(Stochastic Adaptive N-gram Drafting)は,新しいモデルフリーな投機的デコード手法である。
従来の自己回帰復号法と比較して,STANDは推論遅延を60~65%削減することを示した。
モデルフリーのアプローチとして、STANDは追加のトレーニングなしで既存の言語モデルに適用できる。
論文 参考訳(メタデータ) (2025-06-05T07:31:18Z) - Context-Aware Testing: A New Paradigm for Model Testing with Large Language Models [49.06068319380296]
我々は,コンテキストを帰納バイアスとして用いて意味のあるモデル障害を探索するコンテキスト認識テスト(CAT)を導入する。
最初のCATシステムSMART Testingをインスタンス化し、大きな言語モデルを用いて、関連性があり、起こりうる失敗を仮説化します。
論文 参考訳(メタデータ) (2024-10-31T15:06:16Z) - Provably Neural Active Learning Succeeds via Prioritizing Perplexing Samples [53.95282502030541]
ニューラルネットワークベースのアクティブラーニング(NAL)は、ニューラルネットワークを使用してサンプルの小さなサブセットを選択してトレーニングする、費用対効果の高いデータ選択技術である。
我々は、機能学習の観点から、両方のクエリ基準ベースのNALの成功について、統一的な説明を提供することにより、一歩前進させようとする。
論文 参考訳(メタデータ) (2024-06-06T10:38:01Z) - DeepSample: DNN sampling-based testing for operational accuracy assessment [12.029919627622954]
ディープニューラルネットワーク(Deep Neural Networks, DNN)は、多くのソフトウェアシステムの分類および回帰タスクのコアコンポーネントである。
課題は、ラベリングコストを減らすために、可能な限り小さなテスト入力の代表的なセットを選択することである。
本研究では,費用対効果評価のためのDNNテスト技術のファミリーであるDeepSampleについて述べる。
論文 参考訳(メタデータ) (2024-03-28T09:56:26Z) - Test Generation Strategies for Building Failure Models and Explaining
Spurious Failures [4.995172162560306]
テスト入力は、テスト対象のシステムが故障している場合だけでなく、入力が無効または非現実的である場合も失敗する。
テストインプットに対して解釈可能なルールを推論し,重大な障害を引き起こす障害モデルを構築することを提案する。
提案手法は, 平均精度83%の故障モデルを生成する。
論文 参考訳(メタデータ) (2023-12-09T18:36:15Z) - GIST: Generated Inputs Sets Transferability in Deep Learning [12.147546375400749]
GIST(Generated Inputs Sets Transferability)は、テストセットの効率的な転送のための新しいアプローチである。
本稿では,テストセットの効率的な転送のための新しいアプローチであるGISTを紹介する。
論文 参考訳(メタデータ) (2023-11-01T19:35:18Z) - Deep anytime-valid hypothesis testing [29.273915933729057]
非パラメトリックなテスト問題に対する強力なシーケンシャルな仮説テストを構築するための一般的なフレームワークを提案する。
テスト・バイ・ベッティング・フレームワーク内で、機械学習モデルの表現能力を活用するための原則的なアプローチを開発する。
合成および実世界のデータセットに関する実証的な結果は、我々の一般的なフレームワークを用いてインスタンス化されたテストが、特殊なベースラインと競合することを示している。
論文 参考訳(メタデータ) (2023-10-30T09:46:19Z) - Skill-Based Few-Shot Selection for In-Context Learning [123.26522773708683]
Skill-KNNは、文脈内学習のためのスキルベースの少ショット選択手法である。
モデルはトレーニングや微調整を必要とせず、頻繁に銀行を拡大したり変更したりするのに適している。
5つのドメイン間セマンティックパーシングデータセットと6つのバックボーンモデルによる実験結果から、Skill-KNNは既存の手法よりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2023-05-23T16:28:29Z) - Zero-shot Model Diagnosis [80.36063332820568]
ディープラーニングモデルを評価するための一般的なアプローチは、興味のある属性を持つラベル付きテストセットを構築し、そのパフォーマンスを評価することである。
本稿では,ゼロショットモデル診断(ZOOM)がテストセットやラベル付けを必要とせずに可能であることを論じる。
論文 参考訳(メタデータ) (2023-03-27T17:59:33Z) - Validation Diagnostics for SBI algorithms based on Normalizing Flows [55.41644538483948]
本研究は,NFに基づく多次元条件(後)密度推定器の検証診断を容易にすることを提案する。
また、局所的な一貫性の結果に基づいた理論的保証も提供する。
この作業は、より良い特定モデルの設計を支援したり、新しいSBIアルゴリズムの開発を促進するのに役立つだろう。
論文 参考訳(メタデータ) (2022-11-17T15:48:06Z) - Comparative Analysis of Interval Reachability for Robust Implicit and
Feedforward Neural Networks [64.23331120621118]
我々は、暗黙的ニューラルネットワーク(INN)の堅牢性を保証するために、区間到達可能性分析を用いる。
INNは暗黙の方程式をレイヤとして使用する暗黙の学習モデルのクラスである。
提案手法は, INNに最先端の区間境界伝搬法を適用するよりも, 少なくとも, 一般的には, 有効であることを示す。
論文 参考訳(メタデータ) (2022-04-01T03:31:27Z) - Machine Learning Testing in an ADAS Case Study Using
Simulation-Integrated Bio-Inspired Search-Based Testing [7.5828169434922]
Deeperは、ディープニューラルネットワークベースの車線保持システムをテストするための障害検出テストシナリオを生成する。
新たに提案されたバージョンでは、新しいバイオインスパイアされた検索アルゴリズム、遺伝的アルゴリズム(GA)、$(mu+lambda)$および$(mu,lambda)$進化戦略(ES)、およびParticle Swarm Optimization(PSO)を利用する。
評価の結果,Deeperで新たに提案したテストジェネレータは,以前のバージョンよりも大幅に改善されている。
論文 参考訳(メタデータ) (2022-03-22T20:27:40Z) - ALT-MAS: A Data-Efficient Framework for Active Testing of Machine
Learning Algorithms [58.684954492439424]
少量のラベル付きテストデータのみを用いて機械学習モデルを効率的にテストする新しいフレームワークを提案する。
ベイズニューラルネットワーク(bnn)を用いたモデルアンダーテストの関心指標の推定が目的である。
論文 参考訳(メタデータ) (2021-04-11T12:14:04Z) - Distribution-Aware Testing of Neural Networks Using Generative Models [5.618419134365903]
ディープニューラルネットワーク(DNN)をコンポーネントとして持つソフトウェアの信頼性は、緊急に重要である。
最近の3つのテスト手法が, かなりの数の不正なテスト入力を生成することを示す。
テスト生成プロセスにおいて,テスト中のDNNモデルの有効な入力空間を組み込む手法を提案する。
論文 参考訳(メタデータ) (2021-02-26T17:18:21Z) - Multi-Sample Online Learning for Probabilistic Spiking Neural Networks [43.8805663900608]
スパイキングニューラルネットワーク(SNN)は、推論と学習のための生物学的脳の効率の一部をキャプチャする。
本稿では,一般化予測最大化(GEM)に基づくオンライン学習ルールを提案する。
標準ニューロモルフィックデータセットにおける構造化された出力記憶と分類実験の結果,ログの類似性,精度,キャリブレーションの点で大きな改善が見られた。
論文 参考訳(メタデータ) (2020-07-23T10:03:58Z) - Modeling from Features: a Mean-field Framework for Over-parameterized
Deep Neural Networks [54.27962244835622]
本稿では、オーバーパラメータ化ディープニューラルネットワーク(DNN)のための新しい平均場フレームワークを提案する。
このフレームワークでは、DNNは連続的な極限におけるその特徴に対する確率測度と関数によって表現される。
本稿では、標準DNNとResidual Network(Res-Net)アーキテクチャを通してフレームワークを説明する。
論文 参考訳(メタデータ) (2020-07-03T01:37:16Z) - NADS: Neural Architecture Distribution Search for Uncertainty Awareness [79.18710225716791]
機械学習(ML)システムは、トレーニングデータとは異なるディストリビューションから来るテストデータを扱う場合、しばしばOoD(Out-of-Distribution)エラーに遭遇する。
既存のOoD検出アプローチはエラーを起こしやすく、時にはOoDサンプルに高い確率を割り当てることもある。
本稿では,すべての不確実性を考慮したアーキテクチャの共通構築ブロックを特定するために,ニューラルアーキテクチャ分布探索(NADS)を提案する。
論文 参考訳(メタデータ) (2020-06-11T17:39:07Z) - Scalable Quantitative Verification For Deep Neural Networks [44.570783946111334]
ディープニューラルネットワーク(DNN)のためのテスト駆動検証フレームワークを提案する。
本手法は,形式的確率特性の健全性が証明されるまで,十分な試験を行う。
われわれの研究は、現実世界のディープニューラルネットワークが捉えた分布の性質を、証明可能な保証で検証する方法を開拓している。
論文 参考訳(メタデータ) (2020-02-17T09:53:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。