Fugu-MT 論文翻訳(概要): Systematic Evaluation of Black-Box Checking for Fast Bug Detection

論文の概要: Systematic Evaluation of Black-Box Checking for Fast Bug Detection

arxiv url: http://arxiv.org/abs/2512.07434v1
Date: Mon, 08 Dec 2025 11:10:05 GMT
ステータス: 翻訳完了
システム内更新日: 2025-12-09 22:03:54.853927
Title: Systematic Evaluation of Black-Box Checking for Fast Bug Detection
Title（参考訳）: 高速バグ検出のためのブラックボックスチェックのシステム評価
Authors: Bram Pellen, María Belén Rodríguez, Frits Vaandrager, Petra van den Bos,
Abstract要約: 我々は,ブラックボックスチェック(BBC)によるバグの早期発見能力について,最初の体系的評価を行った。 BBCは、モデルチェックがフルモデルでのみ使用されるアプローチで必要とされるクエリの3.4%で仕様の違反を検出する。我々の結果は、BBCが既存のMBTアルゴリズムよりも、実装の深いバグを見つけるのにずっと効果的であることも確認しています。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Combinations of active automata learning, model-based testing and model checking have been successfully used in numerous applications, e.g., for spotting bugs in implementations of major network protocols and to support refactoring of embedded controllers. However, in the large majority of these applications, model checking is only used at the very end, when no counterexample can be found anymore for the latest hypothesis model. This contrasts with the original proposal of black-box checking (BBC) by Peled, Vardi & Yannakakis, which applies model checking for all hypotheses, also the intermediate ones. In this article, we present the first systematic evaluation of the ability of BBC to find bugs quickly, based on 77 benchmarks models from real protocol implementations and controllers for which specifications of safety properties are available. Our main finding are: (a) In cases where the full model can be learned, BBC detects violations of the specifications with just 3.4% of the queries needed by an approach in which model checking is only used for the full model. (b) Even when the full model cannot be learned, BBC is still able to detect many violations of the specification. In particular, BBC manages to detect 94% of the safety properties violations in the challenging RERS 2019 industrial LTL benchmarks. (c) Our results also confirm that BBC is way more effective than existing MBT algorithms in finding deep bugs in implementations.
Abstract（参考訳）: アクティブオートマトン学習、モデルベーステスト、モデルチェックの組み合わせは、主要なネットワークプロトコルの実装におけるバグの発見や、組み込みコントローラのリファクタリングのサポートなど、多くのアプリケーションで成功している。しかし、ほとんどのアプリケーションでは、最新の仮説モデルに対して逆例が見つからないときのみモデル検査が使用される。これは、Peled, Vardi & Yannakakis による Black-box check (BBC) という当初の提案とは対照的である。本稿では、実際のプロトコル実装とコントローラのベンチマークモデルに基づいて、BBCがバグを迅速に発見できる能力について、初めて体系的に評価する。主な発見は次のとおりである。 (a)フルモデルを学ぶことができる場合、BBCは、モデルチェックがフルモデルにのみ使用されるアプローチで必要とされるクエリのわずか3.4%で、仕様の違反を検出する。 (b) 完全なモデルが学べない場合でも、BBCは仕様の多くの違反を検出することができる。特に、BBCは、挑戦的なRERS 2019産業用LTLベンチマークにおいて、安全プロパティ違反の94%を検出することに成功している。 (c)実装の深いバグを見つける上で,既存のMBTアルゴリズムよりもBBCの方がはるかに効果的であることを確認した。

関連論文リスト

Predicting the Performance of Black-box LLMs through Self-Queries [60.87193950962585]
大規模言語モデル(LLM)は、AIシステムにおいてますます頼りになってきている。本稿では、フォローアッププロンプトを使用し、異なる応答の確率を表現として捉え、ブラックボックス方式でLCMの特徴を抽出する。これらの低次元表現上で線形モデルをトレーニングすると、インスタンスレベルでのモデル性能の信頼性を予測できることを示す。
論文参考訳（メタデータ） (2025-01-02T22:26:54Z)
Steering Without Side Effects: Improving Post-Deployment Control of Language Models [61.99293520621248]
言語モデル(LM)は、デプロイ後予期せず振る舞うことが示されている。 KL-then-steer (KTS) は, その利点を保ちながら, 操舵の副作用を低減する技術である。本手法はLlama-2-chat-7Bモデルと比較して44%のジェイルブレイク攻撃を防ぐ。
論文参考訳（メタデータ） (2024-06-21T01:37:39Z)
Systematic Review: Anomaly Detection in Connected and Autonomous Vehicles [0.0]
この系統的なレビューは、連結車両と自律車両の異常検出に焦点を当てている。異常検出に最もよく使用される人工知能(AI)アルゴリズムは、LSTM、CNN、オートエンコーダなどのニューラルネットワークと1クラスのSVMである。自動車への異常検出の展開を調査し,道路上での性能評価を行うためには,今後の研究が必要である。
論文参考訳（メタデータ） (2024-05-04T18:31:38Z)
MPI Errors Detection using GNN Embedding and Vector Embedding over LLVM IR [4.886354697795285]
本稿では,組込みおよび深層学習グラフニューラルネットワーク(GNN)を用いて,MPIプログラムのバグを識別する問題に対処する。我々は、コードのLLVM中間表現(IR)から、コードが正しいか、既知のMPIエラーを含むかを判断できる2つのモデルの設計と開発を行った。
論文参考訳（メタデータ） (2024-03-04T22:08:37Z)
GPT-HateCheck: Can LLMs Write Better Functional Tests for Hate Speech Detection? [50.53312866647302]
HateCheckは、合成データに対してきめ細かいモデル機能をテストするスイートである。 GPT-HateCheckは,スクラッチからより多彩で現実的な機能テストを生成するフレームワークである。クラウドソースのアノテーションは、生成されたテストケースが高品質であることを示しています。
論文参考訳（メタデータ） (2024-02-23T10:02:01Z)
Probing Model Signal-Awareness via Prediction-Preserving Input Minimization [67.62847721118142]
モデルが正しい脆弱性信号を捕捉して予測する能力を評価する。 SAR(Signal-Aware Recall)と呼ばれる新しい指標を用いて,モデルの信号認識を計測する。その結果,90年代以降のリコールから60年代以降のリコールは,新たな指標で大幅に減少した。
論文参考訳（メタデータ） (2020-11-25T20:05:23Z)
Model Assertions for Monitoring and Improving ML Models [26.90089824436192]
本稿では,MLモデルの監視と改善を行う手段として,プログラムアサーションの古典的利用に適応した新しい抽象化,モデルアサーションを提案する。モデルアサーションは、モデルがいつエラーが発生したかを示す入力と出力の任意の関数である。本稿では,ランタイム監視,ラベルの検証,MLモデルの継続的な改善など,MLシステムデプロイメントのすべての段階におけるモデルアサーションの使用方法を提案する。
論文参考訳（メタデータ） (2020-03-03T17:49:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。