論文の概要: FlyCatcher: Neural Inference of Runtime Checkers from Tests
- arxiv url: http://arxiv.org/abs/2604.22028v1
- Date: Thu, 23 Apr 2026 19:43:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-27 15:36:26.248714
- Title: FlyCatcher: Neural Inference of Runtime Checkers from Tests
- Title(参考訳): FlyCatcher: テストからのランタイムチェッカーのニューラル推論
- Authors: Beatriz Souza, Chang Lou, Suman Nath, Michael Pradel,
- Abstract要約: FlyCatcherは、既存のテストからランタイムチェッカーを誘導する自動化アプローチである。
特定のメソッド呼び出しを監視し、呼び出し時に保持すべきプロパティをアサートするチェッカーを推論する。
最先端のアプローチと比較して、我々のアプローチは2.6倍の正確なチェッカーを推測し、5.2倍のエラーを検出できる。
- 参考スコア(独自算出の注目度): 15.772540292298151
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Complex software systems often suffer from silent failures, i.e., violations of the intended semantics that do not cause explicit errors. A promising approach to detect such errors is to use system-specific runtime checkers that monitor the execution of a system and check for violations of the intended semantics. However, writing such checkers for a given software system is challenging and time-consuming, and hence, rarely done in practice. This work presents FlyCatcher, an automated approach to derive runtime checkers from existing tests, i.e., from a resource available for most software systems. The critical challenge of such an approach is to generalize the behavioral properties encoded in a test case to arbitrary executions of a system. FlyCatcher addresses this challenge through a combination of LLM-based synthesis, static analysis, and dynamic validation, which infers a checker that monitors specific method calls and asserts properties that should hold when they are called. The inferred checkers are stateful, i.e., they reason about the system's behavior by maintaining a shadow state that abstracts the actual system state as needed by the checker. Our evaluation applies FlyCatcher to 400 tests from four widely used, complex software systems. The approach infers 334 checkers, out of which 300 are found to be correct via cross-validation. Compared with a state-of-the-art approach, our approach infers 2.6x more correct checkers, which enables it to detect 5.2x more errors. By contributing to the automated inference of runtime checkers from tests, this work enables the broader adoption of runtime checking as a practical approach to detect silent failures in complex software systems.
- Abstract(参考訳): 複雑なソフトウェアシステムは、しばしばサイレントな失敗、すなわち明示的なエラーを起こさない意味論の違反に悩まされる。
このようなエラーを検出するための有望なアプローチは、システムの実行を監視し、意図したセマンティクスの違反をチェックする、システム固有のランタイムチェッカーを使用することである。
しかしながら、あるソフトウェアシステムに対してそのようなチェッカーを書くのは難しく、時間を要するため、実際に行うことはめったにない。
この研究は、既存のテスト、すなわちほとんどのソフトウェアシステムで利用可能なリソースからランタイムチェッカーを導出する自動化アプローチであるFlyCatcherを提示する。
このようなアプローチの重要な課題は、テストケースにエンコードされた振る舞い特性を、システムの任意の実行に一般化することである。
FlyCatcherは、LCMベースの合成、静的解析、動的検証の組み合わせによってこの問題に対処する。これは、特定のメソッド呼び出しを監視し、呼び出し時に保持すべきプロパティをアサートするチェッカーを推論する。
推論チェッカーはステートフルであり、すなわち、チェッカーが必要とする実際のシステム状態を抽象化するシャドウ状態を維持することによって、システムの振る舞いを推論する。
評価では、FlyCatcherを4つの広く使われている複雑なソフトウェアシステムから400のテストに適用した。
このアプローチでは334のチェッカーが推測され、そのうち300はクロスバリデーションによって修正されている。
最先端のアプローチと比較して、我々のアプローチは2.6倍の正確なチェッカーを推測し、5.2倍のエラーを検出できる。
テストからのランタイムチェッカーの自動推論に貢献することにより、複雑なソフトウェアシステムにおけるサイレント障害を検出するための実践的なアプローチとして、ランタイムチェックを採用することが可能になる。
関連論文リスト
- In Perfect Harmony: Orchestrating Causality in Actor-Based Systems [0.0]
アクターベースのシステムは、実行時の検証に重大な課題をもたらす。
ACTORCHESTRAはErlangのランタイム検証フレームワークで、マルチアクターインタラクション間の因果関係を自動的に追跡する。
ACTORCHESTRAが現実のアクターシステムにおける複雑な行動違反の検出に有効であることを示す3つのケーススタディである。
論文 参考訳(メタデータ) (2026-03-18T16:47:25Z) - Automated Self-Testing as a Quality Gate: Evidence-Driven Release Management for LLM Applications [51.56484100374058]
我々は,エビデンスに基づくリリース決定を伴う品質ゲートを導入する自動自己テストフレームワークを提案する。
内部展開型多エージェント対話型AIシステムの縦型ケーススタディにより,本フレームワークの評価を行った。
論文 参考訳(メタデータ) (2026-03-13T20:44:15Z) - Detecting Object Tracking Failure via Sequential Hypothesis Testing [80.7891291021747]
ビデオにおけるリアルタイムのオンラインオブジェクト追跡は、コンピュータビジョンにおける中核的なタスクである。
本稿では,物体追跡を逐次的仮説テストとして解釈することを提案する。
本研究では,地中追跡情報と内部追跡情報の両方を活用することにより,教師なしと教師なしの両方の変種を提案する。
論文 参考訳(メタデータ) (2026-02-13T14:57:15Z) - Reactive Bottom-Up Testing [15.280664862119565]
リアクティブボトムアップテスト(Reactive Bottom-Up Testing)と呼ばれる新しいパラダイムを導入します。
私たちの洞察では、機能レベルのテストは必要だが、機能内の脆弱性の検証には不十分である。
本研究では,潜在的な機能を特定し,型とコンテキストを意識したハーネスを生成する3段階のボトムアップテスト手法を開発した。
論文 参考訳(メタデータ) (2025-09-03T20:54:43Z) - A Case Study on Model Checking and Runtime Verification for Awkernel [0.7199733380797578]
人間が手動で同時動作をレビューしたり、可能なすべての実行をカバーしたテストケースを書くことは難しい。
本稿では,スケジューラなどの並列ソフトウェアの開発手法を提案する。
論文 参考訳(メタデータ) (2025-03-12T11:27:45Z) - Write Your Own CodeChecker: An Automated Test-Driven Checker Development Approach with LLMs [9.551021559603349]
AutoCheckerは、ルール記述とテストスイートのみに基づいてコードチェッカーを自動記述できる革新的なアプローチである。
テスト結果は、AutoCheckerが平均テストパスレート82.28%で、すべての評価指標で他よりも大幅に優れていたことを示している。
論文 参考訳(メタデータ) (2024-11-11T08:50:24Z) - Bisimulation Learning [55.859538562698496]
我々は、大きな、潜在的に無限の状態空間を持つ状態遷移系の有限バイシミュレートを計算する。
提案手法は,実際に行われている他の最先端ツールよりも高速な検証結果が得られる。
論文 参考訳(メタデータ) (2024-05-24T17:11:27Z) - PULL: Reactive Log Anomaly Detection Based On Iterative PU Learning [58.85063149619348]
本稿では,推定故障時間ウィンドウに基づくリアクティブ異常検出のための反復ログ解析手法PULLを提案する。
我々の評価では、PULLは3つの異なるデータセットで10のベンチマークベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2023-01-25T16:34:43Z) - Beyond Accuracy: Behavioral Testing of NLP models with CheckList [66.42971817954806]
CheckList は NLP モデルをテストするためのタスクに依存しない方法論である。
CheckListには、包括的なテストのアイデアを促進する一般的な言語機能とテストタイプのマトリックスが含まれている。
ユーザスタディでは、CheckListのNLP実践者が2倍の数のテストを作成し、それのないユーザの約3倍のバグを発見しました。
論文 参考訳(メタデータ) (2020-05-08T15:48:31Z) - Claim Check-Worthiness Detection as Positive Unlabelled Learning [53.24606510691877]
クレームチェックの信頼性検出はファクトチェックシステムにおいて重要な要素である。
これらの課題の根底にあるクレームチェックの信頼性検出における中心的な課題を照明する。
我々の最良の手法は、正の非競合学習の変種を用いて、これを自動的に修正する統一的なアプローチである。
論文 参考訳(メタデータ) (2020-03-05T16:06:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。