Fugu-MT 論文翻訳(概要): WRTester: Differential Testing of WebAssembly Runtimes via Semantic-aware Binary Generation

論文の概要: WRTester: Differential Testing of WebAssembly Runtimes via Semantic-aware Binary Generation

arxiv url: http://arxiv.org/abs/2312.10456v1
Date: Sat, 16 Dec 2023 14:02:42 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-19 16:32:10.934518
Title: WRTester: Differential Testing of WebAssembly Runtimes via Semantic-aware Binary Generation
Title（参考訳）: WRTester: セマンティックなバイナリ生成によるWebAssemblyランタイムの差分テスト
Authors: Shangtong Cao, Ningyu He, Xinyu She, Yixuan Zhang, Mu Zhang, Haoyu Wang
Abstract要約: WRTesterは,現実のWasmバイナリを分解・組み立てることで複雑なWasmテストケースを生成可能な,新しい差分テストフレームワークである。予期せぬ動作の根本原因を更に特定するために,実行時に依存しない根本原因特定手法を設計し,バグを正確に検出する。人気の高いWasmランタイムで33のユニークなバグを発見しました。
参考スコア（独自算出の注目度）: 19.78427170624683
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Wasm runtime is a fundamental component in the Wasm ecosystem, as it directly impacts whether Wasm applications can be executed as expected. Bugs in Wasm runtime bugs are frequently reported, thus our research community has made a few attempts to design automated testing frameworks for detecting bugs in Wasm runtimes. However, existing testing frameworks are limited by the quality of test cases, i.e., they face challenges of generating both semantic-rich and syntactic-correct Wasm binaries, thus complicated bugs cannot be triggered. In this work, we present WRTester, a novel differential testing framework that can generated complicated Wasm test cases by disassembling and assembling of real-world Wasm binaries, which can trigger hidden inconsistencies among Wasm runtimes. For further pinpointing the root causes of unexpected behaviors, we design a runtime-agnostic root cause location method to accurately locate bugs. Extensive evaluation suggests that WRTester outperforms SOTA techniques in terms of both efficiency and effectiveness. We have uncovered 33 unique bugs in popular Wasm runtimes, among which 25 have been confirmed.
Abstract（参考訳）: WasmランタイムはWasmエコシステムの基本的なコンポーネントであり、Wasmアプリケーションが期待通りに実行できるかどうかに直接影響する。 wasmランタイムのバグは頻繁に報告されているので、私たちの研究コミュニティは、wasmランタイムのバグを検出するための自動テストフレームワークの設計を試みました。しかし、既存のテストフレームワークはテストケースの品質によって制限されている。すなわち、セマンティックリッチと構文修正のwasmバイナリの両方を生成するという課題に直面しているため、複雑なバグをトリガーすることはできない。本研究では,実世界のwasmバイナリを分解して組み立てることで,wasmテストケースを複雑に生成できる新しい差分テストフレームワークwrtesterを提案する。予期せぬ動作の根本原因を更に特定するために,実行時に依存しない根本原因特定手法を設計し,バグを正確に検出する。 WRTesterは効率と有効性の両方でSOTA技術より優れていた。私たちは、人気のあるwasmランタイムに33のユニークなバグを発見しました。

関連論文リスト

Do Large Language Model Benchmarks Test Reliability? [66.1783478365998]
モデル信頼性の定量化について検討する。信頼性評価におけるこのギャップにより、我々はいわゆるプラチナベンチマークの概念を提案する。我々は、これらのプラチナベンチマークにおいて、幅広いモデルを評価し、実際、フロンティアLSMは、単純なタスクで失敗を示す。
論文参考訳（メタデータ） (2025-02-05T18:58:19Z)
Distinguishability-guided Test Program Generation for WebAssembly Runtime Performance Testing [28.920256869194315]
高性能はWebAssembly(Wasm)の重要な設計目標である Wasmランタイムパフォーマンステストの研究は、いまだに高品質なテストプログラムの不足に悩まされている。特に、WarpGenは3つのWasmランタイムで7つの新しいパフォーマンス問題を特定している。
論文参考訳（メタデータ） (2024-12-28T09:51:23Z)
Leveraging Stack Traces for Spectrum-based Fault Localization in the Absence of Failing Tests [44.13331329339185]
我々は,スタックトレースデータをテストカバレッジと統合し,障害局所化を強化する新しいアプローチであるSBESTを導入する。提案手法では,平均精度(MAP)が32.22%向上し,平均相互ランク(MRR)が17.43%向上した。
論文参考訳（メタデータ） (2024-05-01T15:15:52Z)
Observation-based unit test generation at Meta [52.4716552057909]
TestGenは、アプリケーション実行中に観察された複雑なオブジェクトのシリアライズされた観察から作られたユニットテストを自動的に生成する。 TestGenは518のテストを本番環境に投入し、継続的統合で9,617,349回実行され、5,702の障害が見つかった。評価の結果,信頼性の高い4,361のエンドツーエンドテストから,少なくとも86%のクラスでテストを生成することができた。
論文参考訳（メタデータ） (2024-02-09T00:34:39Z)
DebugBench: Evaluating Debugging Capability of Large Language Models [80.73121177868357]
DebugBench - LLM(Large Language Models)のベンチマーク。 C++、Java、Pythonの4つの主要なバグカテゴリと18のマイナータイプをカバーする。ゼロショットシナリオで2つの商用および4つのオープンソースモデルを評価する。
論文参考訳（メタデータ） (2024-01-09T15:46:38Z)
GitBug-Actions: Building Reproducible Bug-Fix Benchmarks with GitHub Actions [8.508198765617196]
GitBug-Actionsは、最新の完全に再現可能なバグフィックスでバグフィックスベンチマークを構築するための新しいツールです。 GitBug-Actionsは、最も人気のあるCIプラットフォームであるGitHub Actionsに依存してバグフィックスを検出する。ツールチェーンを実証するために、GitBug-Actionsをデプロイして、概念実証Goバグフィックスベンチマークを構築しました。
論文参考訳（メタデータ） (2023-10-24T09:04:14Z)
Automatic Generation of Test Cases based on Bug Reports: a Feasibility Study with Large Language Models [4.318319522015101]
既存のアプローチは、単純なテスト(例えば単体テスト)や正確な仕様を必要とするテストケースを生成する。ほとんどのテスト手順は、テストスイートを形成するために人間が書いたテストケースに依存しています。大規模言語モデル(LLM)を活用し,バグレポートを入力として利用することにより,この生成の実現可能性を検討する。
論文参考訳（メタデータ） (2023-10-10T05:30:12Z)
Revealing Performance Issues in Server-side WebAssembly Runtimes via Differential Testing [28.187405253760687]
我々はサーバサイドのWasmランタイムの性能問題を特定するために、新しい差分テストアプローチWarpDiffを設計する。我々は、実行時間比がオラクル比から著しくずれた異常なケースを特定し、パフォーマンス問題の原因となるWasmランタイムを特定する。
論文参考訳（メタデータ） (2023-09-21T15:25:18Z)
PreciseBugCollector: Extensible, Executable and Precise Bug-fix Collection [8.79879909193717]
正確な多言語バグ収集手法であるPreciseBugCollectorを紹介する。外部バグリポジトリでリポジトリをマップしてバグタイプ情報をトレースするバグトラッカと、プロジェクト固有のバグを生成するバグインジェクタの2つの新しいコンポーネントに基づいている。現在、PreciseBugCollectorは2968のオープンソースプロジェクトから抽出された1057818のバグを含んでいる。
論文参考訳（メタデータ） (2023-09-12T13:47:44Z)
RAP-Gen: Retrieval-Augmented Patch Generation with CodeT5 for Automatic Program Repair [75.40584530380589]
新たな検索型パッチ生成フレームワーク(RAP-Gen)を提案する。 RAP-Gen 以前のバグ修正ペアのリストから取得した関連する修正パターンを明示的に活用する。 RAP-GenをJavaScriptのTFixベンチマークとJavaのCode RefinementとDefects4Jベンチマークの2つのプログラミング言語で評価する。
論文参考訳（メタデータ） (2023-09-12T08:52:56Z)
Using Developer Discussions to Guide Fixing Bugs in Software [51.00904399653609]
我々は,タスク実行前に利用可能であり,また自然発生しているバグレポートの議論を,開発者による追加情報の必要性を回避して利用することを提案する。このような議論から派生したさまざまな自然言語コンテキストがバグ修正に役立ち、オラクルのバグ修正コミットに対応するコミットメッセージの使用よりもパフォーマンスの向上につながることを実証する。
論文参考訳（メタデータ） (2022-11-11T16:37:33Z)
BigIssue: A Realistic Bug Localization Benchmark [89.8240118116093]
BigIssueは、現実的なバグローカライゼーションのためのベンチマークである。実際のJavaバグと合成Javaバグの多様性を備えた一般的なベンチマークを提供する。われわれは,バグローカライゼーションの最先端技術として,APRの性能向上と,現代の開発サイクルへの適用性の向上を期待している。
論文参考訳（メタデータ） (2022-07-21T20:17:53Z)
On Distribution Shift in Learning-based Bug Detectors [4.511923587827301]
まず、モデルをバグ検出領域に適応させるため、次に実際のバグ検出領域に適応させるために、モデルを実際の配布に向けて駆動するために、バグ検出装置を2つのフェーズで訓練する。我々は,本手法を広範に研究した3種類のバグタイプに対して評価し,実際のバグ分布を捉えるために慎重に設計された新しいデータセットを構築した。
論文参考訳（メタデータ） (2022-04-21T12:17:22Z)
Detecting Rewards Deterioration in Episodic Reinforcement Learning [63.49923393311052]
多くのRLアプリケーションでは、トレーニングが終了すると、エージェント性能の劣化をできるだけ早く検出することが不可欠である。我々は,各エピソードにおける報酬が独立でもなく,同一に分散した,マルコフでもない,エピソード的枠組みを考察する。平均シフトは、時間信号の劣化(報酬など)に対応する方法で定義し、最適な統計的パワーでこの問題の試行を導出する。
論文参考訳（メタデータ） (2020-10-22T12:45:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。