Fugu-MT 論文翻訳(概要): CrashJS: A NodeJS Benchmark for Automated Crash Reproduction

論文の概要: CrashJS: A NodeJS Benchmark for Automated Crash Reproduction

arxiv url: http://arxiv.org/abs/2405.05541v1
Date: Thu, 9 May 2024 04:57:10 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-10 14:12:43.930311
Title: CrashJS: A NodeJS Benchmark for Automated Crash Reproduction
Title（参考訳）: CrashJS: 自動クラッシュ再現のためのNodeJSベンチマーク
Authors: Philip Oliver, Jens Dietrich, Craig Anslow, Michael Homer,
Abstract要約: ソフトウェアのバグは、しばしばソフトウェアクラッシュを引き起こし、アメリカの企業は年間2.08兆ドル以上のコストがかかる。クラッシュ自動再現は、クラッシュを正常に再現するユニットテストを生成することを目的としている。 CrashJSは、複数のソースから453のNode.jsクラッシュのベンチマークデータセットである。
参考スコア（独自算出の注目度）: 4.3560886861249255
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Software bugs often lead to software crashes, which cost US companies upwards of $2.08 trillion annually. Automated Crash Reproduction (ACR) aims to generate unit tests that successfully reproduce a crash. The goal of ACR is to aid developers with debugging, providing them with another tool to locate where a bug is in a program. The main approach ACR currently takes is to replicate a stack trace from an error thrown within a program. Currently, ACR has been developed for C, Java, and Python, but there are no tools targeting JavaScript programs. To aid the development of JavaScript ACR tools, we propose CrashJS: a benchmark dataset of 453 Node.js crashes from several sources. CrashJS includes a mix of real-world and synthesised tests, multiple projects, and different levels of complexity for both crashes and target programs.
Abstract（参考訳）: ソフトウェアのバグは、しばしばソフトウェアクラッシュを引き起こし、アメリカの企業は年間2.08兆ドル以上のコストがかかる。 ACR(Automated Crash Reproduction)は、クラッシュを正常に再現するユニットテストを生成することを目的としている。 ACRの目標は、デバッグを支援することで、バグがプログラム内にある場所を特定する別のツールを提供することである。現在のACRの主なアプローチは、プログラム内でスローされたエラーからスタックトレースを複製することである。現在、ACRはC、Java、Python向けに開発されているが、JavaScriptプログラムをターゲットにしたツールは存在しない。 JavaScript ACRツールの開発を支援するために、いくつかのソースから453のNode.jsがクラッシュしたベンチマークデータセットであるCrashJSを提案する。 CrashJSには、実世界のテストと合成テスト、複数のプロジェクト、クラッシュとターゲットプログラムの両方でさまざまなレベルの複雑さが含まれている。

関連論文リスト

DaiFu: In-Situ Crash Recovery for Deep Learning Systems [54.52831889359226]
本稿では,深層学習(DL)システムのためのin-situリカバリフレームワークであるDaiFuを紹介する。 DaiFuは、その場でクラッシュをインターセプトするように拡張し、プログラム実行状況の動的および瞬間的な更新を可能にする。評価の結果,DaiFuはクラッシュ復旧に要する時間を短縮し,最先端のソリューションと比較して1372倍の高速化を実現していることがわかった。
論文参考訳（メタデータ） (2025-07-02T11:58:38Z)
SwingArena: Competitive Programming Arena for Long-context GitHub Issue Solving [90.32201622392137]
We present SwingArena, a competitive evaluation framework for Large Language Models (LLMs)。従来の静的ベンチマークとは異なり、SwingArenaはLLMをイテレーションとして組み合わせて、テストケースを作成し、継続的インテグレーション(CI)パイプラインを通じてパッチを検証するパッチとレビュアーを生成することで、ソフトウェアのコラボレーションプロセスをモデル化する。
論文参考訳（メタデータ） (2025-05-29T18:28:02Z)
CrashFixer: A crash resolution agent for the Linux kernel [58.152358195983155]
この作業は、システムレベルのLinuxカーネルバグのベンチマークと、Linuxカーネルで実験を実行するプラットフォームを共有するkGymの上に構築されている。 CrashFixerはLinuxカーネルのバグに適応する最初のLCMベースのソフトウェア修復エージェントである。
論文参考訳（メタデータ） (2025-04-29T04:18:51Z)
CRUST-Bench: A Comprehensive Benchmark for C-to-safe-Rust Transpilation [63.23120252801889]
CRUST-Benchは100のCリポジトリのデータセットで、それぞれが安全なRustとテストケースで手書きのインターフェースとペアリングされている。我々は、このタスクで最先端の大規模言語モデル(LLM)を評価し、安全で慣用的なRust生成が依然として難しい問題であることを確認した。最高のパフォーマンスモデルであるOpenAI o1は、ワンショット設定で15タスクしか解決できない。
論文参考訳（メタデータ） (2025-04-21T17:33:33Z)
Scalable and Accurate Application-Level Crash-Consistency Testing via Representative Testing [4.659174681934402]
Pathfinderは、少数の代表的なクラッシュ状態を近似するために、更新動作に基づいた、クラッシュ一貫性テストツールです。 Pathfinderは以前の作業よりも大規模アプリケーションに効果的にスケールし、POSIXベースのアプリケーションでは4倍、MMIOベースのアプリケーションでは8倍のバグがある。
論文参考訳（メタデータ） (2025-03-03T10:41:57Z)
A Preliminary Study of Fixed Flaky Tests in Rust Projects on GitHub [5.806051501952938]
GitHub上のRustプロジェクトでは、不安定なテストの研究が進行中です。修正は根本原因、マニフェストの特徴、修正戦略に関する貴重な情報を提供することができるので、報告されただけでなく、修正される不安定なテストに重点を置いています。
論文参考訳（メタデータ） (2025-02-04T22:55:54Z)
Commit0: Library Generation from Scratch [77.38414688148006]
Commit0は、AIエージェントにスクラッチからライブラリを書くよう促すベンチマークである。エージェントには、ライブラリのAPIを概説する仕様文書と、インタラクティブなユニットテストスイートが提供されている。 Commit0はまた、モデルが生成したコードに対して静的解析と実行フィードバックを受け取る、インタラクティブな環境も提供する。
論文参考訳（メタデータ） (2024-12-02T18:11:30Z)
Mutation-Based Deep Learning Framework Testing Method in JavaScript Environment [16.67312523556796]
そこで本研究では,DLJSFuzzerという変異ベースのJavaScript DLフレームワークテスティング手法を提案する。 DLJSFuzzerは21のユニークなクラッシュと126のNaN & Inconsistencyバグを正常に検出する。 DLJSFuzzerはモデル生成効率が47%以上、バグ検出効率が91%以上改善されている。
論文参考訳（メタデータ） (2024-09-23T12:37:56Z)
AutoBencher: Towards Declarative Benchmark Construction [74.54640925146289]
AutoBencherを使って、数学、多言語性、知識、安全性のためのデータセットを作成しています。 AutoBencherのスケーラビリティにより、詳細なカテゴリ知識をテストでき、既存のベンチマークよりも22%のモデルエラー(難易度)を誘発するデータセットを作成することができる。
論文参考訳（メタデータ） (2024-07-11T10:03:47Z)
KGym: A Platform and Dataset to Benchmark Large Language Models on Linux Kernel Crash Resolution [59.20933707301566]
大規模言語モデル(LLM)は、ますます現実的なソフトウェア工学(SE)タスクにおいて一貫して改善されている。現実世界のソフトウェアスタックでは、Linuxカーネルのような基本的なシステムソフトウェアの開発にSEの取り組みが費やされています。このような大規模システムレベルのソフトウェアを開発する際にMLモデルが有用かどうかを評価するため、kGymとkBenchを紹介する。
論文参考訳（メタデータ） (2024-07-02T21:44:22Z)
Concolic Testing of JavaScript using Sparkplug [6.902028735328818]
JSのInsitu Concolic Testingは有効だが、遅く、複雑である。本稿では,V8 Sparkplugのベースラインコンパイラと,LLVM IR変換への組立のためのリミルライブラリによるトレースを改良する。
論文参考訳（メタデータ） (2024-05-10T22:11:53Z)
CrashTranslator: Automatically Reproducing Mobile Application Crashes Directly from Stack Trace [30.48737611250448]
本稿では,モバイルアプリケーションのクラッシュを自動的にスタックトレースから直接再現するCrashTranslatorという手法を提案する。 CrashTranslatorを58のAndroidアプリを含む75のクラッシュレポートで評価し、61.3%のクラッシュを再現しました。
論文参考訳（メタデータ） (2023-10-11T02:00:18Z)
RAP-Gen: Retrieval-Augmented Patch Generation with CodeT5 for Automatic Program Repair [75.40584530380589]
新たな検索型パッチ生成フレームワーク(RAP-Gen)を提案する。 RAP-Gen 以前のバグ修正ペアのリストから取得した関連する修正パターンを明示的に活用する。 RAP-GenをJavaScriptのTFixベンチマークとJavaのCode RefinementとDefects4Jベンチマークの2つのプログラミング言語で評価する。
論文参考訳（メタデータ） (2023-09-12T08:52:56Z)
Automatic Root Cause Analysis via Large Language Models for Cloud Incidents [51.94361026233668]
クラウドインシデントの根本原因分析を自動化するために,大規模言語モデルによって強化されたオンコールシステムであるRCACopilotを紹介する。 RCACopilotは、入ってくるインシデントと、そのアラートタイプに基づいて対応するインシデントハンドラとをマッチングし、クリティカルランタイム診断情報を集約し、インシデントの根本原因カテゴリを予測し、説明的な物語を提供する。 Microsoftから1年分のインシデントからなる実世界のデータセットを使用してRCACopilotを評価する。
論文参考訳（メタデータ） (2023-05-25T06:44:50Z)
RunBugRun -- An Executable Dataset for Automated Program Repair [15.670905650869704]
プログラム競合サイトに提出された45万個の小さなバグ/修正プログラムペアの完全な実行可能データセットを提示する。プログラムをコンパイルし、安全に実行し、テストするためのインフラと、きめ細かいバグタイプのラベルを提供します。
論文参考訳（メタデータ） (2023-04-03T16:02:00Z)
Fault-Aware Neural Code Rankers [64.41888054066861]
サンプルプログラムの正しさを予測できる故障認識型ニューラルネットワークローダを提案する。我々のフォールト・アウェア・ローダは、様々なコード生成モデルのpass@1精度を大幅に向上させることができる。
論文参考訳（メタデータ） (2022-06-04T22:01:05Z)
SUPERNOVA: Automating Test Selection and Defect Prevention in AAA Video Games Using Risk Based Testing and Machine Learning [62.997667081978825]
従来の手法では、成長するソフトウェアシステムではスケールできないため、ビデオゲームのテストはますます難しいタスクになります。自動化ハブとして機能しながら,テスト選択と欠陥防止を行うシステム SUPERNOVA を提案する。この直接的な影響は、未公表のスポーツゲームタイトルの55%以上のテスト時間を減らすことが観察されている。
論文参考訳（メタデータ） (2022-03-10T00:47:46Z)
S3M: Siamese Stack (Trace) Similarity Measure [55.58269472099399]
本稿では、深層学習に基づくスタックトレースの類似性を計算する最初のアプローチであるS3Mを紹介します。 BiLSTMエンコーダと、類似性を計算するための完全接続型分類器をベースとしている。私たちの実験は、オープンソースデータとプライベートなJetBrainsデータセットの両方において、最先端のアプローチの優位性を示しています。
論文参考訳（メタデータ） (2021-03-18T21:10:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。