Fugu-MT 論文翻訳(概要): Scalable and Accurate Application-Level Crash-Consistency Testing via Representative Testing

論文の概要: Scalable and Accurate Application-Level Crash-Consistency Testing via Representative Testing

arxiv url: http://arxiv.org/abs/2503.01390v1
Date: Mon, 03 Mar 2025 10:41:57 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-05 18:50:37.9451
Title: Scalable and Accurate Application-Level Crash-Consistency Testing via Representative Testing
Title（参考訳）: 代表的テストによるスケーラブルで正確なアプリケーションレベルクラッシュ一貫性テスト
Authors: Yile Gu, Ian Neal, Jiexiao Xu, Shaun Christopher Lee, Ayman Said, Musa Haydar, Jacob Van Geffen, Rohan Kadekodi, Andrew Quinn, Baris Kasikci,
Abstract要約: Pathfinderは、少数の代表的なクラッシュ状態を近似するために、更新動作に基づいた、クラッシュ一貫性テストツールです。 Pathfinderは以前の作業よりも大規模アプリケーションに効果的にスケールし、POSIXベースのアプリケーションでは4倍、MMIOベースのアプリケーションでは8倍のバグがある。
参考スコア（独自算出の注目度）: 4.659174681934402
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Crash consistency is essential for applications that must persist data. Crash-consistency testing has been commonly applied to find crash-consistency bugs in applications. The crash-state space grows exponentially as the number of operations in the program increases, necessitating techniques for pruning the search space. However, state-of-the-art crash-state space pruning is far from ideal. Some techniques look for known buggy patterns or bound the exploration for efficiency, but they sacrifice coverage and may miss bugs lodged deep within applications. Other techniques eliminate redundancy in the search space by skipping identical crash states, but they still fail to scale to larger applications. In this work, we propose representative testing: a new crash-state space reduction strategy that achieves high scalability and high coverage. Our key observation is that the consistency of crash states is often correlated, even if those crash states are not identical. We build Pathfinder, a crash-consistency testing tool that implements an update behaviors-based heuristic to approximate a small set of representative crash states. We evaluate Pathfinder on POSIX-based and MMIO-based applications, where it finds 18 (7 new) bugs across 8 production-ready systems. Pathfinder scales more effectively to large applications than prior works and finds 4x more bugs in POSIX-based applications and 8x more bugs in MMIO-based applications compared to state-of-the-art systems.
Abstract（参考訳）: データを保持する必要があるアプリケーションには、クラッシュの一貫性が不可欠だ。クラッシュ一貫性テストは、アプリケーション内のクラッシュ一貫性のバグを見つけるために一般的に適用されている。プログラムの操作数が増加するにつれて、クラッシュ状態空間は指数関数的に増加し、探索空間を刈り取る技術を必要とする。しかし、最先端のクラッシュ状態空間の刈り上げは理想とは程遠い。いくつかのテクニックは既知のバグのパターンを探したり、効率性の探究を束縛するが、カバレッジを犠牲にして、アプリケーションの奥深くにあるバグを見逃す可能性がある。他の手法では、同一のクラッシュ状態をスキップすることで検索空間の冗長性を排除しているが、それでもより大きなアプリケーションにスケールできない。本研究では,高スケーラビリティと高カバレッジを実現する新しいクラッシュ状態空間削減戦略として,代表試験を提案する。我々の重要な観察は、衝突状態が同一でない場合でも、クラッシュ状態の整合性はしばしば相関しているということである。 Pathfinderは、更新動作に基づくヒューリスティックを実装して、少数の代表的なクラッシュ状態を近似する、クラッシュ一貫性テストツールです。 POSIXベースのアプリケーションとMMIOベースのアプリケーションでPathfinderを評価し、8つのプロダクション対応システムで18の(7つの新しい)バグを発見した。 Pathfinderは以前の作業よりも大規模アプリケーションに効果的にスケールし、POSIXベースのアプリケーションでは4倍、MMIOベースのアプリケーションでは8倍のバグがある。

関連論文リスト

Outrunning LLM Cutoffs: A Live Kernel Crash Resolution Benchmark for All [57.23434868678603]
Live-kBenchは、新たに発見されたカーネルバグのエージェントをスクラップし、評価するセルフ進化ベンチマークの評価フレームワークである。 kEnvは、カーネルのコンパイル、実行、フィードバックのためのエージェントに依存しないクラッシュ解決環境である。 kEnvを用いて3つの最先端エージェントをベンチマークし、最初の試行で74%のクラッシュを解決したことを示す。
論文参考訳（メタデータ） (2026-02-02T19:06:15Z)
GPTrace: Effective Crash Deduplication Using LLM Embeddings [0.8166364251367626]
クラッシュ重複(Crash Deduplication)とは、重複するインプットを検出して、検査が必要なデータを減らすタスクである。 GPTraceは,大規模な言語モデルを利用して,クラッシュに伴う各種データソースの類似性を評価するデ重複ワークフローである。 14のターゲットから50の真実ラベルに属する30万以上のクラッシュインプットに対して,我々のアプローチを評価した。
論文参考訳（メタデータ） (2025-12-01T12:30:30Z)
Finding the Needle in the Crash Stack: Industrial-Scale Crash Root Cause Localization with AutoCrashFL [7.35168055783183]
本稿では,プログラムアンダーテスト(PUT)からのクラッシュダンプと対応するソースコードのリポジトリへのアクセスのみを必要とするクラッシュのローカライズのためのエージェントであるAutoCrashFLを提案する。我々は,3500万行以上のコードからなる産業用ソフトウェアプロジェクトであるSAPの実際のクラッシュに対してAutoCrashFLを評価した。
論文参考訳（メタデータ） (2025-10-26T04:43:33Z)
DaiFu: In-Situ Crash Recovery for Deep Learning Systems [54.52831889359226]
本稿では,深層学習(DL)システムのためのin-situリカバリフレームワークであるDaiFuを紹介する。 DaiFuは、その場でクラッシュをインターセプトするように拡張し、プログラム実行状況の動的および瞬間的な更新を可能にする。評価の結果,DaiFuはクラッシュ復旧に要する時間を短縮し,最先端のソリューションと比較して1372倍の高速化を実現していることがわかった。
論文参考訳（メタデータ） (2025-07-02T11:58:38Z)
Fault Localization via Fine-tuning Large Language Models with Mutation Generated Stack Traces [3.3158239079459655]
本稿では,スタックトレース情報のみに基づいて障害をローカライズする新たな手法を提案する。 64,369件のクラッシュの微調整によって、コードベースの4100万件の突然変異により、66.9%の精度で、クラッシュの根本原因の位置を正確に予測できる。
論文参考訳（メタデータ） (2025-01-29T21:40:32Z)
Subgraph-Oriented Testing for Deep Learning Libraries [9.78188667672054]
我々は,異なるハードウェアプラットフォーム上でディープラーニング(DL)ライブラリをテストするためのSORT(Subgraph-Oriented Realistic Testing)を提案する。 SORTは、テスト対象として、しばしばモデルグラフのサブグラフとして表現される、人気のあるAPIインタラクションパターンを採用している。 SORTは100%有効な入力生成率を実現し、既存のメソッドよりも精度の高いバグを検出し、シングルAPIテストで欠落したインタラクション関連のバグを明らかにする。
論文参考訳（メタデータ） (2024-12-09T12:10:48Z)
Better Debugging: Combining Static Analysis and LLMs for Explainable Crashing Fault Localization [12.103194723136406]
本稿では,静的解析とLLM手法を組み合わせた説明可能なクラッシュ断層定位手法を提案する。フレームワークコードで例外をスローするステートメントのセマンティクスを理解することは、バグだらけのメソッドをアプリコードで見つけて認識するのに役立ちます。この考え方に基づいて、まず、各フレームワーク固有の例外に関連する重要な要素を記述する例外スローの要約(ETS)を設計する。そして、その重要な要素をデータ追跡して、与えられたクラッシュのバグのある候補を特定し、ソートします。
論文参考訳（メタデータ） (2024-08-22T02:18:35Z)
STAMP: Outlier-Aware Test-Time Adaptation with Stable Memory Replay [76.06127233986663]
テスト時間適応(TTA)は、トレーニングデータとテストデータの間の分散シフトに、未ラベルのデータのみを用いて対処することを目的としている。本稿では,サンプル認識とオフリエ拒絶の両方を行う問題に注意を払っている。本稿では,STAble Memory rePlay (STAMP) と呼ばれる新しい手法を提案する。
論文参考訳（メタデータ） (2024-07-22T16:25:41Z)
KGym: A Platform and Dataset to Benchmark Large Language Models on Linux Kernel Crash Resolution [59.20933707301566]
大規模言語モデル(LLM)は、ますます現実的なソフトウェア工学(SE)タスクにおいて一貫して改善されている。現実世界のソフトウェアスタックでは、Linuxカーネルのような基本的なシステムソフトウェアの開発にSEの取り組みが費やされています。このような大規模システムレベルのソフトウェアを開発する際にMLモデルが有用かどうかを評価するため、kGymとkBenchを紹介する。
論文参考訳（メタデータ） (2024-07-02T21:44:22Z)
Leveraging Stack Traces for Spectrum-based Fault Localization in the Absence of Failing Tests [44.13331329339185]
我々は,スタックトレースデータをテストカバレッジと統合し,障害局所化を強化する新しいアプローチであるSBESTを導入する。提案手法では,平均精度(MAP)が32.22%向上し,平均相互ランク(MRR)が17.43%向上した。
論文参考訳（メタデータ） (2024-05-01T15:15:52Z)
FuzzyFlow: Leveraging Dataflow To Find and Squash Program Optimization Bugs [92.47146416628965]
FuzzyFlowはプログラム最適化をテストするために設計されたフォールトローカライゼーションとテストケース抽出フレームワークである。我々は、データフロープログラム表現を活用して、完全に再現可能なシステム状態と最適化のエリア・オブ・エフェクトをキャプチャする。テスト時間を削減するため,テスト入力を最小限に抑えるアルゴリズムを設計し,再計算のためのメモリ交換を行う。
論文参考訳（メタデータ） (2023-06-28T13:00:17Z)
Safe Deep Reinforcement Learning by Verifying Task-Level Properties [84.64203221849648]
コスト関数は、安全深層強化学習(DRL)において一般的に用いられる。このコストは通常、国家空間における政策決定のリスクの定量化が難しいため、指標関数として符号化される。本稿では,ドメイン知識を用いて,そのような状態に近接するリスクを定量化するための代替手法について検討する。
論文参考訳（メタデータ） (2023-02-20T15:24:06Z)
Large-scale Crash Localization using Multi-Task Learning [3.4383679424643456]
我々は,スタックトレースにおける非難フレームを識別するための,新しいマルチタスクシーケンスラベリング手法を開発した。当社のモデルは、4つの人気のあるMicrosoftアプリケーションから100万以上の現実世界のクラッシュで評価しています。
論文参考訳（メタデータ） (2021-09-29T10:26:57Z)
Detecting Rewards Deterioration in Episodic Reinforcement Learning [63.49923393311052]
多くのRLアプリケーションでは、トレーニングが終了すると、エージェント性能の劣化をできるだけ早く検出することが不可欠である。我々は,各エピソードにおける報酬が独立でもなく,同一に分散した,マルコフでもない,エピソード的枠組みを考察する。平均シフトは、時間信号の劣化(報酬など)に対応する方法で定義し、最適な統計的パワーでこの問題の試行を導出する。
論文参考訳（メタデータ） (2020-10-22T12:45:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。