Fugu-MT 論文翻訳(概要): SoK: Prudent Evaluation Practices for Fuzzing

論文の概要: SoK: Prudent Evaluation Practices for Fuzzing

arxiv url: http://arxiv.org/abs/2405.10220v1
Date: Thu, 16 May 2024 16:10:41 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-17 13:43:00.196867
Title: SoK: Prudent Evaluation Practices for Fuzzing
Title（参考訳）: SoK:ファジィのための慎重な評価実践
Authors: Moritz Schloegel, Nils Bars, Nico Schiller, Lukas Bernhard, Tobias Scharnowski, Addison Crump, Arash Ale Ebrahim, Nicolai Bissantz, Marius Muench, Thorsten Holz,
Abstract要約: 我々は2018年から2023年にかけて発行された150枚のファジィ紙の評価を体系的に分析した。既存のガイドラインがどのように実装され、潜在的な欠点や落とし穴を観察するかを検討する。例えば、報告されたバグの調査では、統計的検査やファジィ評価の体系的誤りに関する既存のガイドラインを驚くほど軽視している。
参考スコア（独自算出の注目度）: 21.113311952857778
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Fuzzing has proven to be a highly effective approach to uncover software bugs over the past decade. After AFL popularized the groundbreaking concept of lightweight coverage feedback, the field of fuzzing has seen a vast amount of scientific work proposing new techniques, improving methodological aspects of existing strategies, or porting existing methods to new domains. All such work must demonstrate its merit by showing its applicability to a problem, measuring its performance, and often showing its superiority over existing works in a thorough, empirical evaluation. Yet, fuzzing is highly sensitive to its target, environment, and circumstances, e.g., randomness in the testing process. After all, relying on randomness is one of the core principles of fuzzing, governing many aspects of a fuzzer's behavior. Combined with the often highly difficult to control environment, the reproducibility of experiments is a crucial concern and requires a prudent evaluation setup. To address these threats to validity, several works, most notably Evaluating Fuzz Testing by Klees et al., have outlined how a carefully designed evaluation setup should be implemented, but it remains unknown to what extent their recommendations have been adopted in practice. In this work, we systematically analyze the evaluation of 150 fuzzing papers published at the top venues between 2018 and 2023. We study how existing guidelines are implemented and observe potential shortcomings and pitfalls. We find a surprising disregard of the existing guidelines regarding statistical tests and systematic errors in fuzzing evaluations. For example, when investigating reported bugs, ...
Abstract（参考訳）: ファジィングは、過去10年間にソフトウェアバグを発見するための非常に効果的なアプローチであることが証明されている。 AFLが軽量なカバレッジフィードバックという画期的な概念を普及させた後、ファジィングの分野は、新しい技術の提案、既存の戦略の方法論的側面の改善、あるいは既存の手法を新しいドメインに移植するなど、多くの科学的成果を目にしてきた。このような作品はすべて、問題に適用可能性を示し、その性能を測定し、しばしば、徹底的な実証的な評価において、既存の作品よりも優れていることを示すことによって、そのメリットを証明しなければならない。しかしファジィングは、テストプロセスにおけるランダム性など、ターゲット、環境、状況に非常に敏感である。結局のところ、ランダム性に頼ることはファジィングのコア原則の1つであり、ファジィザの振る舞いの多くの側面を管理している。環境の制御が難しい場合が多いため、実験の再現性は重要な問題であり、慎重な評価設定が必要である。これらの脅威に対処するため、特にKleesらによるファズテストの評価は、慎重に設計された評価設定をどのように実装すべきかを概説している。本研究では,2018年から2023年にかけて,トップ会場で発行された150枚のファジング論文の評価を体系的に分析した。既存のガイドラインがどのように実装され、潜在的な欠点や落とし穴を観察するかを検討する。ファジィ評価における統計的検査と系統的誤差に関する既存のガイドラインを,驚くほど軽視している。例えば、報告されたバグを調査する場合、...

関連論文リスト

A Principled Approach to Randomized Selection under Uncertainty: Applications to Peer Review and Grant Funding [68.43987626137512]
本稿では,各項目の品質の間隔推定に基づくランダム化意思決定の枠組みを提案する。最適化に基づく最適化手法であるMERITを導入する。 MERITが既存のアプローチで保証されていない望ましい公理特性を満たすことを証明している。
論文参考訳（メタデータ） (2025-06-23T19:59:30Z)
Existing Large Language Model Unlearning Evaluations Are Inconclusive [105.55899615056573]
いくつかの評価では、モデルにかなりの新しい情報を導入し、真の未学習のパフォーマンスを隠蔽する可能性があることを示す。評価結果はタスクによって大きく異なることを示し、現在の評価ルーチンの一般化性を損なうことを示した。今後の未学習評価には,情報注入の最小化とタスク認識のダウンストリームという2つの原則を提案する。
論文参考訳（メタデータ） (2025-05-31T19:43:00Z)
Automatic Bias Detection in Source Code Review [2.3480418671346164]
本稿では,コードレビューにおける潜在的なバイアスのある結果を検出するための制御実験を提案する。我々は、レビュー画面上の焦点領域を決定するために、レビュアの視線を追跡する認知フレームワークである「注目のスポットライトモデル」を採用している。我々はマルコフモデル、リカレントニューラルネットワーク(RNN)、条件付きランダム場(CRF)などの高度なシーケンスモデリング手法を用いて、視線焦点のシーケンスを分析する計画である。
論文参考訳（メタデータ） (2025-04-25T16:01:52Z)
LazyReview A Dataset for Uncovering Lazy Thinking in NLP Peer Reviews [74.87393214734114]
この研究は、微粒な遅延思考カテゴリで注釈付けされたピアレビュー文のデータセットであるLazyReviewを紹介している。大規模言語モデル(LLM)は、ゼロショット設定でこれらのインスタンスを検出するのに苦労する。命令ベースのデータセットの微調整により、パフォーマンスが10～20ポイント向上する。
論文参考訳（メタデータ） (2025-04-15T10:07:33Z)
Variations in Relevance Judgments and the Shelf Life of Test Collections [50.060833338921945]
ニューラル検索モデルへのパラダイムシフトは、現代のテストコレクションの特徴に影響した。ニューラル検索設定における先行研究を再現し、評価者の不一致がシステムランキングに影響を及ぼさないことを示す。我々は、新しい関係判断によって、いくつかのモデルが著しく劣化し、既にランク付け者としての人間の有効性に到達していることを観察した。
論文参考訳（メタデータ） (2025-02-28T10:46:56Z)
A Comparative Quality Metric for Untargeted Fuzzing with Logic State Coverage [2.9914612342004503]
本稿では,観測された興味深い振る舞いをカウントするために,論理状態のカバレッジをプロキシ指標として提案する。論理状態は、より細かい粒度の反復的(すなわちより興味深い)な振る舞いを区別し、観察された興味深い振る舞いの数に確実に比例するロジック状態のカバレッジを確実に得る。
論文参考訳（メタデータ） (2024-09-23T13:08:17Z)
Comment on Revisiting Neural Program Smoothing for Fuzzing [34.32355705821806]
ACM FSE 2023で受け入れられたMLFuzzは、機械学習ベースのファザーであるNEUZZのパフォーマンスを再考する。実装におけるいくつかの致命的なバグと間違った評価設定のために、その主な結論が完全に間違っていることを実証する。
論文参考訳（メタデータ） (2024-09-06T16:07:22Z)
No Regrets: Investigating and Improving Regret Approximations for Curriculum Discovery [53.08822154199948]
非教師なし環境設計(UED)手法は、エージェントがイン・オブ・アウト・ディストリビューションタスクに対して堅牢になることを約束する適応的カリキュラムとして近年注目を集めている。本研究は,既存のUEDメソッドがいかにトレーニング環境を選択するかを検討する。本研究では,学習性の高いシナリオを直接訓練する手法を開発した。
論文参考訳（メタデータ） (2024-08-27T14:31:54Z)
A Comprehensive Library for Benchmarking Multi-class Visual Anomaly Detection [52.228708947607636]
本稿では,新しい手法のモジュラーフレームワークであるADerを包括的視覚異常検出ベンチマークとして紹介する。このベンチマークには、産業ドメインと医療ドメインからの複数のデータセットが含まれており、15の最先端メソッドと9つの包括的なメトリクスを実装している。我々は,異なる手法の長所と短所を客観的に明らかにし,多クラス視覚異常検出の課題と今後の方向性について考察する。
論文参考訳（メタデータ） (2024-06-05T13:40:07Z)
Testing the Consistency of Performance Scores Reported for Binary Classification Problems [0.0]
報告された性能スコアの整合性を評価する数値的手法と推定された実験装置を紹介する。本研究では,提案手法が不整合を効果的に検出し,研究分野の整合性を保護する方法を示す。科学コミュニティの利益を得るために、一貫性テストはオープンソースのPythonパッケージで利用可能にしました。
論文参考訳（メタデータ） (2023-10-19T07:04:29Z)
Too Good To Be True: performance overestimation in (re)current practices for Human Activity Recognition [49.1574468325115]
データセグメンテーションのためのスライディングウィンドウと、標準のランダムk倍のクロスバリデーションが続くと、バイアスのある結果が得られる。この問題に対する科学界の認識を高めることは重要であり、その否定的な影響は見落とされつつある。異なるタイプのデータセットと異なるタイプの分類モデルを用いたいくつかの実験により、問題を示し、メソッドやデータセットとは独立して持続することを示すことができる。
論文参考訳（メタデータ） (2023-10-18T13:24:05Z)
A Call to Reflect on Evaluation Practices for Failure Detection in Image Classification [0.491574468325115]
本稿では,信頼度評価関数のベンチマーク化を初めて実現した大規模実証的研究について述べる。簡便なソフトマックス応答ベースラインを全体の最高の実行方法として明らかにすることは、現在の評価の劇的な欠点を浮き彫りにする。
論文参考訳（メタデータ） (2022-11-28T12:25:27Z)
Systematic Evaluation of Predictive Fairness [60.0947291284978]
バイアス付きデータセットのトレーニングにおけるバイアスの緩和は、重要なオープンな問題である。複数のタスクにまたがる様々なデバイアス化手法の性能について検討する。データ条件が相対モデルの性能に強い影響を与えることがわかった。
論文参考訳（メタデータ） (2022-10-17T05:40:13Z)
Detecting Rewards Deterioration in Episodic Reinforcement Learning [63.49923393311052]
多くのRLアプリケーションでは、トレーニングが終了すると、エージェント性能の劣化をできるだけ早く検出することが不可欠である。我々は,各エピソードにおける報酬が独立でもなく,同一に分散した,マルコフでもない,エピソード的枠組みを考察する。平均シフトは、時間信号の劣化(報酬など)に対応する方法で定義し、最適な統計的パワーでこの問題の試行を導出する。
論文参考訳（メタデータ） (2020-10-22T12:45:55Z)
How Useful are Reviews for Recommendation? A Critical Review and Potential Improvements [8.471274313213092]
本稿では,レビューテキストを用いてレコメンデーションシステムの改善を目指す,新たな作業体系について検討する。実験条件やデータ前処理に変化はあるものの, 論文間で結果がコピーされていることから, 報告結果にいくつかの相違点がみられた。さらなる調査では、リコメンデーションのためのユーザレビューの"重要"に関して、はるかに大きな問題に関する議論が求められている。
論文参考訳（メタデータ） (2020-05-25T16:30:05Z)
Showing Your Work Doesn't Always Work [73.63200097493576]
『Show Your Work: Improved Reporting of Experimental Results』では、最高の学習モデルの有効性を報告している。解析的にそれらの推定器は偏りがあり、エラーを起こしやすい仮定を用いていることを示す。我々は、偏見のない代替案を導き、統計的シミュレーションから経験的な証拠で主張を裏付ける。
論文参考訳（メタデータ） (2020-04-28T17:59:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。