論文の概要: A Large-Scale Collection Of (Non-)Actionable Static Code Analysis Reports
- arxiv url: http://arxiv.org/abs/2511.10323v1
- Date: Fri, 14 Nov 2025 01:45:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 22:53:22.815066
- Title: A Large-Scale Collection Of (Non-)Actionable Static Code Analysis Reports
- Title(参考訳): 大規模(ノン)解釈可能な静的コード解析レポート
- Authors: Dávid Kószó, Tamás Aladics, Rudolf Ferenc, Péter Hegedűs,
- Abstract要約: 静的コード分析(SCA)ツールは、しばしば圧倒的な数の警告を発生させます。
この過剰なアラートは、開発者が警告に嫌がらせされ、潜在的に重大な問題を見落とし、最終的には生産性とコード品質を損なう現象である。
我々は、SCA警告の収集と分類のための新しい方法論を導入し、非動作可能な警告と効果的に区別する。
我々は、NASCAR: (Non-)Actionable Static Code Analysis Reportsという、100万以上のJavaソースコード警告の大規模なデータセットを生成します。
- 参考スコア(独自算出の注目度): 0.05599792629509228
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Static Code Analysis (SCA) tools, while invaluable for identifying potential coding problems, functional bugs, or vulnerabilities, often generate an overwhelming number of warnings, many of which are non-actionable. This overload of alerts leads to ``alert fatigue'', a phenomenon where developers become desensitized to warnings, potentially overlooking critical issues and ultimately hindering productivity and code quality. Analyzing these warnings and training machine learning models to identify and filter them requires substantial datasets, which are currently scarce, particularly for Java. This scarcity impedes efforts to improve the accuracy and usability of SCA tools and mitigate the effects of alert fatigue. In this paper, we address this gap by introducing a novel methodology for collecting and categorizing SCA warnings, effectively distinguishing actionable from non-actionable ones. We further leverage this methodology to generate a large-scale dataset of over 1 million entries of Java source code warnings, named NASCAR: (Non-)Actionable Static Code Analysis Reports. To facilitate follow-up research in this domain, we make both the dataset and the tools used to generate it publicly available.
- Abstract(参考訳): 静的コード分析(SCA)ツールは、潜在的なコーディング問題や機能的バグ、脆弱性を特定するのに貴重なツールだが、しばしば圧倒的な数の警告を発生させる。
この過度なアラートが‘alert exhaust’’につながり、開発者は警告に嫌がらせされ、潜在的に重大な問題を見落とし、最終的には生産性とコード品質を損なうことになる。
これらの警告を分析し、それらを識別してフィルタリングするために機械学習モデルを訓練するには、現在不足している、特にJavaでは、かなりのデータセットが必要である。
この不足は、SCAツールの正確性と使用性を改善し、アラート疲労の影響を軽減する努力を妨げます。
本稿では,SCA警告の収集と分類を行う新しい手法を導入することにより,このギャップに対処する。
さらに、この方法論を利用して、NASCAR: (Non-)Actionable Static Code Analysis Reportsという、100万以上のJavaソースコード警告の大規模なデータセットを生成します。
この領域でのフォローアップ調査を容易にするために、データセットとそれを生成するツールの両方を公開しています。
関連論文リスト
- From Model to Breach: Towards Actionable LLM-Generated Vulnerabilities Reporting [43.57360781012506]
最新のオープンウェイトモデルでさえ、最も早く報告された脆弱性シナリオに脆弱性があることが示されています。
LLMが生成する脆弱性によって引き起こされるリスクを反映した、新たな重大度指標を導入する。
最も深刻で普及している脆弱性の緩和を促進するために、PEを使用して、モデル露出(ME)スコアを定義します。
論文 参考訳(メタデータ) (2025-11-06T16:52:27Z) - Weakly Supervised Vulnerability Localization via Multiple Instance Learning [46.980136742826836]
WeAkly によるマルチプルインスタンス学習による脆弱性ローカライゼーションのための WAVES という新しい手法を提案する。
WAVESは、ある関数が脆弱かどうか(すなわち脆弱性検出)を判定し、脆弱なステートメントをピンポイントする機能を持っている。
提案手法は,文レベルの脆弱性ローカライゼーションにおいて,脆弱性検出と最先端のパフォーマンスにおいて同等のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-09-14T15:11:39Z) - Trace Gadgets: Minimizing Code Context for Machine Learning-Based Vulnerability Prediction [8.056137513320065]
これは、非関連コードを削除することで、コードコンテキストを最小限に抑える新しいコード表現である。
MLモデルの入力として、トレースガジェットは最小限の完全なコンテキストを提供するため、検出性能が向上する。
この結果から,現在最先端の機械学習モデルでは,従来のコード表現と比較してTrace Gadgetsが最適であることが示唆された。
論文 参考訳(メタデータ) (2025-04-18T13:13:39Z) - Vulnerability Detection with Code Language Models: How Far Are We? [40.455600722638906]
PrimeVulは、脆弱性検出のためのコードLMのトレーニングと評価のための新しいデータセットである。
これは、人間の検証されたベンチマークに匹敵するラベルの精度を達成する、新しいデータラベリング技術を含んでいる。
また、厳密なデータ重複解消戦略と時系列データ分割戦略を実装して、データの漏洩問題を軽減している。
論文 参考訳(メタデータ) (2024-03-27T14:34:29Z) - FineWAVE: Fine-Grained Warning Verification of Bugs for Automated Static Analysis Tools [18.927121513404924]
ASAT(Automated Static Analysis Tools)は、バグ検出を支援するために、時間とともに進化してきた。
これまでの研究は、報告された警告を検証するための学習ベースの方法を探究してきた。
我々は,バグに敏感な警告をきめ細かい粒度で検証する学習ベースアプローチであるFineWAVEを提案する。
論文 参考訳(メタデータ) (2024-03-24T06:21:35Z) - Tracking the Evolution of Static Code Warnings: the State-of-the-Art and
a Better Approach [18.350023994564904]
静的バグ検出ツールは、悪いプログラミングプラクティスや潜在的な欠陥など、開発者がコード内の問題を検出するのに役立つ。
最近のソフトウェア開発において、コードレビューや継続的統合のような静的バグ検出を統合しようとする動きは、報告された警告を即時に修正する動機付けをより良くしている。
論文 参考訳(メタデータ) (2022-10-06T03:02:32Z) - Annotation Error Detection: Analyzing the Past and Present for a More
Coherent Future [63.99570204416711]
我々は、潜在的なアノテーションの誤りを検知するための18の手法を再実装し、9つの英語データセット上で評価する。
アノテーションエラー検出タスクの新しい形式化を含む一様評価設定を定義する。
私たちはデータセットと実装を,使いやすく,オープンソースのソフトウェアパッケージとしてリリースしています。
論文 参考訳(メタデータ) (2022-06-05T22:31:45Z) - Learning to Reduce False Positives in Analytic Bug Detectors [12.733531603080674]
偽陽性のバグ警告を識別するためのトランスフォーマーに基づく学習手法を提案する。
我々は,静的解析の精度を17.5%向上させることができることを示した。
論文 参考訳(メタデータ) (2022-03-08T04:26:26Z) - Software Vulnerability Detection via Deep Learning over Disaggregated
Code Graph Representation [57.92972327649165]
この研究は、コードコーパスから安全でないパターンを自動的に学習するためのディープラーニングアプローチを探求する。
コードには解析を伴うグラフ構造が自然に認められるため,プログラムの意味的文脈と構造的規則性の両方を利用する新しいグラフニューラルネットワーク(GNN)を開発する。
論文 参考訳(メタデータ) (2021-09-07T21:24:36Z) - Assessing Validity of Static Analysis Warnings using Ensemble Learning [4.05739885420409]
静的分析(SA)ツールは、コードの潜在的な弱点を特定し、事前に修正するために使われ、コードが開発中である。
これらのルールベースの静的解析ツールは一般的に、実際のものとともに多くの誤った警告を報告します。
機械学習(ML)ベースの学習プロセスを提案し、ソースコード、履歴コミットデータ、および分類器アンサンブルを使用してTrue警告を優先します。
論文 参考訳(メタデータ) (2021-04-21T19:39:20Z) - D2A: A Dataset Built for AI-Based Vulnerability Detection Methods Using
Differential Analysis [55.15995704119158]
静的解析ツールによって報告されたラベル問題に対する差分解析に基づくアプローチであるD2Aを提案する。
D2Aを使用して大きなラベル付きデータセットを生成し、脆弱性識別のためのモデルをトレーニングします。
論文 参考訳(メタデータ) (2021-02-16T07:46:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。