論文の概要: Taking a Closer Look at Warnings Generated by PMD and SonarQube, their Rules and Compliance to Established Coding Standards
- arxiv url: http://arxiv.org/abs/2603.00821v1
- Date: Sat, 28 Feb 2026 21:50:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.372537
- Title: Taking a Closer Look at Warnings Generated by PMD and SonarQube, their Rules and Compliance to Established Coding Standards
- Title(参考訳): PMDとSonarQubeが生み出した警告をよく見ていく : コーディング標準のルールとコンプライアンス
- Authors: Lakmal Deshapriya, Sherlock A. Licorish, Brendon J. Woodford,
- Abstract要約: 静的コード分析ツールはソフトウェア開発において重要な役割を果たす。
コミュニティの最高のツールには、偽陽性と偽陰性が高いことが報告されている。
- 参考スコア(独自算出の注目度): 2.6699776214769666
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Context: Static code analysis (SCA) tools play a vital role in software development, reducing the cost and time required for code reviews. However, high false-positive and false-negative rates are reported for the best tools in the community. Accordingly, studies often aim to develop datasets for learning SCA warning patterns to reduce false results. These datasets are meant to possess high-quality and high-volume in covering the full range of faults/rules that typically result in false warnings and be compliant with established coding standards. However, existing studies have not utilised such datasets or identified the breadth of rules that are prone to false positives and their compliance to coding standards. Objectives: We analysed code from Stack Overflow and Apache Tomcat to capture variations in code length and style in detecting false-positive warnings from best-performing tools PMD and SonarQube, addressing this gap. Method: In deriving false-positive warnings, outcomes from the tools were labelled using established coding standards. Deeper analyses were then conducted to identify the rules that are prone to false-positives, reasons for these, and agreement/gaps between SCA rules and established standards. Results: Among our main outcomes, we observe that only a few SCA rules generate false positives, ranging from 4.64% to 18.45% across four datasets. Additionally, eliminating rules that contradict established standards significantly reduce the false-positive rate. Additionally, our findings reveal discrepancies between tools and established standards. Conclusion: Given the evidence established in this study, we recommend further investigations into gaps between tools and established standards, including the use of machine learning approaches to annotate larger datasets.
- Abstract(参考訳): コンテキスト: 静的コード分析(SCA)ツールはソフトウェア開発において重要な役割を担い、コードレビューに必要なコストと時間を削減します。
しかし, コミュニティの最高のツールには, 偽陽性, 偽陰性率が高いことが報告されている。
したがって、しばしば研究は、誤った結果を減らすためにSCA警告パターンを学習するためのデータセットを開発することを目的としている。
これらのデータセットは、一般的に誤った警告を引き起こし、確立されたコーディング標準に準拠する、完全な障害/ルールをカバーする、高品質で高ボリュームなデータを保持することを意図している。
しかし、既存の研究ではそのようなデータセットを利用していないか、偽陽性やコーディング基準に準拠する可能性のあるルールの幅を特定していない。
目的:私たちはStack OverflowとApache Tomcatのコードを分析して、最高のパフォーマンスツールであるPMDとSonarQubeから偽陽性の警告を検出するコード長とスタイルのバリエーションをキャプチャし、このギャップに対処しました。
方法: 偽陽性警告の導出において, 既定のコーディング基準を用いて, ツールの結果をラベル付けした。
次に、より深い分析を行い、偽陽性になりがちなルール、その理由、SCAルールと確立された標準との間の合意/ギャップを識別しました。
結果: 主要な結果の中で,4つのデータセットで4.64%から18.45%の偽陽性が生じるのは,SCAルールのごく一部に過ぎません。
さらに、確立された基準に矛盾する規則を排除することで、偽陽性率を大幅に削減した。
さらに,ツールと確立された標準との相違点も明らかにした。
結論:本研究で確立された証拠を踏まえ,より大規模なデータセットを注釈付けするための機械学習アプローチの使用を含む,ツールと確立された標準とのギャップに関するさらなる調査を推奨する。
関連論文リスト
- A Large Scale Empirical Analysis on the Adherence Gap between Standards and Tools in SBOM [54.38424417079265]
ソフトウェア・ビル・オブ・マテリアル(Software Bill of Materials, SBOM)は、ソフトウェア情報を整理する機械読み取り可能なアーティファクトである。
標準に従って、組織はSBOMの生成と利用のためのツールを開発した。
本稿では,我々の自動評価フレームワークであるSAPを用いて,接着ギャップの大規模2段階解析を行った。
論文 参考訳(メタデータ) (2026-01-09T08:26:05Z) - AXIOM: Benchmarking LLM-as-a-Judge for Code via Rule-Based Perturbation and Multisource Quality Calibration [28.117814524373667]
AXIOMは、大規模なコード評価ベンチマークを合成するための新しい摂動ベースのフレームワークである。
プログラムスコアをデプロイメントに必要な改善作業として再設定する。
論文 参考訳(メタデータ) (2025-12-23T08:39:22Z) - Adapting Language Balance in Code-Switching Speech [60.296574524609575]
大規模な基礎モデルは、コードスイッチングテストケースといまだに苦労しています。
我々は、世代間のコンテキストバイアスを軽減するために、微分可能なサロゲートを使用します。
アラビア語と中国語による実験では、モデルの切り替え位置をより正確に予測できることが示されている。
論文 参考訳(メタデータ) (2025-10-21T15:23:55Z) - Probing Pre-trained Language Models on Code Changes: Insights from ReDef, a High-Confidence Just-in-Time Defect Prediction Dataset [0.0]
本稿では,22の大規模C/C++プロジェクトから得られた関数レベル修正の信頼性の高いベンチマークであるReDefを紹介する。
欠陥ケースはコミットの反転によって固定され、クリーンケースはポストホック履歴チェックによって検証される。
このパイプラインは3,164の欠陥と10,268のクリーンな修正をもたらし、既存のリソースよりも信頼性の高いラベルを提供する。
論文 参考訳(メタデータ) (2025-09-11T07:07:11Z) - Large Language Models Versus Static Code Analysis Tools: A Systematic Benchmark for Vulnerability Detection [0.0]
業界標準の3つの静的コード分析ツール(Sonar、CodeQL、Snyk Code)と、GitHub Modelsプラットフォーム(GPT-4.1、Mistral Large、DeepSeek V3)にホストされた最先端の3つの大規模言語モデルを評価した。
63の脆弱性を埋め込んだ10の現実世界のC#プロジェクトのキュレートされたスイートを使用して、古典的な精度(精度、リコール、Fスコア)、分析のレイテンシ、粒度、真の肯定性を検証するために必要な開発者の労力を測定します。
開発初期段階の言語モデルを採用して、広義のコンテキスト認識検出と検出を行う、ハイブリッドパイプラインを推奨します。
論文 参考訳(メタデータ) (2025-08-06T13:48:38Z) - Hey, That's My Data! Label-Only Dataset Inference in Large Language Models [63.35066172530291]
CatShiftはラベルのみのデータセット推論フレームワークである。
LLMは、新しいデータに晒されたとき、学習した知識を上書きする傾向にある。
論文 参考訳(メタデータ) (2025-06-06T13:02:59Z) - CASTLE: Benchmarking Dataset for Static Code Analyzers and LLMs towards CWE Detection [2.5228276786940182]
本稿では,異なる手法の脆弱性検出能力を評価するためのベンチマークフレームワークであるCASTLEを紹介する。
我々は,25個のCWEをカバーする250個のマイクロベンチマークプログラムを手作りしたデータセットを用いて,静的解析ツール13,LLM10,形式検証ツール2を評価した。
論文 参考訳(メタデータ) (2025-03-12T14:30:05Z) - Teaching Your Models to Understand Code via Focal Preference Alignment [70.71693365502212]
既存の手法では、テストケースの成功率に基づいてn個の候補解が評価される。
このアプローチは、特定のエラーを特定するのではなく、失敗するコードブロック全体を整列するので、意味のあるエラーと訂正の関係を捉えるのに必要な粒度が欠けている。
我々は、人間の反復デバッグを模倣してコードLLMを洗練させる新しい優先順位調整フレームワークであるTarget-DPOを提案する。
論文 参考訳(メタデータ) (2025-03-04T16:56:34Z) - Utilizing Precise and Complete Code Context to Guide LLM in Automatic False Positive Mitigation [2.787944528438214]
静的アプリケーションセキュリティテスト(SAST)ツールは、ソフトウェア品質にとって重要なツールであり、開発中の潜在的なコード問題を特定する。
しばしば、手動でレビューし、開発を遅くする誤った肯定的な警告を発生させる。
本稿では,軽量かつ効率的な偽陽性緩和フレームワーク LLM4FPM を提案する。
論文 参考訳(メタデータ) (2024-11-05T13:24:56Z) - SeCodePLT: A Unified Platform for Evaluating the Security of Code GenAI [58.29510889419971]
コード生成大型言語モデル(LLM)のセキュリティリスクと能力を評価するための既存のベンチマークは、いくつかの重要な制限に直面している。
手動で検証し、高品質なシード例から始める、汎用的でスケーラブルなベンチマーク構築フレームワークを導入し、ターゲット突然変異を通じて拡張する。
このフレームワークをPython、C/C++、Javaに適用すると、44のCWEベースのリスクカテゴリと3つのセキュリティ機能にまたがる5.9k以上のサンプルデータセットであるSeCodePLTが構築されます。
論文 参考訳(メタデータ) (2024-10-14T21:17:22Z) - Assessing Validity of Static Analysis Warnings using Ensemble Learning [4.05739885420409]
静的分析(SA)ツールは、コードの潜在的な弱点を特定し、事前に修正するために使われ、コードが開発中である。
これらのルールベースの静的解析ツールは一般的に、実際のものとともに多くの誤った警告を報告します。
機械学習(ML)ベースの学習プロセスを提案し、ソースコード、履歴コミットデータ、および分類器アンサンブルを使用してTrue警告を優先します。
論文 参考訳(メタデータ) (2021-04-21T19:39:20Z) - ORDisCo: Effective and Efficient Usage of Incremental Unlabeled Data for
Semi-supervised Continual Learning [52.831894583501395]
連続学習は、入力されたデータが完全にラベル付けされていると仮定し、実際のアプリケーションでは適用できないかもしれない。
我々は、条件付き生成逆数ネットワーク(GAN)を用いた分類器を相互に学習するために、識別器整合(ORDisCo)を用いたディープオンライン再生を提案する。
ORDisCo が SSCL の様々な半教師付き学習ベンチマークデータセットで大幅なパフォーマンス向上を達成していることを示します。
論文 参考訳(メタデータ) (2021-01-02T09:04:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。