論文の概要: Secret Breach Prevention in Software Issue Reports
- arxiv url: http://arxiv.org/abs/2410.23657v1
- Date: Thu, 31 Oct 2024 06:14:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-01 17:02:48.492045
- Title: Secret Breach Prevention in Software Issue Reports
- Title(参考訳): ソフトウェアイシューレポートにおけるシークレットリーチ防止
- Authors: Zahin Wahab, Sadif Ahmed, Md Nafiu Rahman, Rifat Shahriyar, Gias Uddin,
- Abstract要約: 本稿では,ソフトウェア問題報告における秘密漏洩検出のための新しい手法を提案する。
ログファイル、URL、コミットID、スタックトレース、ダミーパスワードなど、ノイズによって引き起こされる課題を強調します。
本稿では,最先端技術の強みと言語モデルの文脈的理解を組み合わせたアプローチを提案する。
- 参考スコア(独自算出の注目度): 2.8747015994080285
- License:
- Abstract: In the digital age, the exposure of sensitive information poses a significant threat to security. Leveraging the ubiquitous nature of code-sharing platforms like GitHub and BitBucket, developers often accidentally disclose credentials and API keys, granting unauthorized access to critical systems. Despite the availability of tools for detecting such breaches in source code, detecting secret breaches in software issue reports remains largely unexplored. This paper presents a novel technique for secret breach detection in software issue reports using a combination of language models and state-of-the-art regular expressions. We highlight the challenges posed by noise, such as log files, URLs, commit IDs, stack traces, and dummy passwords, which complicate the detection process. By employing relevant pre-processing techniques and leveraging the capabilities of advanced language models, we aim to mitigate potential breaches effectively. Drawing insights from existing research on secret detection tools and methodologies, we propose an approach combining the strengths of state-of-the-art regexes with the contextual understanding of language models. Our method aims to reduce false positives and improve the accuracy of secret breach detection in software issue reports. We have curated a benchmark dataset of 25000 instances with only 437 true positives. Although the data is highly skewed, our model performs well with a 0.6347 F1-score, whereas state-of-the-art regular expression hardly manages to get a 0.0341 F1-Score with a poor precision score. We have also developed a secret breach mitigator tool for GitHub, which will warn the user if there is any secret in the posted issue report. By addressing this critical gap in contemporary research, our work aims at enhancing the overall security posture of software development practices.
- Abstract(参考訳): デジタル時代には、機密情報の暴露はセキュリティに重大な脅威をもたらす。
GitHubやBitBucketのようなユビキタスなコード共有プラットフォームを活用して、開発者は誤って認証情報やAPIキーを公開し、重要なシステムへの不正アクセスを許可する。
ソースコードにそのような侵入を検出するツールが利用可能であるにもかかわらず、ソフトウェアイシューレポートの秘密侵害を検出することは、まだほとんど探索されていない。
本稿では,言語モデルと最先端の正規表現を組み合わせたソフトウェア問題報告における秘密漏洩検出手法を提案する。
ログファイル、URL、コミットID、スタックトレース、ダミーパスワードなど、検出プロセスが複雑になる。
関連する事前処理技術を採用し、先進言語モデルの能力を活用することにより、潜在的な違反を効果的に軽減することを目指している。
本研究は,既存のシークレット検出ツールと方法論に関する研究から得られた知見をもとに,最先端のレジェクツの強みと言語モデルの文脈的理解を組み合わせたアプローチを提案する。
本手法は,ソフトウェア問題報告における偽陽性の低減と秘密漏洩検出の精度の向上を目的としている。
25,000インスタンスのベンチマークデータセットをキュレートしましたが、正は437件でした。
精度は0.6347 F1スコアでは良好であるが、最先端の正規表現では0.0341 F1スコアの精度は低い。
GitHub用のシークレット侵害対策ツールも開発しましたが、投稿されたイシューレポートにシークレットがある場合、ユーザに警告します。
現代の研究におけるこの重要なギャップに対処することで、ソフトウェア開発プラクティスの全体的なセキュリティ姿勢を強化することを目的としています。
関連論文リスト
- A Combined Feature Embedding Tools for Multi-Class Software Defect and Identification [2.2020053359163305]
本稿では,GraphCodeBERTとGraph Convolutional Networkを組み合わせた実験手法であるCodeGraphNetを提案する。
この方法は、機能間の複雑な関係船をキャプチャし、脆弱性のより正確な識別と分離を可能にする。
決定木とニューラルネットワークのハイブリッドであるDeepTreeモデルは、最先端のアプローチよりも優れています。
論文 参考訳(メタデータ) (2024-11-26T17:33:02Z) - Towards Efficient Verification of Constant-Time Cryptographic
Implementations [5.433710892250037]
一定時間プログラミングの規律は、タイミングサイドチャネル攻撃に対する効果的なソフトウェアベースの対策である。
本研究では, テナント解析の新たな相乗効果と自己構成プログラムの安全性検証に基づく実用的検証手法を提案する。
当社のアプローチはクロスプラットフォームで完全に自動化されたCT-Proverとして実装されている。
論文 参考訳(メタデータ) (2024-02-21T03:39:14Z) - JAMDEC: Unsupervised Authorship Obfuscation using Constrained Decoding
over Small Language Models [53.83273575102087]
著者の難読化に対する教師なし推論時間アプローチを提案する。
本稿では,著者難読化のためのユーザ制御推論時間アルゴリズムであるJAMDECを紹介する。
提案手法は,GPT2-XL などの小型言語モデルに基づいて,オリジナルコンテンツをプロプライエタリな LLM の API に公開するのを防ぐ。
論文 参考訳(メタデータ) (2024-02-13T19:54:29Z) - Zero-Shot Detection of Machine-Generated Codes [83.0342513054389]
本研究は,LLMの生成したコードを検出するためのトレーニング不要な手法を提案する。
既存のトレーニングベースまたはゼロショットテキスト検出装置は、コード検出に効果がないことがわかった。
本手法は,リビジョン攻撃に対する堅牢性を示し,Javaコードによく適応する。
論文 参考訳(メタデータ) (2023-10-08T10:08:21Z) - The FormAI Dataset: Generative AI in Software Security Through the Lens of Formal Verification [3.2925005312612323]
本稿では,脆弱性分類を伴う112,000のAI生成Cプログラムの大規模なコレクションであるFormAIデータセットを提案する。
すべてのプログラムには、型、行番号、脆弱な関数名を示すソースコード内の脆弱性がラベル付けされている。
ソースコードは112,000のプログラムで利用でき、各プログラムで検出された脆弱性を含む別のファイルが付属する。
論文 参考訳(メタデータ) (2023-07-05T10:39:58Z) - A Comparative Study of Software Secrets Reporting by Secret Detection
Tools [5.9347272469695245]
GitGuardianの公開GitHubリポジトリの監視によると、2022年にはシークレットが2021と比較して67%加速した。
ベンチマークデータセットに対する5つのオープンソースと4つのプロプライエタリなツールの評価を行う。
GitHub Secret Scanner (75%)、Gitleaks (46%)、Commercial X (25%)、リコールに基づく上位3つのツールは、Gitleaks (88%)、SpectralOps (67%)、TruffleHog (52%)である。
論文 参考訳(メタデータ) (2023-07-03T02:32:09Z) - CodeLMSec Benchmark: Systematically Evaluating and Finding Security
Vulnerabilities in Black-Box Code Language Models [58.27254444280376]
自動コード生成のための大規模言語モデル(LLM)は、いくつかのプログラミングタスクにおいてブレークスルーを達成した。
これらのモデルのトレーニングデータは、通常、インターネット(例えばオープンソースのリポジトリから)から収集され、障害やセキュリティ上の脆弱性を含む可能性がある。
この不衛生なトレーニングデータは、言語モデルにこれらの脆弱性を学習させ、コード生成手順中にそれを伝播させる可能性がある。
論文 参考訳(メタデータ) (2023-02-08T11:54:07Z) - VELVET: a noVel Ensemble Learning approach to automatically locate
VulnErable sTatements [62.93814803258067]
本稿では,ソースコード中の脆弱な文を見つけるための新しいアンサンブル学習手法であるVELVETを提案する。
我々のモデルは、グラフベースとシーケンスベースニューラルネットワークを組み合わせて、プログラムグラフの局所的およびグローバル的コンテキストを捕捉する。
VELVETは、合成データと実世界のデータに対して、それぞれ99.6%と43.6%の精度を達成している。
論文 参考訳(メタデータ) (2021-12-20T22:45:27Z) - Software Vulnerability Detection via Deep Learning over Disaggregated
Code Graph Representation [57.92972327649165]
この研究は、コードコーパスから安全でないパターンを自動的に学習するためのディープラーニングアプローチを探求する。
コードには解析を伴うグラフ構造が自然に認められるため,プログラムの意味的文脈と構造的規則性の両方を利用する新しいグラフニューラルネットワーク(GNN)を開発する。
論文 参考訳(メタデータ) (2021-09-07T21:24:36Z) - Security Vulnerability Detection Using Deep Learning Natural Language
Processing [1.4591078795663772]
ソースコードをテキストとして扱う自然言語処理(NLP)問題としてソフトウェア脆弱性検出をモデル化する。
トレーニングとテストのために、123タイプの脆弱性を持つ$C$プログラミング言語で10000以上のファイルのデータセットを構築しました。
実験は、セキュリティ脆弱性の検出において93%以上の精度で最高のパフォーマンスを生み出します。
論文 参考訳(メタデータ) (2021-05-06T01:28:21Z) - Robust and Transferable Anomaly Detection in Log Data using Pre-Trained
Language Models [59.04636530383049]
クラウドのような大規模コンピュータシステムにおける異常や障害は、多くのユーザに影響を与える。
システム情報の主要なトラブルシューティングソースとして,ログデータの異常検出のためのフレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-23T09:17:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。