論文の概要: Secret Breach Prevention in Software Issue Reports
- arxiv url: http://arxiv.org/abs/2410.23657v3
- Date: Thu, 06 Nov 2025 02:17:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-07 20:17:53.0775
- Title: Secret Breach Prevention in Software Issue Reports
- Title(参考訳): ソフトウェアイシューレポートにおけるシークレットリーチ防止
- Authors: Sadif Ahmed, Md Nafiu Rahman, Zahin Wahab, Gias Uddin, Rifat Shahriyar,
- Abstract要約: 機密情報の 偶然の暴露は セキュリティの脅威の増大だ
この研究は、大規模な分析とGitHub問題における公開シークレットの実用的な検出パイプラインによるギャップを埋めるものだ。
GitHubの公開イシューから54,148のインスタンスのベンチマークを構築しました。
- 参考スコア(独自算出の注目度): 4.177725820146491
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the digital era, accidental exposure of sensitive information such as API keys, tokens, and credentials is a growing security threat. While most prior work focuses on detecting secrets in source code, leakage in software issue reports remains largely unexplored. This study fills that gap through a large-scale analysis and a practical detection pipeline for exposed secrets in GitHub issues. Our pipeline combines regular expression-based extraction with large language model (LLM) based contextual classification to detect real secrets and reduce false positives. We build a benchmark of 54,148 instances from public GitHub issues, including 5,881 manually verified true secrets. Using this dataset, we evaluate entropy-based baselines and keyword heuristics used by prior secret detection tools, classical machine learning, deep learning, and LLM-based methods. Regex and entropy based approaches achieve high recall but poor precision, while smaller models such as RoBERTa and CodeBERT greatly improve performance (F1 = 92.70%). Proprietary models like GPT-4o perform moderately in few-shot settings (F1 = 80.13%), and fine-tuned open-source larger LLMs such as Qwen and LLaMA reach up to 94.49% F1. Finally, we also validate our approach on 178 real-world GitHub repositories, achieving an F1-score of 81.6% which demonstrates our approach's strong ability to generalize to in-the-wild scenarios.
- Abstract(参考訳): デジタル時代には、APIキーやトークン、資格情報といった機密情報を偶然に暴露することは、セキュリティ上の脅威が増している。
これまでのほとんどの研究はソースコードの秘密を検出することに重点を置いていたが、ソフトウェアイシューレポートのリークはほとんど未調査のままである。
この研究は、大規模な分析とGitHub問題における公開シークレットの実用的な検出パイプラインによるギャップを埋めるものだ。
我々のパイプラインは、正規表現に基づく抽出と大言語モデル(LLM)に基づく文脈分類を組み合わせることで、実際の秘密を検知し、偽陽性を減らす。
GitHubの公開イシューから54,148のインスタンスのベンチマークを構築しました。
本データセットを用いて,従来の秘密検出ツール,古典的機械学習,ディープラーニング,LLMに基づく手法を用いて,エントロピーに基づくベースラインとキーワードヒューリスティックスを評価する。
回帰とエントロピーに基づくアプローチは高いリコールを実現するが、RoBERTaやCodeBERTのような小型モデルは性能を大幅に向上させる(F1 = 92.70%)。
GPT-4oのようなプロプライエタリなモデルは、わずかな設定で適度に動作し(F1 = 80.13%)、QwenやLLaMAのような細調整されたオープンソースのより大きなLCMは94.49%のF1に達する。
最後に、178の現実のGitHubリポジトリに対するアプローチを検証することで、81.6%のF1スコアを達成しました。
関連論文リスト
- Decompiling Smart Contracts with a Large Language Model [51.49197239479266]
Etherscanの78,047,845のスマートコントラクトがデプロイされているにも関わらず(2025年5月26日現在)、わずか767,520 (1%)がオープンソースである。
この不透明さは、オンチェーンスマートコントラクトバイトコードの自動意味解析を必要とする。
バイトコードを可読でセマンティックに忠実なSolidityコードに変換する,先駆的な逆コンパイルパイプラインを導入する。
論文 参考訳(メタデータ) (2025-06-24T13:42:59Z) - Detecting Hard-Coded Credentials in Software Repositories via LLMs [0.0]
ソフトウェア開発者は、パスワード、ジェネリックシークレット、プライベートキー、ソフトウェアリポジトリのジェネリックトークンなどの認証情報をハードコードすることが多い。
これらの認証は、潜在的な敵によって悪用され、バックドア攻撃のような悪意ある攻撃を行うために攻撃面を生成する。
最近の検出では、埋め込みモデルを用いてテキスト認証をベクトル化し、予測のために分類器に渡す。
我々のモデルは、ベンチマークデータセットのF1測定値において、現在の最先端よりも13%優れています。
論文 参考訳(メタデータ) (2025-06-16T04:33:48Z) - Trace Gadgets: Minimizing Code Context for Machine Learning-Based Vulnerability Prediction [8.056137513320065]
これは、非関連コードを削除することで、コードコンテキストを最小限に抑える新しいコード表現である。
MLモデルの入力として、トレースガジェットは最小限の完全なコンテキストを提供するため、検出性能が向上する。
この結果から,現在最先端の機械学習モデルでは,従来のコード表現と比較してTrace Gadgetsが最適であることが示唆された。
論文 参考訳(メタデータ) (2025-04-18T13:13:39Z) - GaussMark: A Practical Approach for Structural Watermarking of Language Models [61.84270985214254]
GaussMarkは、大規模な言語モデルを透かし出すためのシンプルで効率的で比較的堅牢なスキームである。
GaussMarkは信頼性が高く、効率的で、挿入、削除、置換、ラウンドトリップ翻訳などの汚職に対して比較的堅牢であることを示す。
論文 参考訳(メタデータ) (2025-01-17T22:30:08Z) - Automating the Detection of Code Vulnerabilities by Analyzing GitHub Issues [6.6681265451722895]
我々は、脆弱性検出に関連するGitHubの問題を分類するために特別に設計された新しいデータセットを紹介します。
結果は、早期脆弱性検出における現実世界のアプリケーションに対するこのアプローチの可能性を示している。
この作業は、オープンソースのソフトウェアエコシステムのセキュリティを強化する可能性がある。
論文 参考訳(メタデータ) (2025-01-09T14:13:39Z) - A Combined Feature Embedding Tools for Multi-Class Software Defect and Identification [2.2020053359163305]
本稿では,GraphCodeBERTとGraph Convolutional Networkを組み合わせた実験手法であるCodeGraphNetを提案する。
この方法は、機能間の複雑な関係船をキャプチャし、脆弱性のより正確な識別と分離を可能にする。
決定木とニューラルネットワークのハイブリッドであるDeepTreeモデルは、最先端のアプローチよりも優れています。
論文 参考訳(メタデータ) (2024-11-26T17:33:02Z) - Towards Efficient Verification of Constant-Time Cryptographic
Implementations [5.433710892250037]
一定時間プログラミングの規律は、タイミングサイドチャネル攻撃に対する効果的なソフトウェアベースの対策である。
本研究では, テナント解析の新たな相乗効果と自己構成プログラムの安全性検証に基づく実用的検証手法を提案する。
当社のアプローチはクロスプラットフォームで完全に自動化されたCT-Proverとして実装されている。
論文 参考訳(メタデータ) (2024-02-21T03:39:14Z) - JAMDEC: Unsupervised Authorship Obfuscation using Constrained Decoding
over Small Language Models [53.83273575102087]
著者の難読化に対する教師なし推論時間アプローチを提案する。
本稿では,著者難読化のためのユーザ制御推論時間アルゴリズムであるJAMDECを紹介する。
提案手法は,GPT2-XL などの小型言語モデルに基づいて,オリジナルコンテンツをプロプライエタリな LLM の API に公開するのを防ぐ。
論文 参考訳(メタデータ) (2024-02-13T19:54:29Z) - Zero-Shot Detection of Machine-Generated Codes [83.0342513054389]
本研究は,LLMの生成したコードを検出するためのトレーニング不要な手法を提案する。
既存のトレーニングベースまたはゼロショットテキスト検出装置は、コード検出に効果がないことがわかった。
本手法は,リビジョン攻撃に対する堅牢性を示し,Javaコードによく適応する。
論文 参考訳(メタデータ) (2023-10-08T10:08:21Z) - The FormAI Dataset: Generative AI in Software Security Through the Lens of Formal Verification [3.2925005312612323]
本稿では,脆弱性分類を伴う112,000のAI生成Cプログラムの大規模なコレクションであるFormAIデータセットを提案する。
すべてのプログラムには、型、行番号、脆弱な関数名を示すソースコード内の脆弱性がラベル付けされている。
ソースコードは112,000のプログラムで利用でき、各プログラムで検出された脆弱性を含む別のファイルが付属する。
論文 参考訳(メタデータ) (2023-07-05T10:39:58Z) - A Comparative Study of Software Secrets Reporting by Secret Detection
Tools [5.9347272469695245]
GitGuardianの公開GitHubリポジトリの監視によると、2022年にはシークレットが2021と比較して67%加速した。
ベンチマークデータセットに対する5つのオープンソースと4つのプロプライエタリなツールの評価を行う。
GitHub Secret Scanner (75%)、Gitleaks (46%)、Commercial X (25%)、リコールに基づく上位3つのツールは、Gitleaks (88%)、SpectralOps (67%)、TruffleHog (52%)である。
論文 参考訳(メタデータ) (2023-07-03T02:32:09Z) - CodeLMSec Benchmark: Systematically Evaluating and Finding Security
Vulnerabilities in Black-Box Code Language Models [58.27254444280376]
自動コード生成のための大規模言語モデル(LLM)は、いくつかのプログラミングタスクにおいてブレークスルーを達成した。
これらのモデルのトレーニングデータは、通常、インターネット(例えばオープンソースのリポジトリから)から収集され、障害やセキュリティ上の脆弱性を含む可能性がある。
この不衛生なトレーニングデータは、言語モデルにこれらの脆弱性を学習させ、コード生成手順中にそれを伝播させる可能性がある。
論文 参考訳(メタデータ) (2023-02-08T11:54:07Z) - VELVET: a noVel Ensemble Learning approach to automatically locate
VulnErable sTatements [62.93814803258067]
本稿では,ソースコード中の脆弱な文を見つけるための新しいアンサンブル学習手法であるVELVETを提案する。
我々のモデルは、グラフベースとシーケンスベースニューラルネットワークを組み合わせて、プログラムグラフの局所的およびグローバル的コンテキストを捕捉する。
VELVETは、合成データと実世界のデータに対して、それぞれ99.6%と43.6%の精度を達成している。
論文 参考訳(メタデータ) (2021-12-20T22:45:27Z) - Software Vulnerability Detection via Deep Learning over Disaggregated
Code Graph Representation [57.92972327649165]
この研究は、コードコーパスから安全でないパターンを自動的に学習するためのディープラーニングアプローチを探求する。
コードには解析を伴うグラフ構造が自然に認められるため,プログラムの意味的文脈と構造的規則性の両方を利用する新しいグラフニューラルネットワーク(GNN)を開発する。
論文 参考訳(メタデータ) (2021-09-07T21:24:36Z) - Security Vulnerability Detection Using Deep Learning Natural Language
Processing [1.4591078795663772]
ソースコードをテキストとして扱う自然言語処理(NLP)問題としてソフトウェア脆弱性検出をモデル化する。
トレーニングとテストのために、123タイプの脆弱性を持つ$C$プログラミング言語で10000以上のファイルのデータセットを構築しました。
実験は、セキュリティ脆弱性の検出において93%以上の精度で最高のパフォーマンスを生み出します。
論文 参考訳(メタデータ) (2021-05-06T01:28:21Z) - Robust and Transferable Anomaly Detection in Log Data using Pre-Trained
Language Models [59.04636530383049]
クラウドのような大規模コンピュータシステムにおける異常や障害は、多くのユーザに影響を与える。
システム情報の主要なトラブルシューティングソースとして,ログデータの異常検出のためのフレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-23T09:17:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。