Fugu-MT 論文翻訳(概要): Exploring Security Commits in Python

論文の概要: Exploring Security Commits in Python

arxiv url: http://arxiv.org/abs/2307.11853v1
Date: Fri, 21 Jul 2023 18:46:45 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-23 16:53:19.088446
Title: Exploring Security Commits in Python
Title（参考訳）: pythonのセキュリティコミットの探求
Authors: Shiyu Sun, Shu Wang, Xinda Wang, Yunlong Xing, Elisa Zhang, Kun Sun
Abstract要約: Pythonのほとんどのセキュリティ問題は、CVEによってインデックス化されておらず、'silent'セキュリティコミットによってのみ修正される可能性がある。限られたデータバリエーション、非包括的コードセマンティクス、解釈不能な学習機能のために、隠れたセキュリティコミットを特定することが重要だ。 Pythonの最初のセキュリティコミットデータセットであるPySecDBを構築し、ベースデータセット、パイロットデータセット、拡張データセットを含む3つのサブセットで構成される。
参考スコア（独自算出の注目度）: 11.533638656389137
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Python has become the most popular programming language as it is friendly to work with for beginners. However, a recent study has found that most security issues in Python have not been indexed by CVE and may only be fixed by 'silent' security commits, which pose a threat to software security and hinder the security fixes to downstream software. It is critical to identify the hidden security commits; however, the existing datasets and methods are insufficient for security commit detection in Python, due to the limited data variety, non-comprehensive code semantics, and uninterpretable learned features. In this paper, we construct the first security commit dataset in Python, namely PySecDB, which consists of three subsets including a base dataset, a pilot dataset, and an augmented dataset. The base dataset contains the security commits associated with CVE records provided by MITRE. To increase the variety of security commits, we build the pilot dataset from GitHub by filtering keywords within the commit messages. Since not all commits provide commit messages, we further construct the augmented dataset by understanding the semantics of code changes. To build the augmented dataset, we propose a new graph representation named CommitCPG and a multi-attributed graph learning model named SCOPY to identify the security commit candidates through both sequential and structural code semantics. The evaluation shows our proposed algorithms can improve the data collection efficiency by up to 40 percentage points. After manual verification by three security experts, PySecDB consists of 1,258 security commits and 2,791 non-security commits. Furthermore, we conduct an extensive case study on PySecDB and discover four common security fix patterns that cover over 85% of security commits in Python, providing insight into secure software maintenance, vulnerability detection, and automated program repair.
Abstract（参考訳）: Pythonは初心者向けの開発に親しみやすいため、最も人気のあるプログラミング言語となっている。しかし、最近の研究によると、Pythonのほとんどのセキュリティ問題はCVEによってインデックス化されておらず、ソフトウェアセキュリティへの脅威となり、下流ソフトウェアに対するセキュリティ修正を妨げる'サイレント'セキュリティコミットによってのみ修正される可能性がある。隠れたセキュリティコミットを特定することは重要であるが、Pythonのセキュリティコミット検出には、制限されたデータバリアント、非包括的コードセマンティクス、解釈不能な学習機能のために、既存のデータセットとメソッドが不十分である。本稿では,pythonにおける最初のセキュリティコミットデータセット,すなわち,ベースデータセット,パイロットデータセット,拡張データセットを含む3つのサブセットからなるpysecdbを構築する。ベースデータセットには、MITREが提供するCVEレコードに関連するセキュリティコミットが含まれている。さまざまなセキュリティコミットを増やすために、コミットメッセージ内のキーワードをフィルタリングすることで、githubからパイロットデータセットを構築します。すべてのコミットがコミットメッセージを提供するわけではないので、コード変更の意味を理解することで拡張データセットをさらに構築します。拡張データセットを構築するために,commitcpgと呼ばれる新しいグラフ表現とscopyと呼ばれる多属性グラフ学習モデルを提案し,シーケンシャルおよび構造的コードセマンティクスを用いてセキュリティコミット候補を識別する。評価の結果,提案アルゴリズムは最大40ポイントまでデータ収集効率を向上させることができることがわかった。 3人のセキュリティ専門家による手動検証の後、PySecDBは1,258のセキュリティコミットと2,791の非セキュリティコミットで構成される。さらに、PySecDBに関する広範なケーススタディを実施し、Pythonの85%以上のセキュリティコミットをカバーする4つの一般的なセキュリティ修正パターンを発見し、セキュアなソフトウェアメンテナンス、脆弱性検出、自動プログラム修正に関する洞察を提供する。

関連論文リスト

RealSec-bench: A Benchmark for Evaluating Secure Code Generation in Real-World Repositories [58.32028251925354]
LLM(Large Language Models)は、コード生成において顕著な能力を示しているが、セキュアなコードを生成する能力は依然として重要で、未調査の領域である。我々はRealSec-benchを紹介します。RealSec-benchは、現実世界の高リスクなJavaリポジトリから慎重に構築されたセキュアなコード生成のための新しいベンチマークです。
論文参考訳（メタデータ） (2026-01-30T08:29:01Z)
SAGA: Detecting Security Vulnerabilities Using Static Aspect Analysis [5.971445533193919]
SAGAは、Pythonソースコードの脆弱性を多目的に検出し、発見するアプローチである。私たちは、SAGAを108の脆弱性のデータセットで評価し、100%の感度と99.15%の特異性を得ました。
論文参考訳（メタデータ） (2026-01-21T16:26:26Z)
An Empirical Study of Vulnerabilities in Python Packages and Their Detection [12.629138654621983]
この記事では、Pythonパッケージの脆弱性の包括的なベンチマークスイートであるPyVulを紹介する。 PyVulには、公表された1,157の開発者認証脆弱性が含まれており、それぞれが影響を受けるパッケージにリンクされている。ラベル精度を向上し、100%コミットレベルと94%関数レベルの精度を達成するために、LCM支援データクリーニング手法が組み込まれている。
論文参考訳（メタデータ） (2025-09-04T14:38:28Z)
Decompiling Smart Contracts with a Large Language Model [51.49197239479266]
Etherscanの78,047,845のスマートコントラクトがデプロイされているにも関わらず(2025年5月26日現在)、わずか767,520 (1%)がオープンソースである。この不透明さは、オンチェーンスマートコントラクトバイトコードの自動意味解析を必要とする。バイトコードを可読でセマンティックに忠実なSolidityコードに変換する,先駆的な逆コンパイルパイプラインを導入する。
論文参考訳（メタデータ） (2025-06-24T13:42:59Z)
SWE-PolyBench: A multi-language benchmark for repository level evaluation of coding agents [49.73885480071402]
我々はSWE-PolyBenchを紹介した。SWE-PolyBenchは、コードエージェントのリポジトリレベル、実行ベース評価のための新しいベンチマークである。 SWE-PolyBenchには21のリポジトリから2110のインスタンスが含まれており、Java(165)、JavaScript(1017)、TypeScript(729)、Python(199)のタスクが含まれており、バグ修正、機能追加、コードを含んでいる。実験の結果,現在のエージェントは言語間で不均一なパフォーマンスを示し,複雑な問題に対処しつつ,単純なタスクで高いパフォーマンスを示すことがわかった。
論文参考訳（メタデータ） (2025-04-11T17:08:02Z)
Improving the Context Length and Efficiency of Code Retrieval for Tracing Security Vulnerability Fixes [1.3606495556399092]
脆弱性管理における重要な課題は、脆弱性を修正するパッチをトレースすることだ。これまでの研究によると、脆弱性データベースにはパッチ情報が欠落していることが多い。 SITPatchTracerはスケーラブルな全文検索システムである。
論文参考訳（メタデータ） (2025-03-29T01:53:07Z)
Repository-Level Graph Representation Learning for Enhanced Security Patch Detection [22.039868029497942]
本稿ではRepoSPDというリポジトリレベルのセキュリティパッチ検出フレームワークを提案する。 RepoSPDは,1)リポジトリレベルのグラフ構築であるRepoCPG,2)リポジトリレベルでの事前パッチと後パッチのソースコードのマージによるソフトウェアパッチの表現,2) グラフとシーケンスブランチを融合し,複数のコード変更間の関係の理解を目的とした構造対応パッチ表現,3) 意味と構造情報のバランスのモデルを容易にする進行学習,の3つの重要なコンポーネントから構成される。
論文参考訳（メタデータ） (2024-12-11T03:29:56Z)
PyPulse: A Python Library for Biosignal Imputation [58.35269251730328]
PyPulseは,臨床およびウェアラブルの両方のセンサ設定において生体信号の計算を行うPythonパッケージである。 PyPulseのフレームワークは、非機械学習バイオリサーバーを含む幅広いユーザーベースに対して、使い勝手の良いモジュラーで拡張可能なフレームワークを提供する。 PyPulseはMITライセンスでGithubとPyPIでリリースしました。
論文参考訳（メタデータ） (2024-12-09T11:00:55Z)
An Empirical Study of Vulnerability Handling Times in CPython [0.2538209532048867]
本稿では,CPythonにおけるソフトウェア脆弱性の処理時間について検討する。この論文は、Pythonエコシステムのセキュリティをよりよく理解するための最近の取り組みに貢献している。
論文参考訳（メタデータ） (2024-11-01T08:46:14Z)
Secret Breach Prevention in Software Issue Reports [2.8747015994080285]
本稿では,ソフトウェア問題報告における秘密漏洩検出のための新しい手法を提案する。ログファイル、URL、コミットID、スタックトレース、ダミーパスワードなど、ノイズによって引き起こされる課題を強調します。本稿では,最先端技術の強みと言語モデルの文脈的理解を組み合わせたアプローチを提案する。
論文参考訳（メタデータ） (2024-10-31T06:14:17Z)
HexaCoder: Secure Code Generation via Oracle-Guided Synthetic Training Data [60.75578581719921]
大規模言語モデル(LLM)は、自動コード生成に大きな可能性を示している。最近の研究は、多くのLLM生成コードが深刻なセキュリティ脆弱性を含んでいることを強調している。我々は,LLMがセキュアなコードを生成する能力を高めるための新しいアプローチであるHexaCoderを紹介する。
論文参考訳（メタデータ） (2024-09-10T12:01:43Z)
WildTeaming at Scale: From In-the-Wild Jailbreaks to (Adversarially) Safer Language Models [66.34505141027624]
我々は、WildTeamingを紹介した。これは自動LLM安全リチームフレームワークで、Wild-Chatbotインタラクションをマイニングし、新しいジェイルブレイク戦術の5.7Kのユニークなクラスタを発見する。 WildTeamingは、未確認のフロンティアLSMの脆弱性を明らかにし、最大4.6倍の多様性と敵の攻撃に成功した。
論文参考訳（メタデータ） (2024-06-26T17:31:22Z)
Python Fuzzing for Trustworthy Machine Learning Frameworks [0.0]
我々はSydr-Fuzzを用いたPythonプロジェクトの動的解析パイプラインを提案する。私たちのパイプラインにはファジング、コーパスの最小化、クラッシュトリアージ、カバレッジ収集が含まれています。機械学習フレームワークの最も脆弱な部分を特定するために、攻撃の潜在的な表面を分析し、PyTorchのファズターゲットとh5pyなどの関連プロジェクトを開発する。
論文参考訳（メタデータ） (2024-03-19T13:41:11Z)
HasTEE+ : Confidential Cloud Computing and Analytics with Haskell [50.994023665559496]
信頼性コンピューティングは、Trusted Execution Environments(TEEs)と呼ばれる特別なハードウェア隔離ユニットを使用して、コテナントクラウドデプロイメントにおける機密コードとデータの保護を可能にする。低レベルのC/C++ベースのツールチェーンを提供するTEEは、固有のメモリ安全性の脆弱性の影響を受けやすく、明示的で暗黙的な情報フローのリークを監視するための言語構造が欠如している。私たちは、Haskellに埋め込まれたドメイン固有言語(cla)であるHasTEE+を使って、上記の問題に対処します。
論文参考訳（メタデータ） (2024-01-17T00:56:23Z)
Multi-Granularity Detector for Vulnerability Fixes [13.653249890867222]
脆弱性修正のためのMiDa(Multi-Granularity Detector for Vulnerability Fixes)を提案する。 MiDasはコミットレベル、ファイルレベル、ハンクレベル、ラインレベルに対応して、コード変更の粒度ごとに異なるニューラルネットワークを構築する。 MiDasは、現在の最先端のベースラインをAUCで4.9%、JavaとPythonベースのデータセットで13.7%上回っている。
論文参考訳（メタデータ） (2023-05-23T10:06:28Z)
CodeLMSec Benchmark: Systematically Evaluating and Finding Security Vulnerabilities in Black-Box Code Language Models [58.27254444280376]
自動コード生成のための大規模言語モデル(LLM)は、いくつかのプログラミングタスクにおいてブレークスルーを達成した。これらのモデルのトレーニングデータは、通常、インターネット(例えばオープンソースのリポジトリから)から収集され、障害やセキュリティ上の脆弱性を含む可能性がある。この不衛生なトレーニングデータは、言語モデルにこれらの脆弱性を学習させ、コード生成手順中にそれを伝播させる可能性がある。
論文参考訳（メタデータ） (2023-02-08T11:54:07Z)
Pre-trained Encoders in Self-Supervised Learning Improve Secure and Privacy-preserving Supervised Learning [63.45532264721498]
自己教師付き学習は、ラベルのないデータを使ってエンコーダを事前訓練するための新しいテクニックである。我々は、事前訓練されたエンコーダがセキュア・プライバシ保護型学習アルゴリズムの限界に対処できるかどうかを理解するための、最初の体系的、原則的な測定研究を行う。
論文参考訳（メタデータ） (2022-12-06T21:35:35Z)
Automated Mapping of Vulnerability Advisories onto their Fix Commits in Open Source Repositories [7.629717457706326]
実践経験と機械学習(ML)を組み合わせたアプローチを提案する。アドバイザリから脆弱性に関する鍵情報を含むアドバイザリレコードを抽出する。影響を受けるプロジェクトのソースコードリポジトリから、候補となる修正コミットのサブセットを取得する。
論文参考訳（メタデータ） (2021-03-24T17:50:35Z)
SafePILCO: a software tool for safe and data-efficient policy synthesis [67.17251247987187]
SafePILCOは、強化学習による安全でデータ効率のよいポリシー検索のためのソフトウェアツールである。これは、Pythonで書かれた既知のPILCOアルゴリズムを拡張し、安全な学習をサポートする。
論文参考訳（メタデータ） (2020-08-07T17:17:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。