論文の概要: Taught by the Flawed: How Dataset Insecurity Breeds Vulnerable AI Code
- arxiv url: http://arxiv.org/abs/2511.09879v1
- Date: Fri, 14 Nov 2025 01:15:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 22:53:22.545963
- Title: Taught by the Flawed: How Dataset Insecurity Breeds Vulnerable AI Code
- Title(参考訳): データセットのセキュリティがAIコードに悪影響を及ぼす理由
- Authors: Catherine Xia, Manar H. Alalfi,
- Abstract要約: アウトプットをセキュアにするための重要な要因は、大規模な言語モデルを構築するために使用されるトレーニングデータセットに脆弱性が存在することだ。
静的解析ツールを用いて既存のPythonコーパスをフィルタリングしてセキュアなデータセットを構築し,脆弱性のない機能のみを保持する。
以上の結果から,計算したデータセットでトレーニングしたモデルは,同等の機能的正しさを維持しつつ,より少ないセキュリティ問題でアウトプットを生成した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: AI programming assistants have demonstrated a tendency to generate code containing basic security vulnerabilities. While developers are ultimately responsible for validating and reviewing such outputs, improving the inherent quality of these generated code snippets remains essential. A key contributing factor to insecure outputs is the presence of vulnerabilities in the training datasets used to build large language models (LLMs). To address this issue, we propose curating training data to include only code that is free from detectable vulnerabilities. In this study, we constructed a secure dataset by filtering an existing Python corpus using a static analysis tool to retain only vulnerability-free functions. We then trained two transformer-based models: one on the curated dataset and one on the original, unfiltered dataset. The models were evaluated on both the correctness and security of the code they generated in response to natural language function descriptions. Our results show that the model trained on the curated dataset produced outputs with fewer security issues, while maintaining comparable functional correctness. These findings highlight the importance of secure training data in improving the reliability of AI-based programming assistants, though further enhancements to model architecture and evaluation are needed to reinforce these outcomes.
- Abstract(参考訳): AIプログラミングアシスタントは、基本的なセキュリティ脆弱性を含むコードを生成する傾向を示している。
開発者は最終的にそのようなアウトプットの検証とレビューの責任を負うが、生成されたコードスニペットの本質的な品質の改善は依然として不可欠である。
アウトプットをセキュアにするための重要な要因は、大規模な言語モデル(LLM)を構築するために使用されるトレーニングデータセットに脆弱性が存在することだ。
この問題に対処するために、検出可能な脆弱性のないコードのみを含むトレーニングデータのキュレーションを提案する。
本研究では,脆弱性のない機能のみを保持する静的解析ツールを用いて,既存のPythonコーパスをフィルタリングしてセキュアなデータセットを構築した。
そして、2つのトランスフォーマーベースのモデルをトレーニングしました。
これらのモデルは、自然言語関数記述に応答して生成したコードの正確性とセキュリティの両方に基づいて評価された。
以上の結果から,計算したデータセットでトレーニングしたモデルは,同等の機能的正しさを維持しつつ,より少ないセキュリティ問題でアウトプットを生成した。
これらの知見は、AIベースのプログラミングアシスタントの信頼性を向上させる上で、セキュアなトレーニングデータの重要性を強調している。
関連論文リスト
- Training Language Models to Generate Quality Code with Program Analysis Feedback [66.0854002147103]
大規模言語モデル(LLM)によるコード生成は、ますます本番環境で採用されているが、コード品質の保証には失敗している。
実運用品質のコードを生成するためにLLMにインセンティブを与える強化学習フレームワークであるREALを提案する。
論文 参考訳(メタデータ) (2025-05-28T17:57:47Z) - Improving Automated Secure Code Reviews: A Synthetic Dataset for Code Vulnerability Flaws [0.0]
本稿では,セキュリティ欠陥について特にコメントする脆弱性中心のレビューからなる合成データセットの作成を提案する。
弊社のアプローチでは,Large Language Models(LLMs)を利用して,脆弱性に対する人間的なコードレビューコメントを生成する。
論文 参考訳(メタデータ) (2025-04-22T23:07:24Z) - Learning to Solve and Verify: A Self-Play Framework for Code and Test Generation [69.62857948698436]
大規模言語モデル(LLM)の最近の進歩は、コーディングベンチマークのパフォーマンスを改善している。
しかし、手軽に利用できる高品質なデータの枯渇により、改善は停滞している。
本稿では,単一モデルのコードとテスト生成能力を共同で改善するセルフプレイ・ソルバ検証フレームワークであるSol-Verを提案する。
論文 参考訳(メタデータ) (2025-02-20T18:32:19Z) - Vulnerability Detection with Code Language Models: How Far Are We? [40.455600722638906]
PrimeVulは、脆弱性検出のためのコードLMのトレーニングと評価のための新しいデータセットである。
これは、人間の検証されたベンチマークに匹敵するラベルの精度を達成する、新しいデータラベリング技術を含んでいる。
また、厳密なデータ重複解消戦略と時系列データ分割戦略を実装して、データの漏洩問題を軽減している。
論文 参考訳(メタデータ) (2024-03-27T14:34:29Z) - Enhancing Large Language Models for Secure Code Generation: A
Dataset-driven Study on Vulnerability Mitigation [24.668682498171776]
大規模言語モデル(LLM)はコード生成に大きな進歩をもたらし、初心者と経験豊富な開発者の両方に恩恵を与えている。
しかし、GitHubのようなオープンソースのリポジトリから無防備なデータを使用したトレーニングは、セキュリティ上の脆弱性を不注意に伝播するリスクをもたらす。
本稿では,ソフトウェアセキュリティの観点からのLLMの評価と拡張に焦点をあてた総合的研究について述べる。
論文 参考訳(メタデータ) (2023-10-25T00:32:56Z) - CodeLMSec Benchmark: Systematically Evaluating and Finding Security
Vulnerabilities in Black-Box Code Language Models [58.27254444280376]
自動コード生成のための大規模言語モデル(LLM)は、いくつかのプログラミングタスクにおいてブレークスルーを達成した。
これらのモデルのトレーニングデータは、通常、インターネット(例えばオープンソースのリポジトリから)から収集され、障害やセキュリティ上の脆弱性を含む可能性がある。
この不衛生なトレーニングデータは、言語モデルにこれらの脆弱性を学習させ、コード生成手順中にそれを伝播させる可能性がある。
論文 参考訳(メタデータ) (2023-02-08T11:54:07Z) - VELVET: a noVel Ensemble Learning approach to automatically locate
VulnErable sTatements [62.93814803258067]
本稿では,ソースコード中の脆弱な文を見つけるための新しいアンサンブル学習手法であるVELVETを提案する。
我々のモデルは、グラフベースとシーケンスベースニューラルネットワークを組み合わせて、プログラムグラフの局所的およびグローバル的コンテキストを捕捉する。
VELVETは、合成データと実世界のデータに対して、それぞれ99.6%と43.6%の精度を達成している。
論文 参考訳(メタデータ) (2021-12-20T22:45:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。