論文の概要: SoK: Understanding (New) Security Issues Across AI4Code Use Cases
- arxiv url: http://arxiv.org/abs/2512.18456v1
- Date: Sat, 20 Dec 2025 18:13:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.348073
- Title: SoK: Understanding (New) Security Issues Across AI4Code Use Cases
- Title(参考訳): SoK: AI4Codeのユースケース全体での(新しい)セキュリティ問題を理解する
- Authors: Qilong Wu, Taoran Li, Tianyang Zhou, Varun Chandrasekaran,
- Abstract要約: このSoKは、3つのコアアプリケーションにわたるAI4Codeセキュリティの状況を調査します。
コード生成におけるセキュリティパターンの持続、脆弱性検出はセマンティック保存攻撃の脆弱さ、微調整はセキュリティの目標を誤ったものにすることが多い。
私たちは、脆弱性の軽減と堅牢性が開発ライフサイクル全体に組み込まれている、セキュリティファーストのAI4Codeへのシフトを呼びかけています。
- 参考スコア(独自算出の注目度): 13.582240392749412
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI-for-Code (AI4Code) systems are reshaping software engineering, with tools like GitHub Copilot accelerating code generation, translation, and vulnerability detection. Alongside these advances, however, security risks remain pervasive: insecure outputs, biased benchmarks, and susceptibility to adversarial manipulation undermine their reliability. This SoK surveys the landscape of AI4Code security across three core applications, identifying recurring gaps: benchmark dominance by Python and toy problems, lack of standardized security datasets, data leakage in evaluation, and fragile adversarial robustness. A comparative study of six state-of-the-art models illustrates these challenges: insecure patterns persist in code generation, vulnerability detection is brittle to semantic-preserving attacks, fine-tuning often misaligns security objectives, and code translation yields uneven security benefits. From this analysis, we distill three forward paths: embedding secure-by-default practices in code generation, building robust and comprehensive detection benchmarks, and leveraging translation as a route to security-enhanced languages. We call for a shift toward security-first AI4Code, where vulnerability mitigation and robustness are embedded throughout the development life cycle.
- Abstract(参考訳): AI-for-Code(AI4Code)システムは、コード生成、翻訳、脆弱性検出を高速化するGitHub Copilotなどのツールを使用して、ソフトウェアエンジニアリングを再構築している。
しかし、これらの進歩とともに、セキュリティリスクは依然として広まっており、不安定なアウトプット、偏りのあるベンチマーク、敵の操作に対する感受性は信頼性を損なう。
このSoKは、3つのコアアプリケーションにわたるAI4Codeセキュリティの状況を調査し、繰り返し発生するギャップを識別する:Pythonによるベンチマークの優位性とおもちゃの問題、標準化されたセキュリティデータセットの欠如、評価におけるデータ漏洩、脆弱な敵の堅牢性。
6つの最先端モデルの比較研究では、コード生成における安全性の低下、セマンティックな保存攻撃に対する脆弱性検出の脆弱化、セキュリティ目標の微調整、コード変換の不均一なセキュリティ上のメリットなど、これらの課題が示されている。
この分析から、コード生成にセキュア・バイ・デフォルトのプラクティスを組み込むこと、堅牢で包括的な検出ベンチマークを構築すること、セキュリティ強化された言語へのルートとして翻訳を活用することの3つの前進経路を抽出する。
私たちは、脆弱性の軽減と堅牢性が開発ライフサイクル全体に組み込まれている、セキュリティファーストのAI4Codeへのシフトを呼びかけています。
関連論文リスト
- SecureAgentBench: Benchmarking Secure Code Generation under Realistic Vulnerability Scenarios [17.276786247873613]
SecureAgentBenchは、セキュアなコード生成において、コードエージェントの機能を厳格に評価するために設計された105のコーディングタスクのベンチマークである。
その結果、(i)現在のエージェントがセキュアなコードを生成するのに苦労していることが示され、最高のパフォーマンスのエージェントであるDeepSeek-V3.1がサポートしているSWE-agentも15.2%の正安のソリューションしか達成していない。
論文 参考訳(メタデータ) (2025-09-26T09:18:57Z) - GitHub's Copilot Code Review: Can AI Spot Security Flaws Before You Commit? [0.0]
この研究は、セキュリティ脆弱性の検出においてGitHub Copilotが最近導入したコードレビュー機能の有効性を評価する。
期待に反して、私たちの結果は、Copilotのコードレビューが重大な脆弱性を検出するのに頻繁に失敗することを示している。
私たちの結果は、堅牢なソフトウェアセキュリティを保証するために、専用のセキュリティツールと手作業によるコード監査が引き続き必要であることを示している。
論文 参考訳(メタデータ) (2025-09-17T02:56:21Z) - A.S.E: A Repository-Level Benchmark for Evaluating Security in AI-Generated Code [49.009041488527544]
A.S.Eは、AI生成コードのセキュリティを評価するためのリポジトリレベルの評価ベンチマークである。
現在の大規模言語モデル(LLM)は、セキュアなコーディングに苦戦している。
大きな推論予算は、必ずしもより良いコード生成につながるとは限らない。
論文 参考訳(メタデータ) (2025-08-25T15:11:11Z) - Secure Tug-of-War (SecTOW): Iterative Defense-Attack Training with Reinforcement Learning for Multimodal Model Security [63.41350337821108]
マルチモーダル大規模言語モデル(MLLM)のセキュリティを高めるために,Secure Tug-of-War(SecTOW)を提案する。
SecTOWは2つのモジュールで構成される:ディフェンダーと補助攻撃者。どちらも強化学習(GRPO)を使用して反復的に訓練される。
SecTOWは、一般的な性能を維持しながら、セキュリティを大幅に改善することを示す。
論文 参考訳(メタデータ) (2025-07-29T17:39:48Z) - Decompiling Smart Contracts with a Large Language Model [51.49197239479266]
Etherscanの78,047,845のスマートコントラクトがデプロイされているにも関わらず(2025年5月26日現在)、わずか767,520 (1%)がオープンソースである。
この不透明さは、オンチェーンスマートコントラクトバイトコードの自動意味解析を必要とする。
バイトコードを可読でセマンティックに忠実なSolidityコードに変換する,先駆的な逆コンパイルパイプラインを導入する。
論文 参考訳(メタデータ) (2025-06-24T13:42:59Z) - SeCodePLT: A Unified Platform for Evaluating the Security of Code GenAI [58.29510889419971]
コード生成大型言語モデル(LLM)のセキュリティリスクと能力を評価するための既存のベンチマークは、いくつかの重要な制限に直面している。
手動で検証し、高品質なシード例から始める、汎用的でスケーラブルなベンチマーク構築フレームワークを導入し、ターゲット突然変異を通じて拡張する。
このフレームワークをPython、C/C++、Javaに適用すると、44のCWEベースのリスクカテゴリと3つのセキュリティ機能にまたがる5.9k以上のサンプルデータセットであるSeCodePLTが構築されます。
論文 参考訳(メタデータ) (2024-10-14T21:17:22Z) - Is Your AI-Generated Code Really Safe? Evaluating Large Language Models on Secure Code Generation with CodeSecEval [20.959848710829878]
大規模言語モデル(LLM)は、コード生成とコード修復に大きな進歩をもたらした。
しかし、GitHubのようなオープンソースのリポジトリから無防備なデータを使用したトレーニングは、セキュリティ上の脆弱性を必然的に伝播するリスクを増大させる。
我々は,コードLLMのセキュリティ面を正確に評価し,拡張することを目的とした総合的研究を提案する。
論文 参考訳(メタデータ) (2024-07-02T16:13:21Z) - CodeLMSec Benchmark: Systematically Evaluating and Finding Security
Vulnerabilities in Black-Box Code Language Models [58.27254444280376]
自動コード生成のための大規模言語モデル(LLM)は、いくつかのプログラミングタスクにおいてブレークスルーを達成した。
これらのモデルのトレーニングデータは、通常、インターネット(例えばオープンソースのリポジトリから)から収集され、障害やセキュリティ上の脆弱性を含む可能性がある。
この不衛生なトレーニングデータは、言語モデルにこれらの脆弱性を学習させ、コード生成手順中にそれを伝播させる可能性がある。
論文 参考訳(メタデータ) (2023-02-08T11:54:07Z) - Multi-context Attention Fusion Neural Network for Software Vulnerability
Identification [4.05739885420409]
ソースコードのセキュリティ脆弱性の共通カテゴリのいくつかを効率的に検出することを学ぶディープラーニングモデルを提案する。
モデルは、学習可能なパラメータの少ないコードセマンティクスの正確な理解を構築します。
提案したAIは、ベンチマークされたNIST SARDデータセットから特定のCWEに対して98.40%のF1スコアを達成する。
論文 参考訳(メタデータ) (2021-04-19T11:50:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。