論文の概要: SOSecure: Safer Code Generation with RAG and StackOverflow Discussions
- arxiv url: http://arxiv.org/abs/2503.13654v1
- Date: Mon, 17 Mar 2025 19:03:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-19 14:18:07.120519
- Title: SOSecure: Safer Code Generation with RAG and StackOverflow Discussions
- Title(参考訳): SOSecure: RAGとStackOverflowの議論によるより安全なコード生成
- Authors: Manisha Mukherjee, Vincent J. Hellendoorn,
- Abstract要約: 大規模言語モデル(LLM)は、コードの自動生成に広く使われている。
頻繁に更新される事前トレーニングデータへの依存は、新たに発見された脆弱性やセキュリティ標準の進化に気付かないままである。
本稿では,LLM生成コードのセキュリティ向上のために,SO議論で見出されたセキュリティの総合的専門知識を活用する検索型拡張生成システムであるSOSecureを紹介する。
- 参考スコア(独自算出の注目度): 4.2630881518611226
- License:
- Abstract: Large Language Models (LLMs) are widely used for automated code generation. Their reliance on infrequently updated pretraining data leaves them unaware of newly discovered vulnerabilities and evolving security standards, making them prone to producing insecure code. In contrast, developer communities on Stack Overflow (SO) provide an ever-evolving repository of knowledge, where security vulnerabilities are actively discussed and addressed through collective expertise. These community-driven insights remain largely untapped by LLMs. This paper introduces SOSecure, a Retrieval-Augmented Generation (RAG) system that leverages the collective security expertise found in SO discussions to improve the security of LLM-generated code. We build a security-focused knowledge base by extracting SO answers and comments that explicitly identify vulnerabilities. Unlike common uses of RAG, SOSecure triggers after code has been generated to find discussions that identify flaws in similar code. These are used in a prompt to an LLM to consider revising the code. Evaluation across three datasets (SALLM, LLMSecEval, and LMSys) show that SOSecure achieves strong fix rates of 71.7%, 91.3%, and 96.7% respectively, compared to prompting GPT-4 without relevant discussions (49.1%, 56.5%, and 37.5%), and outperforms multiple other baselines. SOSecure operates as a language-agnostic complement to existing LLMs, without requiring retraining or fine-tuning, making it easy to deploy. Our results underscore the importance of maintaining active developer forums, which have dropped substantially in usage with LLM adoptions.
- Abstract(参考訳): 大規模言語モデル(LLM)は、コードの自動生成に広く使われている。
頻繁に更新される事前トレーニングデータへの依存は、新たに発見された脆弱性やセキュリティ標準の進化に気付かず、安全でないコードを生成する傾向にある。
対照的にStack Overflow(SO)の開発者コミュニティは、セキュリティ脆弱性を積極的に議論し、集合的な専門知識を通じて対処する、進化を続ける知識のリポジトリを提供している。
これらのコミュニティ主導の洞察は、LLMによってほとんど妨げられていない。
本稿では、LLM生成コードのセキュリティを改善するために、SO議論で見出されたセキュリティの総合的専門知識を活用する、検索型拡張生成(RAG)システムであるSOSecureを紹介する。
我々は、脆弱性を明確に識別するSO回答とコメントを抽出することで、セキュリティに焦点を当てた知識ベースを構築します。
RAGの一般的な使用とは異なり、コード後のSOSecureトリガは、類似したコードの欠陥を特定する議論を見つけるために生成される。
これらは、コード修正を検討するため、LLMへのプロンプトとして使用される。
3つのデータセット(SALLM、LLMSecEval、LMSys)で評価すると、SOSecureは関連する議論のないGPT-4(49.1%、56.5%、37.5%)に対してそれぞれ71.7%、91.3%、96.7%の強い修正率を獲得し、他のベースラインを上回っている。
SOSecureは、リトレーニングや微調整を必要とせずに、既存のLLMの言語に依存しない補完として動作するため、デプロイが容易である。
この結果から, LLM導入による利用が著しく減少している, アクティブな開発者フォーラムの維持の重要性が浮き彫りになった。
関連論文リスト
- Do LLMs Consider Security? An Empirical Study on Responses to Programming Questions [10.69738882390809]
ChatGPTは、開発者にコンテキスト固有の情報をボランティアして、安全なコーディングプラクティスを促進する。
我々は,3つのLLM(Claude 3, GPT-4, Llama 3)が示すセキュリティ意識の程度を評価する。
私たちの調査によると、3つのモデルすべてが、脆弱性を正確に検知し、ユーザに警告するのに苦労しており、データセット全体の検出率は12.6%から40%に過ぎません。
論文 参考訳(メタデータ) (2025-02-20T02:20:06Z) - From Solitary Directives to Interactive Encouragement! LLM Secure Code Generation by Natural Language Prompting [24.27542373791212]
SecCodeは、テキストのみのNLプロンプトでセキュアなコード生成のために、革新的なインタラクティブな励ましプロンプト(EP)技術を活用するフレームワークである。
1) NL Prompts を用いたコード生成,2) コード脆弱性の検出と修正,提案したプロモーションプロンプトの利用,3) 脆弱性のクロスチェッキングとコードセキュリティリファインメント。
論文 参考訳(メタデータ) (2024-10-18T09:32:08Z) - HexaCoder: Secure Code Generation via Oracle-Guided Synthetic Training Data [60.75578581719921]
大規模言語モデル(LLM)は、自動コード生成に大きな可能性を示している。
最近の研究は、多くのLLM生成コードが深刻なセキュリティ脆弱性を含んでいることを強調している。
我々は,LLMがセキュアなコードを生成する能力を高めるための新しいアプローチであるHexaCoderを紹介する。
論文 参考訳(メタデータ) (2024-09-10T12:01:43Z) - Security Attacks on LLM-based Code Completion Tools [11.54818796372798]
大きな言語モデル(LLM)は、コード補完機能が大きく進歩し、新しい世代のコード補完ツール(LCCT)を生み出した。
LCCTには固有の特徴があり、複数の情報ソースを入力として統合し、自然言語の相互作用に対するコード提案を優先順位付けする。
本稿では、これらの特徴を利用して、脱獄とデータ抽出攻撃の訓練という、2つの重大なセキュリティリスクに対する攻撃手法を開発する。
論文 参考訳(メタデータ) (2024-08-20T17:00:04Z) - Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。
11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。
最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文 参考訳(メタデータ) (2024-07-23T15:31:26Z) - SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal [64.9938658716425]
SORRY-Benchは、安全でないユーザ要求を認識し拒否する大規模言語モデル(LLM)能力を評価するためのベンチマークである。
まず、既存の手法では、安全でないトピックの粗い分類を使い、いくつかのきめ細かいトピックを過剰に表現している。
第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
論文 参考訳(メタデータ) (2024-06-20T17:56:07Z) - ALERT: A Comprehensive Benchmark for Assessing Large Language Models' Safety through Red Teaming [64.86326523181553]
ALERTは、新しいきめ細かいリスク分類に基づいて安全性を評価するための大規模なベンチマークである。
脆弱性を特定し、改善を通知し、言語モデルの全体的な安全性を高めることを目的としている。
論文 参考訳(メタデータ) (2024-04-06T15:01:47Z) - CodeAttack: Revealing Safety Generalization Challenges of Large Language Models via Code Completion [117.178835165855]
本稿では,自然言語入力をコード入力に変換するフレームワークであるCodeAttackを紹介する。
我々の研究は、コード入力に対するこれらのモデルの新たな、普遍的な安全性の脆弱性を明らかにした。
CodeAttackと自然言語の分布ギャップが大きくなると、安全性の一般化が弱くなる。
論文 参考訳(メタデータ) (2024-03-12T17:55:38Z) - LLM-Powered Code Vulnerability Repair with Reinforcement Learning and
Semantic Reward [3.729516018513228]
我々は,大規模な言語モデルであるCodeGen2を利用した多目的コード脆弱性解析システム texttSecRepair を導入する。
そこで本研究では,LLMを用いた脆弱性解析に適した命令ベースデータセットを提案する。
GitHub上の6つのオープンソースIoTオペレーティングシステムにおいて、ゼロデイとNデイの脆弱性を特定します。
論文 参考訳(メタデータ) (2024-01-07T02:46:39Z) - Can LLMs Patch Security Issues? [1.3299507495084417]
LLM(Large Language Models)は、コード生成に優れた習熟度を示している。
LLMは人間と弱点を共有している。
我々は、LLMが生成した脆弱性のあるコードを自動的に洗練するフィードバック駆動セキュリティパッチング(FDSP)を提案する。
論文 参考訳(メタデータ) (2023-11-13T08:54:37Z) - Do-Not-Answer: A Dataset for Evaluating Safeguards in LLMs [59.596335292426105]
本稿では,大規模な言語モデルにおけるセーフガードを評価するための,最初のオープンソースデータセットを収集する。
我々は、自動安全性評価において、GPT-4に匹敵する結果を得るために、BERTライクな分類器をいくつか訓練する。
論文 参考訳(メタデータ) (2023-08-25T14:02:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。