Fugu-MT 論文翻訳(概要): SOSecure: Safer Code Generation with RAG and StackOverflow Discussions

論文の概要: SOSecure: Safer Code Generation with RAG and StackOverflow Discussions

arxiv url: http://arxiv.org/abs/2503.13654v1
Date: Mon, 17 Mar 2025 19:03:36 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-19 16:29:11.949567
Title: SOSecure: Safer Code Generation with RAG and StackOverflow Discussions
Title（参考訳）: SOSecure: RAGとStackOverflowの議論によるより安全なコード生成
Authors: Manisha Mukherjee, Vincent J. Hellendoorn,
Abstract要約: 大規模言語モデル(LLM)は、コードの自動生成に広く使われている。頻繁に更新される事前トレーニングデータへの依存は、新たに発見された脆弱性やセキュリティ標準の進化に気付かないままである。本稿では,LLM生成コードのセキュリティ向上のために,SO議論で見出されたセキュリティの総合的専門知識を活用する検索型拡張生成システムであるSOSecureを紹介する。
参考スコア（独自算出の注目度）: 4.2630881518611226
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) are widely used for automated code generation. Their reliance on infrequently updated pretraining data leaves them unaware of newly discovered vulnerabilities and evolving security standards, making them prone to producing insecure code. In contrast, developer communities on Stack Overflow (SO) provide an ever-evolving repository of knowledge, where security vulnerabilities are actively discussed and addressed through collective expertise. These community-driven insights remain largely untapped by LLMs. This paper introduces SOSecure, a Retrieval-Augmented Generation (RAG) system that leverages the collective security expertise found in SO discussions to improve the security of LLM-generated code. We build a security-focused knowledge base by extracting SO answers and comments that explicitly identify vulnerabilities. Unlike common uses of RAG, SOSecure triggers after code has been generated to find discussions that identify flaws in similar code. These are used in a prompt to an LLM to consider revising the code. Evaluation across three datasets (SALLM, LLMSecEval, and LMSys) show that SOSecure achieves strong fix rates of 71.7%, 91.3%, and 96.7% respectively, compared to prompting GPT-4 without relevant discussions (49.1%, 56.5%, and 37.5%), and outperforms multiple other baselines. SOSecure operates as a language-agnostic complement to existing LLMs, without requiring retraining or fine-tuning, making it easy to deploy. Our results underscore the importance of maintaining active developer forums, which have dropped substantially in usage with LLM adoptions.
Abstract（参考訳）: 大規模言語モデル(LLM)は、コードの自動生成に広く使われている。頻繁に更新される事前トレーニングデータへの依存は、新たに発見された脆弱性やセキュリティ標準の進化に気付かず、安全でないコードを生成する傾向にある。対照的にStack Overflow(SO)の開発者コミュニティは、セキュリティ脆弱性を積極的に議論し、集合的な専門知識を通じて対処する、進化を続ける知識のリポジトリを提供している。これらのコミュニティ主導の洞察は、LLMによってほとんど妨げられていない。本稿では、LLM生成コードのセキュリティを改善するために、SO議論で見出されたセキュリティの総合的専門知識を活用する、検索型拡張生成(RAG)システムであるSOSecureを紹介する。我々は、脆弱性を明確に識別するSO回答とコメントを抽出することで、セキュリティに焦点を当てた知識ベースを構築します。 RAGの一般的な使用とは異なり、コード後のSOSecureトリガは、類似したコードの欠陥を特定する議論を見つけるために生成される。これらは、コード修正を検討するため、LLMへのプロンプトとして使用される。 3つのデータセット(SALLM、LLMSecEval、LMSys)で評価すると、SOSecureは関連する議論のないGPT-4(49.1%、56.5%、37.5%)に対してそれぞれ71.7%、91.3%、96.7%の強い修正率を獲得し、他のベースラインを上回っている。 SOSecureは、リトレーニングや微調整を必要とせずに、既存のLLMの言語に依存しない補完として動作するため、デプロイが容易である。この結果から, LLM導入による利用が著しく減少している, アクティブな開発者フォーラムの維持の重要性が浮き彫りになった。

関連論文リスト

Give LLMs a Security Course: Securing Retrieval-Augmented Code Generation via Knowledge Injection [5.011290848820237]
既存のRetrieval-Augmented Code Generation (RACG) システムはセキュリティをほとんど見落としており、重大なリスクをもたらしている。本稿では,RACGシステムのセキュリティ強化フレームワークであるCodeGuarderを提案する。我々のフレームワークは,セキュアなコードサンプルやルート原因アノテーションを含む,現実世界の脆弱性データベースからセキュリティ知識ベースを構築する。
論文参考訳（メタデータ） (2025-04-23T05:27:27Z)
Do LLMs Consider Security? An Empirical Study on Responses to Programming Questions [10.69738882390809]
ChatGPTは、開発者にコンテキスト固有の情報をボランティアして、安全なコーディングプラクティスを促進する。我々は,3つのLLM(Claude 3, GPT-4, Llama 3)が示すセキュリティ意識の程度を評価する。私たちの調査によると、3つのモデルすべてが、脆弱性を正確に検知し、ユーザに警告するのに苦労しており、データセット全体の検出率は12.6%から40%に過ぎません。
論文参考訳（メタデータ） (2025-02-20T02:20:06Z)
From Solitary Directives to Interactive Encouragement! LLM Secure Code Generation by Natural Language Prompting [24.27542373791212]
SecCodeは、テキストのみのNLプロンプトでセキュアなコード生成のために、革新的なインタラクティブな励ましプロンプト(EP)技術を活用するフレームワークである。 1) NL Prompts を用いたコード生成,2) コード脆弱性の検出と修正,提案したプロモーションプロンプトの利用,3) 脆弱性のクロスチェッキングとコードセキュリティリファインメント。
論文参考訳（メタデータ） (2024-10-18T09:32:08Z)
HexaCoder: Secure Code Generation via Oracle-Guided Synthetic Training Data [60.75578581719921]
大規模言語モデル(LLM)は、自動コード生成に大きな可能性を示している。最近の研究は、多くのLLM生成コードが深刻なセキュリティ脆弱性を含んでいることを強調している。我々は,LLMがセキュアなコードを生成する能力を高めるための新しいアプローチであるHexaCoderを紹介する。
論文参考訳（メタデータ） (2024-09-10T12:01:43Z)
Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。 11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文参考訳（メタデータ） (2024-07-23T15:31:26Z)
SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal [64.9938658716425]
SORRY-Benchは、安全でないユーザ要求を認識し拒否する大規模言語モデル(LLM)能力を評価するためのベンチマークである。まず、既存の手法では、安全でないトピックの粗い分類を使い、いくつかのきめ細かいトピックを過剰に表現している。第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
論文参考訳（メタデータ） (2024-06-20T17:56:07Z)
ALERT: A Comprehensive Benchmark for Assessing Large Language Models' Safety through Red Teaming [64.86326523181553]
ALERTは、新しいきめ細かいリスク分類に基づいて安全性を評価するための大規模なベンチマークである。脆弱性を特定し、改善を通知し、言語モデルの全体的な安全性を高めることを目的としている。
論文参考訳（メタデータ） (2024-04-06T15:01:47Z)
CodeAttack: Revealing Safety Generalization Challenges of Large Language Models via Code Completion [117.178835165855]
本稿では,自然言語入力をコード入力に変換するフレームワークであるCodeAttackを紹介する。我々の研究は、コード入力に対するこれらのモデルの新たな、普遍的な安全性の脆弱性を明らかにした。 CodeAttackと自然言語の分布ギャップが大きくなると、安全性の一般化が弱くなる。
論文参考訳（メタデータ） (2024-03-12T17:55:38Z)
LLM-Powered Code Vulnerability Repair with Reinforcement Learning and Semantic Reward [3.729516018513228]
我々は,大規模な言語モデルであるCodeGen2を利用した多目的コード脆弱性解析システム texttSecRepair を導入する。そこで本研究では,LLMを用いた脆弱性解析に適した命令ベースデータセットを提案する。 GitHub上の6つのオープンソースIoTオペレーティングシステムにおいて、ゼロデイとNデイの脆弱性を特定します。
論文参考訳（メタデータ） (2024-01-07T02:46:39Z)
Can LLMs Patch Security Issues? [1.3299507495084417]
LLM(Large Language Models)は、コード生成に優れた習熟度を示している。 LLMは人間と弱点を共有している。我々は、LLMが生成した脆弱性のあるコードを自動的に洗練するフィードバック駆動セキュリティパッチング(FDSP)を提案する。
論文参考訳（メタデータ） (2023-11-13T08:54:37Z)
Do-Not-Answer: A Dataset for Evaluating Safeguards in LLMs [59.596335292426105]
本稿では,大規模な言語モデルにおけるセーフガードを評価するための,最初のオープンソースデータセットを収集する。我々は、自動安全性評価において、GPT-4に匹敵する結果を得るために、BERTライクな分類器をいくつか訓練する。
論文参考訳（メタデータ） (2023-08-25T14:02:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。