論文の概要: Do LLMs Consider Security? An Empirical Study on Responses to Programming Questions
- arxiv url: http://arxiv.org/abs/2502.14202v1
- Date: Thu, 20 Feb 2025 02:20:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-21 14:30:27.787221
- Title: Do LLMs Consider Security? An Empirical Study on Responses to Programming Questions
- Title(参考訳): LLMはセキュリティを考慮しているか? : プログラミング問題に対する反応に関する実証的研究
- Authors: Amirali Sajadi, Binh Le, Anh Nguyen, Kostadin Damevski, Preetha Chatterjee,
- Abstract要約: ChatGPTは、開発者にコンテキスト固有の情報をボランティアして、安全なコーディングプラクティスを促進する。
我々は,3つのLLM(Claude 3, GPT-4, Llama 3)が示すセキュリティ意識の程度を評価する。
私たちの調査によると、3つのモデルすべてが、脆弱性を正確に検知し、ユーザに警告するのに苦労しており、データセット全体の検出率は12.6%から40%に過ぎません。
- 参考スコア(独自算出の注目度): 10.69738882390809
- License:
- Abstract: The widespread adoption of conversational LLMs for software development has raised new security concerns regarding the safety of LLM-generated content. Our motivational study outlines ChatGPT's potential in volunteering context-specific information to the developers, promoting safe coding practices. Motivated by this finding, we conduct a study to evaluate the degree of security awareness exhibited by three prominent LLMs: Claude 3, GPT-4, and Llama 3. We prompt these LLMs with Stack Overflow questions that contain vulnerable code to evaluate whether they merely provide answers to the questions or if they also warn users about the insecure code, thereby demonstrating a degree of security awareness. Further, we assess whether LLM responses provide information about the causes, exploits, and the potential fixes of the vulnerability, to help raise users' awareness. Our findings show that all three models struggle to accurately detect and warn users about vulnerabilities, achieving a detection rate of only 12.6% to 40% across our datasets. We also observe that the LLMs tend to identify certain types of vulnerabilities related to sensitive information exposure and improper input neutralization much more frequently than other types, such as those involving external control of file names or paths. Furthermore, when LLMs do issue security warnings, they often provide more information on the causes, exploits, and fixes of vulnerabilities compared to Stack Overflow responses. Finally, we provide an in-depth discussion on the implications of our findings and present a CLI-based prompting tool that can be used to generate significantly more secure LLM responses.
- Abstract(参考訳): ソフトウェア開発における会話型LLMの普及により、LLM生成コンテンツの安全性に関する新たなセキュリティ上の懸念が高まっている。
私たちのモチベーション調査では、ChatGPTがコンテキスト固有の情報を開発者にボランティアし、安全なコーディングプラクティスを促進する可能性について概説しています。
本研究の目的は,3つのLLM(Claude 3, GPT-4, Llama 3)が示すセキュリティ意識の程度を評価することである。
脆弱性のあるコードが、単に質問に対する回答を提供するだけなのか、安全でないコードに対してユーザーに警告するのかどうかを評価するために、Stack Overflowの質問でこれらのLCMを起動します。
さらに,LSM応答が脆弱性の原因,エクスプロイト,潜在的な修正に関する情報を提供するかどうかを評価し,ユーザの意識を高める。
私たちの調査によると、3つのモデルすべてが、脆弱性を正確に検知し、ユーザに警告するのに苦労しており、データセット全体の検出率は12.6%から40%に過ぎません。
また、LLMは、ファイル名やパスの外部制御など、他のタイプよりも、機密情報暴露や不適切な入力中和に関連する特定の種類の脆弱性を特定する傾向があることも観察した。
さらに、LSMがセキュリティ警告を発行する場合、Stack Overflowのレスポンスと比較して、原因、エクスプロイト、脆弱性の修正に関するより多くの情報を提供することが多い。
最後に,よりセキュアなLCM応答を生成できるCLIベースのプロンプトツールを提案する。
関連論文リスト
- Large Language Models and Code Security: A Systematic Literature Review [0.0]
大規模言語モデル(LLM)は、様々なプログラミングタスクを自動化する強力なツールとして登場した。
LLMはプログラマが知らない脆弱性を導入する可能性がある。
コードを解析する際には、明確な脆弱性を見逃したり、存在しない脆弱性を通知する可能性がある。
論文 参考訳(メタデータ) (2024-12-19T16:20:22Z) - Look Before You Leap: Enhancing Attention and Vigilance Regarding Harmful Content with GuidelineLLM [53.79753074854936]
大規模言語モデル(LLM)は、出現するジェイルブレイク攻撃に対してますます脆弱である。
この脆弱性は現実世界のアプリケーションに重大なリスクをもたらす。
本稿では,ガイドラインLLMという新しい防御パラダイムを提案する。
論文 参考訳(メタデータ) (2024-12-10T12:42:33Z) - Assessment of LLM Responses to End-user Security Questions [5.569481220877618]
GPT、LLAMA、Geminiといった大規模言語モデル(LLM)は、セキュリティ以外のさまざまな質問に答える上で、有望であることを示している。
エンドユーザセキュリティの分野におけるLLMの性能について,900件のユーザセキュリティ質問に対して,定性的に3つのLLMを評価検討した。
論文 参考訳(メタデータ) (2024-11-21T20:36:36Z) - Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。
11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。
最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文 参考訳(メタデータ) (2024-07-23T15:31:26Z) - Towards Explainable Vulnerability Detection with Large Language Models [17.96542494363619]
ソフトウェア脆弱性は、ソフトウェアシステムのセキュリティと整合性に重大なリスクをもたらす。
大規模言語モデル(LLMs)の出現は、その高度な生成能力による変換ポテンシャルを導入している。
本稿では,脆弱性検出と説明という2つのタスクにLLMを専門化する自動フレームワークであるLLMVulExpを提案する。
論文 参考訳(メタデータ) (2024-06-14T04:01:25Z) - CLAMBER: A Benchmark of Identifying and Clarifying Ambiguous Information Needs in Large Language Models [60.59638232596912]
大規模言語モデル(LLM)を評価するベンチマークであるCLAMBERを紹介する。
分類を基盤として12Kの高品質なデータを構築し, 市販のLCMの強度, 弱点, 潜在的なリスクを評価する。
本研究は, あいまいなユーザクエリの特定と明確化において, 現在のLCMの実用性に限界があることを示唆する。
論文 参考訳(メタデータ) (2024-05-20T14:34:01Z) - Large Language Models for Cyber Security: A Systematic Literature Review [14.924782327303765]
サイバーセキュリティ(LLM4Security)における大規模言語モデルの適用に関する文献の総合的なレビューを行う。
LLMは、脆弱性検出、マルウェア分析、ネットワーク侵入検出、フィッシング検出など、幅広いサイバーセキュリティタスクに応用されている。
第3に、細調整、転送学習、ドメイン固有の事前トレーニングなど、特定のサイバーセキュリティドメインにLLMを適用するための有望なテクニックをいくつか特定する。
論文 参考訳(メタデータ) (2024-05-08T02:09:17Z) - LLM4Vuln: A Unified Evaluation Framework for Decoupling and Enhancing LLMs' Vulnerability Reasoning [20.463200377413255]
脆弱性推論機能を分離し評価する統合評価フレームワークを導入する。
私たちは、Solidity、Java、C/C++で147の地道的脆弱性と147の非脆弱性ケースを使用して実験を行い、合計3,528のシナリオでそれらをテストしました。
本研究は,知識強化,文脈補充,即時的スキームの様々な影響を明らかにするものである。
論文 参考訳(メタデータ) (2024-01-29T14:32:27Z) - Benchmarking and Defending Against Indirect Prompt Injection Attacks on Large Language Models [79.0183835295533]
我々は,このような脆弱性のリスクを評価するために,BIPIAと呼ばれる間接的インジェクション攻撃のための最初のベンチマークを導入した。
我々の分析では、LLMが情報コンテキストと動作可能な命令を区別できないことと、外部コンテンツ内での命令の実行を回避できないことの2つの主要な要因を同定した。
ブラックボックスとホワイトボックスという2つの新しい防御機構と、これらの脆弱性に対処するための明確なリマインダーを提案する。
論文 参考訳(メタデータ) (2023-12-21T01:08:39Z) - Do-Not-Answer: A Dataset for Evaluating Safeguards in LLMs [59.596335292426105]
本稿では,大規模な言語モデルにおけるセーフガードを評価するための,最初のオープンソースデータセットを収集する。
我々は、自動安全性評価において、GPT-4に匹敵する結果を得るために、BERTライクな分類器をいくつか訓練する。
論文 参考訳(メタデータ) (2023-08-25T14:02:12Z) - Safety Assessment of Chinese Large Language Models [51.83369778259149]
大規模言語モデル(LLM)は、侮辱や差別的なコンテンツを生成し、誤った社会的価値を反映し、悪意のある目的のために使用されることがある。
安全で責任があり倫理的なAIの展開を促進するため、LLMによる100万の強化プロンプトとレスポンスを含むセーフティプロンプトをリリースする。
論文 参考訳(メタデータ) (2023-04-20T16:27:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。