Fugu-MT 論文翻訳(概要): Do LLMs Consider Security? An Empirical Study on Responses to Programming Questions

論文の概要: Do LLMs Consider Security? An Empirical Study on Responses to Programming Questions

arxiv url: http://arxiv.org/abs/2502.14202v1
Date: Thu, 20 Feb 2025 02:20:06 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-21 22:18:11.483319
Title: Do LLMs Consider Security? An Empirical Study on Responses to Programming Questions
Title（参考訳）: LLMはセキュリティを考慮しているか? : プログラミング問題に対する反応に関する実証的研究
Authors: Amirali Sajadi, Binh Le, Anh Nguyen, Kostadin Damevski, Preetha Chatterjee,
Abstract要約: ChatGPTは、開発者にコンテキスト固有の情報をボランティアして、安全なコーディングプラクティスを促進する。我々は,3つのLLM(Claude 3, GPT-4, Llama 3)が示すセキュリティ意識の程度を評価する。私たちの調査によると、3つのモデルすべてが、脆弱性を正確に検知し、ユーザに警告するのに苦労しており、データセット全体の検出率は12.6%から40%に過ぎません。
参考スコア（独自算出の注目度）: 10.69738882390809
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The widespread adoption of conversational LLMs for software development has raised new security concerns regarding the safety of LLM-generated content. Our motivational study outlines ChatGPT's potential in volunteering context-specific information to the developers, promoting safe coding practices. Motivated by this finding, we conduct a study to evaluate the degree of security awareness exhibited by three prominent LLMs: Claude 3, GPT-4, and Llama 3. We prompt these LLMs with Stack Overflow questions that contain vulnerable code to evaluate whether they merely provide answers to the questions or if they also warn users about the insecure code, thereby demonstrating a degree of security awareness. Further, we assess whether LLM responses provide information about the causes, exploits, and the potential fixes of the vulnerability, to help raise users' awareness. Our findings show that all three models struggle to accurately detect and warn users about vulnerabilities, achieving a detection rate of only 12.6% to 40% across our datasets. We also observe that the LLMs tend to identify certain types of vulnerabilities related to sensitive information exposure and improper input neutralization much more frequently than other types, such as those involving external control of file names or paths. Furthermore, when LLMs do issue security warnings, they often provide more information on the causes, exploits, and fixes of vulnerabilities compared to Stack Overflow responses. Finally, we provide an in-depth discussion on the implications of our findings and present a CLI-based prompting tool that can be used to generate significantly more secure LLM responses.
Abstract（参考訳）: ソフトウェア開発における会話型LLMの普及により、LLM生成コンテンツの安全性に関する新たなセキュリティ上の懸念が高まっている。私たちのモチベーション調査では、ChatGPTがコンテキスト固有の情報を開発者にボランティアし、安全なコーディングプラクティスを促進する可能性について概説しています。本研究の目的は,3つのLLM(Claude 3, GPT-4, Llama 3)が示すセキュリティ意識の程度を評価することである。脆弱性のあるコードが、単に質問に対する回答を提供するだけなのか、安全でないコードに対してユーザーに警告するのかどうかを評価するために、Stack Overflowの質問でこれらのLCMを起動します。さらに,LSM応答が脆弱性の原因,エクスプロイト,潜在的な修正に関する情報を提供するかどうかを評価し,ユーザの意識を高める。私たちの調査によると、3つのモデルすべてが、脆弱性を正確に検知し、ユーザに警告するのに苦労しており、データセット全体の検出率は12.6%から40%に過ぎません。また、LLMは、ファイル名やパスの外部制御など、他のタイプよりも、機密情報暴露や不適切な入力中和に関連する特定の種類の脆弱性を特定する傾向があることも観察した。さらに、LSMがセキュリティ警告を発行する場合、Stack Overflowのレスポンスと比較して、原因、エクスプロイト、脆弱性の修正に関するより多くの情報を提供することが多い。最後に,よりセキュアなLCM応答を生成できるCLIベースのプロンプトツールを提案する。

関連論文リスト

How to Protect Yourself from 5G Radiation? Investigating LLM Responses to Implicit Misinformation [24.355564722047244]
大規模言語モデル(LLM)は多様なシナリオに広くデプロイされている。彼らが誤報をうまく広める程度は、重大な安全上の懸念として浮かび上がっている。暗黙的誤報の最初のベンチマークであるECHOMISTをキュレートした。
論文参考訳（メタデータ） (2025-03-12T17:59:18Z)
From Vulnerabilities to Remediation: A Systematic Literature Review of LLMs in Code Security [0.0]
大規模言語モデル(LLM)は、様々なプログラミングタスクを自動化する強力なツールとして登場した。 LLMはプログラマが知らない脆弱性を導入する可能性がある。コードを解析する際には、明確な脆弱性を見逃したり、存在しない脆弱性を通知する可能性がある。
論文参考訳（メタデータ） (2024-12-19T16:20:22Z)
Look Before You Leap: Enhancing Attention and Vigilance Regarding Harmful Content with GuidelineLLM [53.79753074854936]
大規模言語モデル(LLM)は、出現するジェイルブレイク攻撃に対してますます脆弱である。この脆弱性は現実世界のアプリケーションに重大なリスクをもたらす。本稿では,ガイドラインLLMという新しい防御パラダイムを提案する。
論文参考訳（メタデータ） (2024-12-10T12:42:33Z)
Assessment of LLM Responses to End-user Security Questions [5.569481220877618]
GPT、LLAMA、Geminiといった大規模言語モデル(LLM)は、セキュリティ以外のさまざまな質問に答える上で、有望であることを示している。エンドユーザセキュリティの分野におけるLLMの性能について,900件のユーザセキュリティ質問に対して,定性的に3つのLLMを評価検討した。
論文参考訳（メタデータ） (2024-11-21T20:36:36Z)
Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。 11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文参考訳（メタデータ） (2024-07-23T15:31:26Z)
Towards Explainable Vulnerability Detection with Large Language Models [17.96542494363619]
ソフトウェア脆弱性は、ソフトウェアシステムのセキュリティと整合性に重大なリスクをもたらす。大規模言語モデル(LLMs)の出現は、その高度な生成能力による変換ポテンシャルを導入している。本稿では,脆弱性検出と説明という2つのタスクにLLMを専門化する自動フレームワークであるLLMVulExpを提案する。
論文参考訳（メタデータ） (2024-06-14T04:01:25Z)
CLAMBER: A Benchmark of Identifying and Clarifying Ambiguous Information Needs in Large Language Models [60.59638232596912]
大規模言語モデル(LLM)を評価するベンチマークであるCLAMBERを紹介する。分類を基盤として12Kの高品質なデータを構築し, 市販のLCMの強度, 弱点, 潜在的なリスクを評価する。本研究は, あいまいなユーザクエリの特定と明確化において, 現在のLCMの実用性に限界があることを示唆する。
論文参考訳（メタデータ） (2024-05-20T14:34:01Z)
LLM4Vuln: A Unified Evaluation Framework for Decoupling and Enhancing LLMs' Vulnerability Reasoning [20.463200377413255]
脆弱性推論機能を分離し評価する統合評価フレームワークを導入する。私たちは、Solidity、Java、C/C++で147の地道的脆弱性と147の非脆弱性ケースを使用して実験を行い、合計3,528のシナリオでそれらをテストしました。本研究は,知識強化,文脈補充,即時的スキームの様々な影響を明らかにするものである。
論文参考訳（メタデータ） (2024-01-29T14:32:27Z)
Benchmarking and Defending Against Indirect Prompt Injection Attacks on Large Language Models [79.0183835295533]
我々は,このような脆弱性のリスクを評価するために,BIPIAと呼ばれる間接的インジェクション攻撃のための最初のベンチマークを導入した。我々の分析では、LLMが情報コンテキストと動作可能な命令を区別できないことと、外部コンテンツ内での命令の実行を回避できないことの2つの主要な要因を同定した。ブラックボックスとホワイトボックスという2つの新しい防御機構と、これらの脆弱性に対処するための明確なリマインダーを提案する。
論文参考訳（メタデータ） (2023-12-21T01:08:39Z)
Do-Not-Answer: A Dataset for Evaluating Safeguards in LLMs [59.596335292426105]
本稿では,大規模な言語モデルにおけるセーフガードを評価するための,最初のオープンソースデータセットを収集する。我々は、自動安全性評価において、GPT-4に匹敵する結果を得るために、BERTライクな分類器をいくつか訓練する。
論文参考訳（メタデータ） (2023-08-25T14:02:12Z)
Investigating the Factual Knowledge Boundary of Large Language Models with Retrieval Augmentation [109.8527403904657]
大規模言語モデル(LLM)は,その知識に対する信頼度が低く,内部知識と外部知識の衝突をうまく扱えないことを示す。検索の強化は、LLMの知識境界に対する認識を高める効果的なアプローチであることが証明されている。本稿では,文書を動的に活用するための簡易な手法を提案する。
論文参考訳（メタデータ） (2023-07-20T16:46:10Z)
Safety Assessment of Chinese Large Language Models [51.83369778259149]
大規模言語モデル(LLM)は、侮辱や差別的なコンテンツを生成し、誤った社会的価値を反映し、悪意のある目的のために使用されることがある。安全で責任があり倫理的なAIの展開を促進するため、LLMによる100万の強化プロンプトとレスポンスを含むセーフティプロンプトをリリースする。
論文参考訳（メタデータ） (2023-04-20T16:27:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。