論文の概要: Security-by-Design for LLM-Based Code Generation: Leveraging Internal Representations for Concept-Driven Steering Mechanisms
- arxiv url: http://arxiv.org/abs/2603.11212v1
- Date: Wed, 11 Mar 2026 18:28:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:25.580827
- Title: Security-by-Design for LLM-Based Code Generation: Leveraging Internal Representations for Concept-Driven Steering Mechanisms
- Title(参考訳): LLMベースのコード生成のためのセキュリティ・バイ・デザイン:概念駆動型ステアリング機構の内部表現を活用する
- Authors: Maximilian Wendlinger, Daniel Kowatsch, Konstantin Böttinger, Philip Sperl,
- Abstract要約: 大きな言語モデル(LLM)は、自然言語を理解し、複雑なコードを生成する際、顕著な能力を示す。
調査によると、CodeLLMsは機能的に正しいが安全でないコードを頻繁に生成し、重大なセキュリティリスクを生じさせる。
我々は,LLMの内部表現をセキュアかつ機能的なコード出力にステアリングする,CodeLLMs (SCS-Code) のセキュア概念ステアリングを提案する。
- 参考スコア(独自算出の注目度): 6.049331537822609
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) show remarkable capabilities in understanding natural language and generating complex code. However, as practitioners adopt CodeLLMs for increasingly critical development tasks, research reveals that these models frequently generate functionally correct yet insecure code, posing significant security risks. While multiple approaches have been proposed to improve security in AI-based code generation, combined benchmarks show these methods remain insufficient for practical use, achieving only limited improvements in both functional correctness and security. This stems from a fundamental gap in understanding the internal mechanisms of code generation and the root causes of security vulnerabilities, forcing researchers to rely on heuristics and empirical observations. In this work, we investigate the internal representation of security concepts in CodeLLMs, revealing that models are often aware of vulnerabilities as they generate insecure code. Through systematic evaluation, we demonstrate that CodeLLMs can distinguish between security subconcepts, enabling a more fine-grained analysis than prior black-box approaches. Leveraging these insights, we propose Secure Concept Steering for CodeLLMs (SCS-Code). During token generation, SCS-Code steers LLMs' internal representations toward secure and functional code output, enabling a lightweight and modular mechanism that can be integrated into existing code models. Our approach achieves superior performance compared to state-of-the-art methods across multiple secure coding benchmarks.
- Abstract(参考訳): 大きな言語モデル(LLM)は、自然言語を理解し、複雑なコードを生成する際、顕著な能力を示す。
しかし、実践者がますます重要な開発タスクにCodeLLMを採用するにつれて、これらのモデルが機能的に正しいが安全でないコードを頻繁に生成し、重大なセキュリティリスクを生じさせることが明らかになっている。
AIベースのコード生成のセキュリティを改善するために、複数のアプローチが提案されているが、複合ベンチマークにより、これらの手法は実用上はまだ不十分であり、機能的正当性とセキュリティの両方において限定的な改善しか達成されていないことが示されている。
これは、コード生成の内部メカニズムとセキュリティ脆弱性の根本原因を理解するという根本的なギャップから生まれ、研究者はヒューリスティックスや経験的観察に頼らざるを得なくなった。
本研究では,CodeLLMのセキュリティ概念の内部表現について検討し,安全性の低いコードを生成する際に,モデルが脆弱性をよく認識していることを明らかにする。
体系的な評価により,CodeLLMはセキュリティサブコンセプトを区別し,従来のブラックボックスアプローチよりもきめ細かい分析を可能にする。
これらの知見を生かして、コードLLM(SCS-Code)のためのセキュアなコンセプトステアリングを提案する。
トークン生成の間、SCS-CodeはLSMの内部表現をセキュアで機能的なコード出力に操り、既存のコードモデルに統合可能な軽量でモジュール化されたメカニズムを実現する。
提案手法は,複数のセキュアコーディングベンチマークにおける最先端手法と比較して,優れた性能を実現する。
関連論文リスト
- Inference-Time Safety For Code LLMs Via Retrieval-Augmented Revision [3.983997834693767]
大規模言語モデル(LLM)は、高度なソフトウェア開発において、コード生成のためにますます多くデプロイされている。
LLMは、新しく発見された脆弱性やセキュリティ標準の変更に容易に適応できない。
本稿では,推論時安全機構として機能する設計による信頼に値するコード生成への原則的アプローチを提案する。
論文 参考訳(メタデータ) (2026-03-02T06:06:34Z) - Secure Code Generation via Online Reinforcement Learning with Vulnerability Reward Model [60.60587869092729]
大規模言語モデル(LLM)は、ソフトウェア開発でますます使われているが、安全でないコードを生成する傾向は、現実世界のデプロイメントにとって大きな障壁である。
機能保存型セキュアコード生成のためのオンライン強化学習フレームワークSecCoderXを提案する。
論文 参考訳(メタデータ) (2026-02-07T07:42:07Z) - RealSec-bench: A Benchmark for Evaluating Secure Code Generation in Real-World Repositories [58.32028251925354]
LLM(Large Language Models)は、コード生成において顕著な能力を示しているが、セキュアなコードを生成する能力は依然として重要で、未調査の領域である。
我々はRealSec-benchを紹介します。RealSec-benchは、現実世界の高リスクなJavaリポジトリから慎重に構築されたセキュアなコード生成のための新しいベンチマークです。
論文 参考訳(メタデータ) (2026-01-30T08:29:01Z) - Training Language Models to Generate Quality Code with Program Analysis Feedback [66.0854002147103]
大規模言語モデル(LLM)によるコード生成は、ますます本番環境で採用されているが、コード品質の保証には失敗している。
実運用品質のコードを生成するためにLLMにインセンティブを与える強化学習フレームワークであるREALを提案する。
論文 参考訳(メタデータ) (2025-05-28T17:57:47Z) - The Hidden Risks of LLM-Generated Web Application Code: A Security-Centric Evaluation of Code Generation Capabilities in Large Language Models [0.769672852567215]
本稿では,複数のモデルにまたがるLLM生成コードのセキュリティコンプライアンスを評価するために,予め定義されたセキュリティパラメータを用いる。
この分析は、認証機構、セッション管理、入力バリデーション、HTTPセキュリティヘッダに重大な脆弱性を明らかにしている。
我々の発見は、LLM生成コードのセキュアなソフトウェアデプロイメントやレビューのために、人間の専門知識が不可欠であることを示している。
論文 参考訳(メタデータ) (2025-04-29T10:23:11Z) - SafeSwitch: Steering Unsafe LLM Behavior via Internal Activation Signals [51.49737867797442]
大規模言語モデル(LLM)は、様々なタスクにまたがる例外的な能力を示すが、有害なコンテンツを生成することでリスクを引き起こす。
LLMは、内部状態の安全性に関する内部評価を同様に行うことができることを示す。
本稿では,プロバーをベースとした内部状態モニタを用いて,安全でない出力を規制するSafeSwitchを提案する。
論文 参考訳(メタデータ) (2025-02-03T04:23:33Z) - Is Your AI-Generated Code Really Safe? Evaluating Large Language Models on Secure Code Generation with CodeSecEval [20.959848710829878]
大規模言語モデル(LLM)は、コード生成とコード修復に大きな進歩をもたらした。
しかし、GitHubのようなオープンソースのリポジトリから無防備なデータを使用したトレーニングは、セキュリティ上の脆弱性を必然的に伝播するリスクを増大させる。
我々は,コードLLMのセキュリティ面を正確に評価し,拡張することを目的とした総合的研究を提案する。
論文 参考訳(メタデータ) (2024-07-02T16:13:21Z) - CodeAttack: Revealing Safety Generalization Challenges of Large Language Models via Code Completion [117.178835165855]
本稿では,自然言語入力をコード入力に変換するフレームワークであるCodeAttackを紹介する。
我々の研究は、コード入力に対するこれらのモデルの新たな、普遍的な安全性の脆弱性を明らかにした。
CodeAttackと自然言語の分布ギャップが大きくなると、安全性の一般化が弱くなる。
論文 参考訳(メタデータ) (2024-03-12T17:55:38Z) - SALLM: Security Assessment of Generated Code [0.5137309756089941]
本稿では,セキュアなコードを体系的に生成する大規模言語モデルの能力をベンチマークするフレームワークであるSALLMについて述べる。
フレームワークには3つの主要なコンポーネントがある。セキュリティ中心のPythonプロンプトの新たなデータセット、生成されたコードを評価するための評価テクニック、セキュアなコード生成の観点からモデルのパフォーマンスを評価するための新しいメトリクスである。
論文 参考訳(メタデータ) (2023-11-01T22:46:31Z) - CodeLMSec Benchmark: Systematically Evaluating and Finding Security
Vulnerabilities in Black-Box Code Language Models [58.27254444280376]
自動コード生成のための大規模言語モデル(LLM)は、いくつかのプログラミングタスクにおいてブレークスルーを達成した。
これらのモデルのトレーニングデータは、通常、インターネット(例えばオープンソースのリポジトリから)から収集され、障害やセキュリティ上の脆弱性を含む可能性がある。
この不衛生なトレーニングデータは、言語モデルにこれらの脆弱性を学習させ、コード生成手順中にそれを伝播させる可能性がある。
論文 参考訳(メタデータ) (2023-02-08T11:54:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。