論文の概要: Structured Safety Auditing for Balancing Code Correctness and Content Safety in LLM-Generated Code
- arxiv url: http://arxiv.org/abs/2604.12088v1
- Date: Mon, 13 Apr 2026 21:52:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.135131
- Title: Structured Safety Auditing for Balancing Code Correctness and Content Safety in LLM-Generated Code
- Title(参考訳): LLM生成符号における符号の正確性と内容安全性のバランスをとるための構造的安全性監査
- Authors: Honghao Tan, Haibo Wang, Shin Hwei Tan,
- Abstract要約: コード生成のための大規模言語モデル(LLM)は通常、機能的正確性だけで評価される。
NLSafety-Utility Duality Score (SUDS)を提案する。
- 参考スコア(独自算出の注目度): 6.664505682266256
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) for code generation are typically evaluated on functional correctness alone, overlooking whether generated code propagates harmful content embedded in the prompt. Prior work has shown that most Code LLMs reproduce offensive identifiers from injected renaming instructions without warning, yet existing approaches focus on detecting harmful content, neglecting functional correctness. Grounded in the Theory of Dual Channel Constraints (which states that code is a dual-channel medium combining an algorithmic (AL) channel for machine execution and a natural language (NL) channel for human communication, creating a unique safety-utility trade-off where a model must balance functional execution with responsible communication), we propose NLSafety-Utility Duality Score (SUDS), a metric that unifies code utility, safety adherence, and warning awareness into a single score across 12 ranked response scenarios, and Dual Reasoning (DR), a structured inference-time technique that requires an explicit safety audit and task-grounded code review before code generation. Evaluated on five LLMs across two benchmarks augmented with harmful keyword injections (820 and 2,135 samples), DR consistently achieves the highest SUDS across all models, improving mean SUDS by 1.32$\times$ to 3.42$\times$ over the baseline, while chain-of-thought prompting yields negligible safety gains and a safety-aware prompt provides only partial improvement. Further analysis reveals that DR's effectiveness scales with model capacity, that the one-shot exemplar primarily stabilizes output format for smaller models, and that structured reasoning cannot compensate for models with limited safety vocabularies.
- Abstract(参考訳): コード生成のための大規模言語モデル(LLM)は、典型的には機能的正確性だけで評価され、生成されたコードがプロンプトに埋め込まれた有害なコンテンツを伝播するかどうかを見越す。
以前の研究によると、ほとんどのCode LLMは警告なしでインジェクトされたリネーム命令から攻撃的識別子を再現しているが、既存のアプローチは有害なコンテンツの検出に焦点を合わせ、機能的正しさを無視している。
デュアルチャネル制約理論(コードとは、機械実行のためのアルゴリズム(AL)チャネルと人間通信のための自然言語(NL)チャネルを組み合わせたデュアルチャネルメディアであり、モデルが機能的な実行と責任ある通信をバランスさせるユニークな安全ユーティリティトレードオフを作成する)を基礎として、コードユーティリティを統一する指標であるNLSafety-Utility Duality Score(SUDS)と、コード生成の前に明確な安全監査とタスクグラウンドコードレビューを必要とする構造的推論時間技術であるDual Reasoning(DR)を提案する。
有害なキーワード注入(820および2,135サンプル)で強化された2つのベンチマークで評価された5つのLSMにおいて、DRは一貫して全てのモデルで最高のSUDSを達成し、平均SUDSを1.32$\times$から3.42$\times$に改善した。
さらに分析したところ、DRの有効性はモデルキャパシティとともにスケールし、ワンショットの例では、より小さなモデルの出力フォーマットを主に安定させ、構造的推論は限られた安全語彙を持つモデルでは補償できないことが明らかになった。
関連論文リスト
- SecPI: Secure Code Generation with Reasoning Models via Security Reasoning Internalization [50.71047638695205]
RLM(Reasoning Language Model)は、プログラミングにおいてますます使われている言語モデルである。
しかし、最先端のRLMでさえ、生成されたコードに重大なセキュリティ脆弱性を頻繁に導入する。
我々は、構造化されたセキュリティ推論を内部化するためのRTMを教える微調整パイプラインであるSecPIを提案する。
論文 参考訳(メタデータ) (2026-04-04T04:29:11Z) - Secure Code Generation via Online Reinforcement Learning with Vulnerability Reward Model [60.60587869092729]
大規模言語モデル(LLM)は、ソフトウェア開発でますます使われているが、安全でないコードを生成する傾向は、現実世界のデプロイメントにとって大きな障壁である。
機能保存型セキュアコード生成のためのオンライン強化学習フレームワークSecCoderXを提案する。
論文 参考訳(メタデータ) (2026-02-07T07:42:07Z) - RealSec-bench: A Benchmark for Evaluating Secure Code Generation in Real-World Repositories [58.32028251925354]
LLM(Large Language Models)は、コード生成において顕著な能力を示しているが、セキュアなコードを生成する能力は依然として重要で、未調査の領域である。
我々はRealSec-benchを紹介します。RealSec-benchは、現実世界の高リスクなJavaリポジトリから慎重に構築されたセキュアなコード生成のための新しいベンチマークです。
論文 参考訳(メタデータ) (2026-01-30T08:29:01Z) - Countermind: A Multi-Layered Security Architecture for Large Language Models [0.0]
本稿では,多層型セキュリティアーキテクチャであるCountermindを提案する。
アーキテクチャは、すべての入力を構造的に検証し変換するように設計された強化された周辺装置と、出力が発生する前にモデルのセマンティック処理経路を制約する内部ガバナンス機構を提案する。
論文 参考訳(メタデータ) (2025-10-13T18:41:18Z) - Certifiable Safe RLHF: Fixed-Penalty Constraint Optimization for Safer Language Models [7.422627253922975]
我々は,大規模コーパスでトレーニングされたコストモデルであるCertifiable Safe-RLHFを導入し,セマンティックグラウンドの安全性スコアを割り当てる。
適切にスケールされたペナルティにより、二重変数更新の必要性を排除し、安全制約の実現性を保証することができる。
経験的評価により、CS-RLHFは、名目や脱獄のプロンプトに対して、最先端のモデル応答よりも5倍効率が高いことが示されている。
論文 参考訳(メタデータ) (2025-10-03T21:24:41Z) - ARMOR: Aligning Secure and Safe Large Language Models via Meticulous Reasoning [64.32925552574115]
ARMORは、jailbreak戦略を分析し、コアインテントを抽出する、大規模な言語モデルである。
ARMORは最先端の安全性能を達成し、平均有害率は0.002であり、高度な最適化ベースのジェイルブレイクに対する攻撃成功率は0.06である。
論文 参考訳(メタデータ) (2025-07-14T09:05:54Z) - Training Language Models to Generate Quality Code with Program Analysis Feedback [66.0854002147103]
大規模言語モデル(LLM)によるコード生成は、ますます本番環境で採用されているが、コード品質の保証には失敗している。
実運用品質のコードを生成するためにLLMにインセンティブを与える強化学習フレームワークであるREALを提案する。
論文 参考訳(メタデータ) (2025-05-28T17:57:47Z) - CodeAttack: Revealing Safety Generalization Challenges of Large Language Models via Code Completion [117.178835165855]
本稿では,自然言語入力をコード入力に変換するフレームワークであるCodeAttackを紹介する。
我々の研究は、コード入力に対するこれらのモデルの新たな、普遍的な安全性の脆弱性を明らかにした。
CodeAttackと自然言語の分布ギャップが大きくなると、安全性の一般化が弱くなる。
論文 参考訳(メタデータ) (2024-03-12T17:55:38Z) - Code Security Vulnerability Repair Using Reinforcement Learning with
Large Language Models [1.5457286059556397]
大規模言語モデル(LLM)から生成されたコードのセキュリティ強化と強化のための強化学習に基づく手法を提案する。
本研究では,コードにセキュリティと機能的対策を加えることに集中する意味的報酬機構と統語的報酬機構を組み合わせることで,プログラム固有の修復を行うための強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-01-13T10:19:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。