Fugu-MT 論文翻訳(概要): Is Your Prompt Poisoning Code? Defect Induction Rates and Security Mitigation Strategies

論文の概要: Is Your Prompt Poisoning Code? Defect Induction Rates and Security Mitigation Strategies

arxiv url: http://arxiv.org/abs/2510.22944v1
Date: Mon, 27 Oct 2025 02:59:17 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-28 15:28:15.426673
Title: Is Your Prompt Poisoning Code? Defect Induction Rates and Security Mitigation Strategies
Title（参考訳）: プロンプト中毒コードか? 欠陥発生率とセキュリティ緩和戦略
Authors: Bin Wang, YiLu Zhong, MiDi Wan, WenJie Yu, YuanBing Ouyang, Yenan Huang, Hui Li,
Abstract要約: 大規模言語モデル(LLM)は自動コード生成には不可欠だが、出力の品質とセキュリティは依然として重要な問題である。本稿では,目標の明確性,情報の完全性,論理的整合性という3つの重要な側面を含む,迅速な品質評価フレームワークを提案する。ユーザプロンプトの品質向上は,AI生成コードのセキュリティを強化する上で,重要かつ効果的な戦略となっている。
参考スコア（独自算出の注目度）: 4.435429537888066
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) have become indispensable for automated code generation, yet the quality and security of their outputs remain a critical concern. Existing studies predominantly concentrate on adversarial attacks or inherent flaws within the models. However, a more prevalent yet underexplored issue concerns how the quality of a benign but poorly formulated prompt affects the security of the generated code. To investigate this, we first propose an evaluation framework for prompt quality encompassing three key dimensions: goal clarity, information completeness, and logical consistency. Based on this framework, we construct and publicly release CWE-BENCH-PYTHON, a large-scale benchmark dataset containing tasks with prompts categorized into four distinct levels of normativity (L0-L3). Extensive experiments on multiple state-of-the-art LLMs reveal a clear correlation: as prompt normativity decreases, the likelihood of generating insecure code consistently and markedly increases. Furthermore, we demonstrate that advanced prompting techniques, such as Chain-of-Thought and Self-Correction, effectively mitigate the security risks introduced by low-quality prompts, substantially improving code safety. Our findings highlight that enhancing the quality of user prompts constitutes a critical and effective strategy for strengthening the security of AI-generated code.
Abstract（参考訳）: 大規模言語モデル(LLM)は自動コード生成には不可欠だが、出力の品質とセキュリティは依然として重要な問題である。既存の研究は、主にモデル内の敵対的攻撃や固有の欠陥に焦点を当てている。しかし、より広範で未調査の問題は、良心的だが定式化されていないプロンプトの品質が、生成されたコードのセキュリティにどのように影響するかを懸念している。そこで我々はまず,目標の明確性,情報完全性,論理的整合性という3つの重要な側面を含む品質評価フレームワークを提案する。この枠組みに基づいて,4つの基準レベル(L0-L3)に分類されるプロンプトを含む大規模ベンチマークデータセットであるCWE-BENCH-PYTHONを構築し,公開する。複数の最先端のLDMに関する大規模な実験では明確な相関関係が示され、即興のノルマティリティが低下するにつれて、安全でないコードを生成する可能性が一貫して増加し、顕著に増加する。さらに,Chain-of-ThoughtやSelf-Correctionといった高度なプロンプト技術は,低品質なプロンプトによって引き起こされるセキュリティリスクを効果的に軽減し,コードの安全性を大幅に改善することを示した。ユーザプロンプトの品質向上は,AI生成コードのセキュリティを強化する上で,重要かつ効果的な戦略となっている。

関連論文リスト

Inference-Time Safety For Code LLMs Via Retrieval-Augmented Revision [3.983997834693767]
大規模言語モデル(LLM)は、高度なソフトウェア開発において、コード生成のためにますます多くデプロイされている。 LLMは、新しく発見された脆弱性やセキュリティ標準の変更に容易に適応できない。本稿では,推論時安全機構として機能する設計による信頼に値するコード生成への原則的アプローチを提案する。
論文参考訳（メタデータ） (2026-03-02T06:06:34Z)
The Shadow Self: Intrinsic Value Misalignment in Large Language Model Agents [37.75212140218036]
コントロの損失リスクを定式化し、これまで過小評価されていた内因性価値の相違(内因性VM)を識別する。次に、このリスクを体系的に評価するシナリオ駆動フレームワークであるIMPRESSを紹介します。我々は,21種類のLLMエージェント上での固有のVMの評価を行い,モデル間での安全性のリスクが広く見られることを発見した。
論文参考訳（メタデータ） (2026-01-24T07:09:50Z)
STaR: Sensitive Trajectory Regulation for Unlearning in Large Reasoning Models [12.133996629992318]
本稿では、推論プロセスを通じて堅牢なプライバシ保護を実現するパラメータフリー・推論時アンラーニングフレームワークを提案する。 R-TOFUベンチマークの実験は、STaRが最小限のユーティリティ損失で包括的で安定したアンラーニングを実現することを示した。
論文参考訳（メタデータ） (2026-01-14T08:35:23Z)
Reasoning over Precedents Alongside Statutes: Case-Augmented Deliberative Alignment for LLM Safety [59.01189713115365]
本研究は, 広範囲な安全コードを明確に指定することによる影響を, 図示的事例を通して示すことよりも評価する。明示的なコードを参照することで、無害性が向上し、系統的に有用性が低下することがわかった。自己生成型安全推論チェーンの強化学習を利用したLLMのケース拡張型検討アライメント手法であるCADAを提案する。
論文参考訳（メタデータ） (2026-01-12T21:08:46Z)
CARE: Decoding Time Safety Alignment via Rollback and Introspection Intervention [68.95008546581339]
Contrastive Decodingのような既存のデコーディングタイムの介入は、安全と応答品質の間に深刻なトレードオフを強いることが多い。本稿では,3つの重要なコンポーネントを統合した,復号時安全アライメントのための新しいフレームワークであるCAREを提案する。このフレームワークは、安全性、品質、効率のバランスが良く、有害な応答率が低く、ユーザエクスペリエンスを最小限に破壊できる。
論文参考訳（メタデータ） (2025-09-01T04:50:02Z)
SafeGenBench: A Benchmark Framework for Security Vulnerability Detection in LLM-Generated Code [7.209766132478914]
LLM生成コードのセキュリティを評価するために特別に設計されたベンチマークであるSafeGenBenchを紹介する。データセットには、幅広い一般的なソフトウェア開発シナリオと脆弱性タイプが含まれている。 SafeGenBench上での最先端LCMの実証評価を通じて,脆弱性のないコードを生成する能力に重大な欠陥があることを明らかにする。
論文参考訳（メタデータ） (2025-06-06T02:48:02Z)
Context Reasoner: Incentivizing Reasoning Capability for Contextualized Privacy and Safety Compliance via Reinforcement Learning [53.92712851223158]
安全とプライバシの問題を文脈整合性(CI)理論に従って文脈整合性問題に定式化する。 CIフレームワークの下では、当社のモデルを3つの重要な規制基準 – EU AI ActとHIPAA – に整合させています。我々は、安全・プライバシー基準の遵守を高めつつ、文脈推論能力を高めるためにルールベースの報酬を持つ強化学習(RL)を採用している。
論文参考訳（メタデータ） (2025-05-20T16:40:09Z)
Cannot See the Forest for the Trees: Invoking Heuristics and Biases to Elicit Irrational Choices of LLMs [83.11815479874447]
本研究では,人間の認知における認知的分解と偏見に触発された新しいジェイルブレイク攻撃フレームワークを提案する。我々は、悪意のあるプロンプトの複雑さと関連バイアスを減らし、認知的分解を用いて、プロンプトを再編成する。また、従来の二分的成功または失敗のパラダイムを超越したランキングベースの有害度評価指標も導入する。
論文参考訳（メタデータ） (2025-05-03T05:28:11Z)
CWEval: Outcome-driven Evaluation on Functionality and Security of LLM Code Generation [20.72188827088484]
大規模言語モデル(LLM)は、コード記述の生成や支援によって、開発者を大いに助けている。機能的に正しいコードの脆弱性を検出することは、特にセキュリティ知識が限られている開発者にとっては、より難しい。我々は、LLMによるセキュアコード生成の評価を強化するために、新しい結果駆動型評価フレームワークであるCWEvalを紹介する。
論文参考訳（メタデータ） (2025-01-14T15:27:01Z)
SeCodePLT: A Unified Platform for Evaluating the Security of Code GenAI [58.29510889419971]
コード生成大型言語モデル(LLM)のセキュリティリスクと能力を評価するための既存のベンチマークは、いくつかの重要な制限に直面している。手動で検証し、高品質なシード例から始める、汎用的でスケーラブルなベンチマーク構築フレームワークを導入し、ターゲット突然変異を通じて拡張する。このフレームワークをPython、C/C++、Javaに適用すると、44のCWEベースのリスクカテゴリと3つのセキュリティ機能にまたがる5.9k以上のサンプルデータセットであるSeCodePLTが構築されます。
論文参考訳（メタデータ） (2024-10-14T21:17:22Z)
Root Defence Strategies: Ensuring Safety of LLM at the Decoding Level [10.476222570886483]
大規模言語モデル (LLM) は様々な産業で大きな有用性を示している。 LLMが進むにつれて、不正または悪意のある命令プロンプトによって有害な出力のリスクが増大する。本稿では, LLMが有害な出力を認識する能力について検討し, 従来のトークンの危険性を評価する能力を明らかにし, 定量化する。
論文参考訳（メタデータ） (2024-10-09T12:09:30Z)
CodeAttack: Revealing Safety Generalization Challenges of Large Language Models via Code Completion [117.178835165855]
本稿では,自然言語入力をコード入力に変換するフレームワークであるCodeAttackを紹介する。我々の研究は、コード入力に対するこれらのモデルの新たな、普遍的な安全性の脆弱性を明らかにした。 CodeAttackと自然言語の分布ギャップが大きくなると、安全性の一般化が弱くなる。
論文参考訳（メタデータ） (2024-03-12T17:55:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。