論文の概要: CodeGuard: Improving LLM Guardrails in CS Education
- arxiv url: http://arxiv.org/abs/2602.02509v1
- Date: Thu, 22 Jan 2026 22:03:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 02:03:42.412905
- Title: CodeGuard: Improving LLM Guardrails in CS Education
- Title(参考訳): CodeGuard:CS教育におけるLLMガードレールの改善
- Authors: Nishat Raihan, Noah Erdachew, Jayoti Devi, Joanna C. S. Santos, Marcos Zampieri,
- Abstract要約: CodeGuardは、教育AIシステムのための包括的なガードレールフレームワークである。
PromptShieldは、安全でないプロンプトをリアルタイムで検出するために微調整された軽量の文エンコーダモデルである。
CodeGuardは、正当な教育タスクのパフォーマンスを低下させることなく、潜在的に有害またはポリシー違反のコード補完を30~65%削減する。
- 参考スコア(独自算出の注目度): 13.853293251946843
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large language models (LLMs) are increasingly embedded in Computer Science (CS) classrooms to automate code generation, feedback, and assessment. However, their susceptibility to adversarial or ill-intentioned prompts threatens student learning and academic integrity. To cope with this important issue, we evaluate existing off-the-shelf LLMs in handling unsafe and irrelevant prompts within the domain of CS education. We identify important shortcomings in existing LLM guardrails which motivates us to propose CodeGuard, a comprehensive guardrail framework for educational AI systems. CodeGuard includes (i) a first-of-its-kind taxonomy for classifying prompts; (ii) the CodeGuard dataset, a collection of 8,000 prompts spanning the taxonomy; and (iii) PromptShield, a lightweight sentence-encoder model fine-tuned to detect unsafe prompts in real time. Experiments show that PromptShield achieves 0.93 F1 score, surpassing existing guardrail methods. Additionally, further experimentation reveals that CodeGuard reduces potentially harmful or policy-violating code completions by 30-65% without degrading performance on legitimate educational tasks. The code, datasets, and evaluation scripts are made freely available to the community.
- Abstract(参考訳): 大規模言語モデル(LLM)は、コード生成、フィードバック、評価を自動化するためにコンピュータサイエンス(CS)の教室に組み込まれている。
しかし、敵対的あるいは意図しないプロンプトへの感受性は、学生の学習と学術的誠実さを脅かす。
この重要な問題に対処するため、CS教育分野における安全で無関係なプロンプトを扱うために、既成の既成のLCMを評価した。
我々は、教育AIシステムのための包括的なガードレールフレームワークであるCodeGuardを提案する動機となる、既存のLLMガードレールの重要な欠点を特定する。
CodeGuard には
一 指示を分類するための第一種分類
(ii)分類学にまたがる8000のプロンプトのコレクションであるCodeGuardデータセット
(iii) PromptShieldは、安全でないプロンプトをリアルタイムで検出するために微調整された軽量の文エンコーダモデルである。
実験の結果、PromptShieldは既存のガードレール法を上回り、0.93 F1のスコアを達成した。
さらに、CodeGuardは、正当な教育タスクのパフォーマンスを低下させることなく、潜在的に有害またはポリシーに違反するコード補完を30~65%削減することを、さらなる実験で明らかにしている。
コード、データセット、評価スクリプトは、コミュニティで自由に利用できる。
関連論文リスト
- The Trojan Knowledge: Bypassing Commercial LLM Guardrails via Harmless Prompt Weaving and Adaptive Tree Search [58.8834056209347]
大規模言語モデル(LLM)は、有害な出力を誘導するために安全ガードレールをバイパスするジェイルブレイク攻撃に弱いままである。
CKA-Agent(Correlated Knowledge Attack Agent)は、ターゲットモデルの知識基盤の適応的木構造探索としてジェイルブレイクを再構成する動的フレームワークである。
論文 参考訳(メタデータ) (2025-12-01T07:05:23Z) - LeakAgent: RL-based Red-teaming Agent for LLM Privacy Leakage [78.33839735526769]
LeakAgentは、プライバシー漏洩のための新しいブラックボックスレッドチームフレームワークである。
我々のフレームワークは、敵のプロンプトを生成するための攻撃エージェントとして強化学習を通じてオープンソースのLLMを訓練する。
我々は,LeakAgentが既存のルールベースのデータ抽出手法と,システムリーク時の自動手法を著しく上回っていることを示す。
論文 参考訳(メタデータ) (2024-12-07T20:09:01Z) - ProSec: Fortifying Code LLMs with Proactive Security Alignment [14.907702430331803]
既存のメソッドは、インストラクションチューニングのための現実世界の脆弱性からセキュリティに焦点を当てたデータセットを収集する。
コードLLMをセキュアなコーディングプラクティスと整合させるために設計された,新しいプロアクティブなセキュリティアライメントアプローチであるProSecを提案する。
論文 参考訳(メタデータ) (2024-11-19T22:00:01Z) - ShadowCode: Towards (Automatic) External Prompt Injection Attack against Code LLMs [56.46702494338318]
本稿では,コード指向の大規模言語モデルに対する(自動)外部プロンプトインジェクションという,新たな攻撃パラダイムを紹介する。
コードシミュレーションに基づいて誘導摂動を自動生成する,シンプルで効果的な方法であるShadowCodeを提案する。
3つの人気のあるプログラミング言語にまたがる31の脅威ケースを発生させるため、13の異なる悪意のある目標に対して本手法を評価した。
論文 参考訳(メタデータ) (2024-07-12T10:59:32Z) - Double Backdoored: Converting Code Large Language Model Backdoors to Traditional Malware via Adversarial Instruction Tuning Attacks [15.531860128240385]
本研究では、バックドアをAI/MLドメインから従来のコンピュータマルウェアに移行するための新しいテクニックについて検討する。
命令チューニングされたコードLLMのサイバーセキュリティ脆弱性を評価するためのフレームワークであるMalInstructCoderを提案する。
我々は,3つの最先端の Code LLM を含むコード固有命令チューニングプロセスの活用性について,包括的調査を行う。
論文 参考訳(メタデータ) (2024-04-29T10:14:58Z) - Can LLMs Patch Security Issues? [1.3299507495084417]
LLM(Large Language Models)は、コード生成に優れた習熟度を示している。
LLMは人間と弱点を共有している。
我々は、LLMが生成した脆弱性のあるコードを自動的に洗練するフィードバック駆動セキュリティパッチング(FDSP)を提案する。
論文 参考訳(メタデータ) (2023-11-13T08:54:37Z) - Certifying LLM Safety against Adversarial Prompting [70.96868018621167]
大規模言語モデル(LLM)は、入力プロンプトに悪意のあるトークンを追加する敵攻撃に対して脆弱である。
我々は,認証された安全保証とともに,敵のプロンプトを防御する最初の枠組みである消去・チェックを導入する。
論文 参考訳(メタデータ) (2023-09-06T04:37:20Z) - Not what you've signed up for: Compromising Real-World LLM-Integrated
Applications with Indirect Prompt Injection [64.67495502772866]
大規模言語モデル(LLM)は、様々なアプリケーションに統合されつつある。
本稿では、プロンプトインジェクション攻撃を用いて、攻撃者が元の命令をオーバーライドし、制御を採用する方法を示す。
我々は、コンピュータセキュリティの観点から、影響や脆弱性を体系的に調査する包括的な分類法を導出する。
論文 参考訳(メタデータ) (2023-02-23T17:14:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。