Fugu-MT 論文翻訳(概要): CodeGuard: Improving LLM Guardrails in CS Education

論文の概要: CodeGuard: Improving LLM Guardrails in CS Education

arxiv url: http://arxiv.org/abs/2602.02509v1
Date: Thu, 22 Jan 2026 22:03:06 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-09 02:03:42.412905
Title: CodeGuard: Improving LLM Guardrails in CS Education
Title（参考訳）: CodeGuard:CS教育におけるLLMガードレールの改善
Authors: Nishat Raihan, Noah Erdachew, Jayoti Devi, Joanna C. S. Santos, Marcos Zampieri,
Abstract要約: CodeGuardは、教育AIシステムのための包括的なガードレールフレームワークである。 PromptShieldは、安全でないプロンプトをリアルタイムで検出するために微調整された軽量の文エンコーダモデルである。 CodeGuardは、正当な教育タスクのパフォーマンスを低下させることなく、潜在的に有害またはポリシー違反のコード補完を30～65%削減する。
参考スコア（独自算出の注目度）: 13.853293251946843
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Large language models (LLMs) are increasingly embedded in Computer Science (CS) classrooms to automate code generation, feedback, and assessment. However, their susceptibility to adversarial or ill-intentioned prompts threatens student learning and academic integrity. To cope with this important issue, we evaluate existing off-the-shelf LLMs in handling unsafe and irrelevant prompts within the domain of CS education. We identify important shortcomings in existing LLM guardrails which motivates us to propose CodeGuard, a comprehensive guardrail framework for educational AI systems. CodeGuard includes (i) a first-of-its-kind taxonomy for classifying prompts; (ii) the CodeGuard dataset, a collection of 8,000 prompts spanning the taxonomy; and (iii) PromptShield, a lightweight sentence-encoder model fine-tuned to detect unsafe prompts in real time. Experiments show that PromptShield achieves 0.93 F1 score, surpassing existing guardrail methods. Additionally, further experimentation reveals that CodeGuard reduces potentially harmful or policy-violating code completions by 30-65% without degrading performance on legitimate educational tasks. The code, datasets, and evaluation scripts are made freely available to the community.
Abstract（参考訳）: 大規模言語モデル(LLM)は、コード生成、フィードバック、評価を自動化するためにコンピュータサイエンス(CS)の教室に組み込まれている。しかし、敵対的あるいは意図しないプロンプトへの感受性は、学生の学習と学術的誠実さを脅かす。この重要な問題に対処するため、CS教育分野における安全で無関係なプロンプトを扱うために、既成の既成のLCMを評価した。我々は、教育AIシステムのための包括的なガードレールフレームワークであるCodeGuardを提案する動機となる、既存のLLMガードレールの重要な欠点を特定する。 CodeGuard には一指示を分類するための第一種分類 (ii)分類学にまたがる8000のプロンプトのコレクションであるCodeGuardデータセット (iii) PromptShieldは、安全でないプロンプトをリアルタイムで検出するために微調整された軽量の文エンコーダモデルである。実験の結果、PromptShieldは既存のガードレール法を上回り、0.93 F1のスコアを達成した。さらに、CodeGuardは、正当な教育タスクのパフォーマンスを低下させることなく、潜在的に有害またはポリシーに違反するコード補完を30～65%削減することを、さらなる実験で明らかにしている。コード、データセット、評価スクリプトは、コミュニティで自由に利用できる。

関連論文リスト

Secure Code Generation via Online Reinforcement Learning with Vulnerability Reward Model [60.60587869092729]
大規模言語モデル(LLM)は、ソフトウェア開発でますます使われているが、安全でないコードを生成する傾向は、現実世界のデプロイメントにとって大きな障壁である。機能保存型セキュアコード生成のためのオンライン強化学習フレームワークSecCoderXを提案する。
論文参考訳（メタデータ） (2026-02-07T07:42:07Z)
The Trojan Knowledge: Bypassing Commercial LLM Guardrails via Harmless Prompt Weaving and Adaptive Tree Search [58.8834056209347]
大規模言語モデル(LLM)は、有害な出力を誘導するために安全ガードレールをバイパスするジェイルブレイク攻撃に弱いままである。 CKA-Agent(Correlated Knowledge Attack Agent)は、ターゲットモデルの知識基盤の適応的木構造探索としてジェイルブレイクを再構成する動的フレームワークである。
論文参考訳（メタデータ） (2025-12-01T07:05:23Z)
SGuard-v1: Safety Guardrail for Large Language Models [9.229602223310485]
SGuard-v1は、大規模言語モデル(LLM)のための軽量安全ガードレールである。それは、人間とAIの会話環境における有害なコンテンツと画面の敵対的プロンプトを検出するための2つの特殊なモデルから構成される。
論文参考訳（メタデータ） (2025-11-16T08:15:54Z)
AdaptiveGuard: Towards Adaptive Runtime Safety for LLM-Powered Software [11.606665113249298]
ガードレールは、LLM(Large Language Models)ベースのソフトウェアを安全にデプロイするために重要である。本稿では,新しい脱獄攻撃をアウト・オブ・ディストリビューション(OOD)入力として検出する適応ガードレールであるAdaptiveGuardを提案する。我々は、AdaptiveGuardがOOD検出精度96%を達成し、2回の更新ステップで新たな攻撃に適応し、85%以上のF1スコアを分散後のデータに保持していることを示す。
論文参考訳（メタデータ） (2025-09-21T01:22:42Z)
PromptGuard: An Orchestrated Prompting Framework for Principled Synthetic Text Generation for Vulnerable Populations using LLMs with Enhanced Safety, Fairness, and Controllability [0.9131552057693698]
VulnGuard Promptは、現実世界のデータ駆動コントラスト学習による有害な情報生成を防止するハイブリッド技術である。 PromptGuardは、入力分類、VulnGuard Prompting、倫理原則統合、外部ツールインタラクション、ユーザーシステムインタラクションの6つのコアモジュールを編成する。本稿では,収束証明,情報理論を用いた脆弱性解析,理論的検証フレームワークなどを含む包括的数学的形式化を提案する。
論文参考訳（メタデータ） (2025-09-10T18:14:52Z)
LeakAgent: RL-based Red-teaming Agent for LLM Privacy Leakage [78.33839735526769]
LeakAgentは、プライバシー漏洩のための新しいブラックボックスレッドチームフレームワークである。我々のフレームワークは、敵のプロンプトを生成するための攻撃エージェントとして強化学習を通じてオープンソースのLLMを訓練する。我々は,LeakAgentが既存のルールベースのデータ抽出手法と,システムリーク時の自動手法を著しく上回っていることを示す。
論文参考訳（メタデータ） (2024-12-07T20:09:01Z)
ProSec: Fortifying Code LLMs with Proactive Security Alignment [14.907702430331803]
既存のメソッドは、インストラクションチューニングのための現実世界の脆弱性からセキュリティに焦点を当てたデータセットを収集する。コードLLMをセキュアなコーディングプラクティスと整合させるために設計された,新しいプロアクティブなセキュリティアライメントアプローチであるProSecを提案する。
論文参考訳（メタデータ） (2024-11-19T22:00:01Z)
ShadowCode: Towards (Automatic) External Prompt Injection Attack against Code LLMs [56.46702494338318]
本稿では,コード指向の大規模言語モデルに対する(自動)外部プロンプトインジェクションという,新たな攻撃パラダイムを紹介する。コードシミュレーションに基づいて誘導摂動を自動生成する,シンプルで効果的な方法であるShadowCodeを提案する。 3つの人気のあるプログラミング言語にまたがる31の脅威ケースを発生させるため、13の異なる悪意のある目標に対して本手法を評価した。
論文参考訳（メタデータ） (2024-07-12T10:59:32Z)
Prompting Techniques for Secure Code Generation: A Systematic Investigation [4.777102838267181]
大規模言語モデル(LLM)は、プロンプト駆動プログラミングによるソフトウェア開発で勢いを増している。 LLMによるNL命令から生成されたコードのセキュリティに異なるプロンプト技術が与える影響について検討する。
論文参考訳（メタデータ） (2024-07-09T17:38:03Z)
Double Backdoored: Converting Code Large Language Model Backdoors to Traditional Malware via Adversarial Instruction Tuning Attacks [15.531860128240385]
本研究では、バックドアをAI/MLドメインから従来のコンピュータマルウェアに移行するための新しいテクニックについて検討する。命令チューニングされたコードLLMのサイバーセキュリティ脆弱性を評価するためのフレームワークであるMalInstructCoderを提案する。我々は,3つの最先端の Code LLM を含むコード固有命令チューニングプロセスの活用性について,包括的調査を行う。
論文参考訳（メタデータ） (2024-04-29T10:14:58Z)
Can LLMs Patch Security Issues? [1.3299507495084417]
LLM(Large Language Models)は、コード生成に優れた習熟度を示している。 LLMは人間と弱点を共有している。我々は、LLMが生成した脆弱性のあるコードを自動的に洗練するフィードバック駆動セキュリティパッチング(FDSP)を提案する。
論文参考訳（メタデータ） (2023-11-13T08:54:37Z)
Certifying LLM Safety against Adversarial Prompting [70.96868018621167]
大規模言語モデル(LLM)は、入力プロンプトに悪意のあるトークンを追加する敵攻撃に対して脆弱である。我々は,認証された安全保証とともに,敵のプロンプトを防御する最初の枠組みである消去・チェックを導入する。
論文参考訳（メタデータ） (2023-09-06T04:37:20Z)
Not what you've signed up for: Compromising Real-World LLM-Integrated Applications with Indirect Prompt Injection [64.67495502772866]
大規模言語モデル(LLM)は、様々なアプリケーションに統合されつつある。本稿では、プロンプトインジェクション攻撃を用いて、攻撃者が元の命令をオーバーライドし、制御を採用する方法を示す。我々は、コンピュータセキュリティの観点から、影響や脆弱性を体系的に調査する包括的な分類法を導出する。
論文参考訳（メタデータ） (2023-02-23T17:14:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。