論文の概要: Securing Educational LLMs: A Generalised Taxonomy of Attacks on LLMs and DREAD Risk Assessment
- arxiv url: http://arxiv.org/abs/2508.08629v1
- Date: Tue, 12 Aug 2025 04:34:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-13 21:07:34.298052
- Title: Securing Educational LLMs: A Generalised Taxonomy of Attacks on LLMs and DREAD Risk Assessment
- Title(参考訳): 教育用LLMの安全性: LLMに対する攻撃の一般的な分類法とDREADリスクアセスメント
- Authors: Farzana Zahid, Anjalika Sewwandi, Lee Brandon, Vimal Kumar, Roopak Sinha,
- Abstract要約: 本研究では,Large Language Models (LLMs) に対する50件の攻撃を一般化した分類法を提案する。
我々のリスクアセスメントは,eLLMに対するトークンの密輸,敵対的プロンプト,直接注入,多段階ジェイルブレイクが重要な攻撃であることを示している。
- 参考スコア(独自算出の注目度): 0.3141085922386211
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Due to perceptions of efficiency and significant productivity gains, various organisations, including in education, are adopting Large Language Models (LLMs) into their workflows. Educator-facing, learner-facing, and institution-facing LLMs, collectively, Educational Large Language Models (eLLMs), complement and enhance the effectiveness of teaching, learning, and academic operations. However, their integration into an educational setting raises significant cybersecurity concerns. A comprehensive landscape of contemporary attacks on LLMs and their impact on the educational environment is missing. This study presents a generalised taxonomy of fifty attacks on LLMs, which are categorized as attacks targeting either models or their infrastructure. The severity of these attacks is evaluated in the educational sector using the DREAD risk assessment framework. Our risk assessment indicates that token smuggling, adversarial prompts, direct injection, and multi-step jailbreak are critical attacks on eLLMs. The proposed taxonomy, its application in the educational environment, and our risk assessment will help academic and industrial practitioners to build resilient solutions that protect learners and institutions.
- Abstract(参考訳): 効率性と生産性の顕著な向上に対する認識から、教育を含むさまざまな組織が、ワークフローにLLM(Large Language Models)を採用しています。
教育者向け、学習者向け、機関向けLLMは、教育用大規模言語モデル(eLLM)を総括し、教育、学習、アカデミックオペレーションの有効性を補完し、強化する。
しかし、彼らの教育環境への統合は、重大なサイバーセキュリティの懸念を引き起こす。
LLMに対する現代の攻撃の包括的状況と教育環境への影響は欠落している。
本研究は, LLMに対する50件の攻撃の一般的な分類法を示し, モデルまたはそれらのインフラをターゲットにした攻撃に分類される。
DREADリスクアセスメントフレームワークを用いて、これらの攻撃の重症度を教育部門で評価する。
我々のリスクアセスメントは,eLLMに対するトークンの密輸,敵対的プロンプト,直接注入,多段階ジェイルブレイクが重要な攻撃であることを示している。
提案する分類学,その教育環境への応用,リスク評価は,学習者や機関を保護するレジリエンスなソリューションの構築を支援するものである。
関連論文リスト
- ROSE: Toward Reality-Oriented Safety Evaluation of Large Language Models [60.28667314609623]
大規模言語モデル(LLM)は、現実世界のアプリケーションにおいてブラックボックスコンポーネントとしてますます多くデプロイされている。
我々は,多目的強化学習を用いて敵のLDMを微調整する新しいフレームワークであるReal-Oriented Safety Evaluation (ROSE)を提案する。
論文 参考訳(メタデータ) (2025-06-17T10:55:17Z) - A Survey of Attacks on Large Language Models [5.845689496906739]
大規模言語モデル(LLM)とLLMベースのエージェントは、現実世界の幅広いアプリケーションに広くデプロイされている。
本稿では, LLM および LLM ベースのエージェントを標的とした敵攻撃の詳細を体系的に概説する。
論文 参考訳(メタデータ) (2025-05-18T22:55:16Z) - Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。
我々の調査は、この信念に対する重大な監視を露呈している。
我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文 参考訳(メタデータ) (2024-04-16T13:22:54Z) - Breaking Down the Defenses: A Comparative Survey of Attacks on Large Language Models [18.624280305864804]
大規模言語モデル(LLM)は自然言語処理(NLP)分野の基盤となっている。
本稿では,LSMを標的とした様々な攻撃形態の包括的調査を行う。
モデルアウトプットを操作するための敵攻撃、モデルトレーニングに影響を与えるデータ中毒、データエクスプロイトのトレーニングに関連するプライバシー上の懸念などについて調べる。
論文 参考訳(メタデータ) (2024-03-03T04:46:21Z) - Data Poisoning for In-context Learning [49.77204165250528]
In-context Learning (ICL)は、新しいタスクに適応する革新的な能力として認識されている。
本論文は、ICLのデータ中毒に対する感受性の重大な問題について述べる。
ICLの学習メカニズムを活用するために考案された特殊攻撃フレームワークであるICLPoisonを紹介する。
論文 参考訳(メタデータ) (2024-02-03T14:20:20Z) - Safety Assessment of Chinese Large Language Models [51.83369778259149]
大規模言語モデル(LLM)は、侮辱や差別的なコンテンツを生成し、誤った社会的価値を反映し、悪意のある目的のために使用されることがある。
安全で責任があり倫理的なAIの展開を促進するため、LLMによる100万の強化プロンプトとレスポンスを含むセーフティプロンプトをリリースする。
論文 参考訳(メタデータ) (2023-04-20T16:27:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。