論文の概要: Mitigating Trojanized Prompt Chains in Educational LLM Use Cases: Experimental Findings and Detection Tool Design
- arxiv url: http://arxiv.org/abs/2507.14207v1
- Date: Tue, 15 Jul 2025 07:23:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:31.765617
- Title: Mitigating Trojanized Prompt Chains in Educational LLM Use Cases: Experimental Findings and Detection Tool Design
- Title(参考訳): 教育用LLM症例におけるトロイジャン化プロンプト鎖の緩和 : 実験的発見と検出ツール設計
- Authors: Richard M. Charles, James H. Curry, Richard B. Charles,
- Abstract要約: 本研究では,学生が大規模言語モデル(LLM)から安全でない,意図しないアウトプットを引き出すプロンプトをトロイの木馬化する方法について検討する。
シミュレーションK--12クエリとマルチターン対話を含む系統的な実験により,GPT-3.5およびGPT-4における鍵となる脆弱性を明らかにする。
本稿では,Trojanized Educationのプロンプトを自動的に検出・緩和するTrojanPromptGuard(TPG)を試作した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The integration of Large Language Models (LLMs) in K--12 education offers both transformative opportunities and emerging risks. This study explores how students may Trojanize prompts to elicit unsafe or unintended outputs from LLMs, bypassing established content moderation systems with safety guardrils. Through a systematic experiment involving simulated K--12 queries and multi-turn dialogues, we expose key vulnerabilities in GPT-3.5 and GPT-4. This paper presents our experimental design, detailed findings, and a prototype tool, TrojanPromptGuard (TPG), to automatically detect and mitigate Trojanized educational prompts. These insights aim to inform both AI safety researchers and educational technologists on the safe deployment of LLMs for educators.
- Abstract(参考訳): K--12教育におけるLarge Language Models(LLM)の統合は、変革的機会と新興リスクの両方を提供する。本研究は、学生が、安全ガードリルによる既存のコンテンツモデレーションシステムをバイパスして、LLMから安全でない、意図しないアウトプットを引き出すプロンプトを、どのように引き起こすかを検討する。K--12クエリとマルチターンダイアログのシステマティック実験を通じて、GPT-3.5とGPT-4の重要な脆弱性を明らかにする。
本稿では,Trojanized Educationのプロンプトを自動的に検出・緩和するTrojanPromptGuard(TPG)を試作した。
これらの洞察は、AI安全研究者と教育技術者の両方に、教育者のためのLLMの安全な配置を知らせることを目的としている。
関連論文リスト
- Should LLM Safety Be More Than Refusing Harmful Instructions? [6.5137518437747]
本稿では,Large Language Models (LLM) の長文分散(暗号化)テキストに対する振る舞いを体系的に評価する。
LLMの安全性を評価するための2次元フレームワークを提案する。
暗号を復号する能力を持つモデルは、不正な一般化攻撃の影響を受けやすいことを実証する。
論文 参考訳(メタデータ) (2025-06-03T05:00:12Z) - Breaking the Prompt Wall (I): A Real-World Case Study of Attacking ChatGPT via Lightweight Prompt Injection [12.565784666173277]
本報告では,ChatGPTのような大規模言語モデルプラットフォームに対して,インジェクションのプロンプトがどう作用するかを示す実例を示す。
本稿では,ユーザ入力や Web ベース検索,システムレベルのエージェント命令を通じて,敵対的プロンプトをインジェクションする方法を示す。
論文 参考訳(メタデータ) (2025-04-20T05:59:00Z) - In-Context Experience Replay Facilitates Safety Red-Teaming of Text-to-Image Diffusion Models [104.94706600050557]
テキスト・ツー・イメージ(T2I)モデルは目覚ましい進歩を見せているが、有害なコンテンツを生成する可能性はまだMLコミュニティにとって重要な関心事である。
ICERは,解釈可能かつ意味論的に意味のある重要なプロンプトを生成する新しい赤チームフレームワークである。
我々の研究は、より堅牢な安全メカニズムをT2Iシステムで開発するための重要な洞察を提供する。
論文 参考訳(メタデータ) (2024-11-25T04:17:24Z) - Global Challenge for Safe and Secure LLMs Track 1 [57.08717321907755]
LLM(Global Challenge for Safe and Secure Large Language Models)は、AI Singapore(AISG)とCyberSG R&D Programme Office(CRPO)が主催する先駆的イニシアチブである。
本稿では,AI Singapore(AISG)とCyberSG R&D Programme Office(CRPO)が組織した先駆的イニシアチブであるLLM(Global Challenge for Safe and Secure Large Language Models)を紹介する。
論文 参考訳(メタデータ) (2024-11-21T08:20:31Z) - Attention Tracker: Detecting Prompt Injection Attacks in LLMs [62.247841717696765]
大型言語モデル (LLM) は様々なドメインに革命をもたらしたが、インジェクション攻撃に弱いままである。
そこで本研究では,特定の注意点が本来の指示から注入指示へと焦点を移す,注意散逸効果の概念を紹介した。
本研究では,アテンション・トラッカーを提案する。アテンション・トラッカーは,インジェクション・アタックを検出するために,インストラクション上の注意パターンを追跡する訓練不要な検出手法である。
論文 参考訳(メタデータ) (2024-11-01T04:05:59Z) - LLMs know their vulnerabilities: Uncover Safety Gaps through Natural Distribution Shifts [88.96201324719205]
大規模言語モデル(LLM)の安全性に関する懸念は、事前訓練中に潜在的に有害なデータに曝されることにより、大きな注目を集めている。
我々は、有害なコンテンツに意味的に関連していると思われる良心的なプロンプトが、安全性のメカニズムを回避できる新しい安全性脆弱性をLSMで特定する。
我々は,事前学習における有害なプロンプトに関連するアクターを識別する新しい攻撃手法,textitActorBreakerを導入する。
論文 参考訳(メタデータ) (2024-10-14T16:41:49Z) - Counterfactual Explainable Incremental Prompt Attack Analysis on Large Language Models [32.03992137755351]
本研究は,大規模言語モデル(LLM)における安全性とプライバシ対策の推進的必要性に光を当てるものである。
本稿では,攻撃効果を定量的に測定するために,特定の方法でプロンプトを誘導する新しい手法であるCEIPAを提案する。
論文 参考訳(メタデータ) (2024-07-12T14:26:14Z) - Trojan Detection in Large Language Models: Insights from The Trojan Detection Challenge [0.056247917037481096]
大規模言語モデル(LLM)は、様々な領域で顕著な機能を示しているが、トロイの木馬やバックドア攻撃に対する脆弱性は、重大なセキュリティリスクを引き起こす。
本稿では,トロイの木馬検出コンペティション2023(TDC2023)から得られた課題と知見について考察する。
本研究では,意図しないトリガーと意図しないトリガーの区別の難しさと,実世界のシナリオにおけるリバースエンジニアリングトロイの木馬の実現可能性について検討する。
論文 参考訳(メタデータ) (2024-04-21T13:31:16Z) - TrojLLM: A Black-box Trojan Prompt Attack on Large Language Models [29.66515518909497]
TrojLLMは、普遍的でステルス的なトリガーを生成する自動かつブラックボックスフレームワークである。
個別のプロンプト内にトロイの木馬を埋め込むことをサポートし、トリガーの攻撃の全体的な効果と精度を高める。
実世界のブラックボックスLPM APIにおけるテキストプロンプトにTrojLLMを効果的に挿入する能力を示す実験と結果を得た。
論文 参考訳(メタデータ) (2023-06-12T01:22:39Z) - Red Teaming Language Model Detectors with Language Models [114.36392560711022]
大規模言語モデル(LLM)は、悪意のあるユーザによって悪用された場合、重大な安全性と倫理的リスクをもたらす。
近年,LLM生成テキストを検出し,LLMを保護するアルゴリズムが提案されている。
1) LLMの出力中の特定の単語を, 文脈が与えられたシノニムに置き換えること, 2) 生成者の書き方を変更するための指示プロンプトを自動で検索すること,である。
論文 参考訳(メタデータ) (2023-05-31T10:08:37Z) - Dos and Don'ts of Machine Learning in Computer Security [74.1816306998445]
大きな可能性にもかかわらず、セキュリティにおける機械学習は、パフォーマンスを損なう微妙な落とし穴を引き起こす傾向がある。
我々は,学習ベースのセキュリティシステムの設計,実装,評価において共通の落とし穴を特定する。
我々は,落とし穴の回避や軽減を支援するために,研究者を支援するための実用的な勧告を提案する。
論文 参考訳(メタデータ) (2020-10-19T13:09:31Z) - Trojaning Language Models for Fun and Profit [53.45727748224679]
TROJAN-LMは、悪質に製作されたLMがホストNLPシステムを故障させる新しいタイプのトロイの木馬攻撃である。
セキュリティクリティカルなNLPタスクにおいて、3つの最先端のLMを実証的に研究することにより、TROJAN-LMが以下の特性を持つことを示す。
論文 参考訳(メタデータ) (2020-08-01T18:22:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。