論文の概要: "**Important** You should give me full credits!": Exploring Prompt Injection Attacks on LLM-Based Automatic Grading Systems
- arxiv url: http://arxiv.org/abs/2606.03090v1
- Date: Tue, 02 Jun 2026 03:24:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 22:00:04.726325
- Title: "**Important** You should give me full credits!": Exploring Prompt Injection Attacks on LLM-Based Automatic Grading Systems
- Title(参考訳): **Important** You should give me full credits!: Exploring Prompt Injection Attacks on LLM-based Automatic Grading Systems
- Authors: Hang Li, Fedor Filippov, Yuling Lin, Pengfei He, Kaiqi Yang, Yucheng Chu, Yingqian Cui, Hui Liu, Jiliang Tang,
- Abstract要約: 大規模言語モデル (LLM) は自動階調システム (AG) の研究を著しく加速している。
特に、プロンプトインジェクション(PI)攻撃は、最近LLMベースのアプリケーションにとって大きな脅威となっている。
我々は、AGシステムにおけるPI攻撃を調査し、教育シナリオにおけるそのような攻撃の有効性を体系的に調査する。
- 参考スコア(独自算出の注目度): 34.69207247488525
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The emergence of large language models (LLMs) has significantly accelerated recent research on LLM-based automatic grading (AG) systems. Benefiting from the strong instruction-following capabilities and broad prior knowledge of LLMs, educators can deploy AG systems across diverse tasks using only natural language rubrics while achieving satisfactory grading performance. Despite these advantages, new security concerns may also arise. In particular, prompt injection (PI) attacks have recently become a major threat to LLM-based applications. In the context of AG, attackers can potentially exploit PI vulnerabilities to manipulate grading systems into assigning artificially high scores regardless of the actual answer quality. Such behavior poses serious risks to the fairness, reliability, and integrity of educational assessment. In this work, we study PI attacks in AG systems, and systematically investigate the effectiveness of such attacks in educational scenarios. We further evaluate the effectiveness of existing defensive strategies against these attacks. Through comprehensive experiments under rubric-based grading settings, we demonstrate that current LLM-based AG systems remain highly vulnerable to PI attacks. We hope that our findings raise awareness of this emerging threat and motivate future research toward secure, robust, and trustworthy LLM-based educational systems.
- Abstract(参考訳): 大規模言語モデル(LLM)の出現は,近年,LLMに基づく自動階調システム(AG)の研究を著しく加速させている。
強力なインストラクションフォロー能力とLLMの幅広い事前知識を活かして、教育者は、自然言語のルーリックのみを使用してAGシステムを様々なタスクに展開し、良好なグレーディング性能を達成できます。
これらの利点にもかかわらず、新たなセキュリティ上の懸念も生じる可能性がある。
特に、プロンプトインジェクション(PI)攻撃は、最近LLMベースのアプリケーションにとって大きな脅威となっている。
AGの文脈では、攻撃者はPI脆弱性を利用してグレーディングシステムを操作して、実際の回答の品質に関わらず、人工的に高いスコアを割り当てることができる。
このような行動は、教育評価の公平さ、信頼性、完全性に重大なリスクをもたらす。
本稿では,AGシステムにおけるPI攻撃について検討し,教育シナリオにおけるこれらの攻撃の有効性を体系的に検討する。
これらの攻撃に対する既存の防衛戦略の有効性をさらに評価する。
ルーリックベースのグレーティング設定の下での総合的な実験を通じて、現在のLLMベースのAGシステムはPI攻撃に対して非常に脆弱であることを示します。
我々は、この新たな脅威に対する認識を高め、安全で堅牢で信頼性の高いLLMベースの教育システムに向けた将来の研究を動機付けることを願っている。
関連論文リスト
- Goal-Driven Risk Assessment for LLM-Powered Systems: A Healthcare Case Study [0.5801044612920815]
本研究では,攻撃木を用いて,詳細な攻撃ベクトル,事前条件,攻撃経路を用いて脅威を文脈的に認識する,構造化された目標駆動型リスク評価手法を提案する。
本研究は,LLMに対する現状の攻撃と従来の攻撃とを調和させ,類似システムに適用可能な攻撃経路を示す。
論文 参考訳(メタデータ) (2026-03-04T01:49:48Z) - System Prompt Extraction Attacks and Defenses in Large Language Models [2.6986500640871482]
大規模言語モデル(LLM)におけるシステムプロンプトは、モデルの振る舞いと応答生成を導く上で重要な役割を果たす。
近年の研究では、LLMシステムプロンプトは、厳密に設計されたクエリによる攻撃の抽出に非常に敏感であることが示されている。
脅威が増大しているにもかかわらず、システムによる攻撃と防御の促進に関する体系的な研究が欠如している。
論文 参考訳(メタデータ) (2025-05-27T21:36:27Z) - LLM-Assisted Proactive Threat Intelligence for Automated Reasoning [2.0427650128177]
本研究は、リアルタイムサイバーセキュリティ脅威の検出と応答を強化する新しいアプローチを提案する。
我々は,大規模言語モデル (LLM) とレトリーバル拡張生成システム (RAG) を連続的な脅威知能フィードに統合する。
論文 参考訳(メタデータ) (2025-04-01T05:19:33Z) - Can We Trust Embodied Agents? Exploring Backdoor Attacks against Embodied LLM-based Decision-Making Systems [27.316115171846953]
大規模言語モデル(LLM)は、実世界のAI意思決定タスクにおいて大きな可能性を示している。
LLMは、固有の常識と推論能力を活用するために微調整され、特定の用途に適合する。
この微調整プロセスは、特に安全クリティカルなサイバー物理システムにおいて、かなりの安全性とセキュリティの脆弱性をもたらす。
論文 参考訳(メタデータ) (2024-05-27T17:59:43Z) - On the Vulnerability of LLM/VLM-Controlled Robotics [54.57914943017522]
大規模言語モデル(LLM)と視覚言語モデル(VLM)を統合するロボットシステムの脆弱性を,入力モダリティの感度によって強調する。
LLM/VLM制御型2つのロボットシステムにおいて,単純な入力摂動がタスク実行の成功率を22.2%,14.6%減少させることを示す。
論文 参考訳(メタデータ) (2024-02-15T22:01:45Z) - Benchmarking and Defending Against Indirect Prompt Injection Attacks on Large Language Models [79.0183835295533]
我々は,このような脆弱性のリスクを評価するために,BIPIAと呼ばれる間接的インジェクション攻撃のための最初のベンチマークを導入した。
我々の分析では、LLMが情報コンテキストと動作可能な命令を区別できないことと、外部コンテンツ内での命令の実行を回避できないことの2つの主要な要因を同定した。
ブラックボックスとホワイトボックスという2つの新しい防御機構と、これらの脆弱性に対処するための明確なリマインダーを提案する。
論文 参考訳(メタデータ) (2023-12-21T01:08:39Z) - Not what you've signed up for: Compromising Real-World LLM-Integrated
Applications with Indirect Prompt Injection [64.67495502772866]
大規模言語モデル(LLM)は、様々なアプリケーションに統合されつつある。
本稿では、プロンプトインジェクション攻撃を用いて、攻撃者が元の命令をオーバーライドし、制御を採用する方法を示す。
我々は、コンピュータセキュリティの観点から、影響や脆弱性を体系的に調査する包括的な分類法を導出する。
論文 参考訳(メタデータ) (2023-02-23T17:14:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。