論文の概要: When Skills Lie: Hidden-Comment Injection in LLM Agents
- arxiv url: http://arxiv.org/abs/2602.10498v1
- Date: Wed, 11 Feb 2026 03:58:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:01.453228
- Title: When Skills Lie: Hidden-Comment Injection in LLM Agents
- Title(参考訳): スキルが嘘をつくとき: LLM エージェントの隠れたコンメント注入
- Authors: Qianli Wang, Boyang Ma, Minghui Xu, Yue Zhang,
- Abstract要約: このドキュメンテーション層に隠れたプロンプトインジェクションリスクについて検討する。
We found that DeepSeek-V3.2 and GLM-4.5-Air can be affected by malicious instructions embedded in hidden comment to an legitimate Skill。
- 参考スコア(独自算出の注目度): 15.045763077809637
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM agents often rely on Skills to describe available tools and recommended procedures. We study a hidden-comment prompt injection risk in this documentation layer: when a Markdown Skill is rendered to HTML, HTML comment blocks can become invisible to human reviewers, yet the raw text may still be supplied verbatim to the model. In experiments, we find that DeepSeek-V3.2 and GLM-4.5-Air can be influenced by malicious instructions embedded in a hidden comment appended to an otherwise legitimate Skill, yielding outputs that contain sensitive tool intentions. A short defensive system prompt that treats Skills as untrusted and forbids sensitive actions prevents these malicious tool calls and instead surfaces the suspicious hidden instructions.
- Abstract(参考訳): LLMエージェントは、利用可能なツールや推奨手順を記述するために、しばしばスキルに依存している。
Markdown SkillがHTMLにレンダリングされると、HTMLコメントブロックは人間のレビュアーには見えなくなります。
実験では、DeepSeek-V3.2とGLM-4.5-Airは、非合法なスキルに付加された隠されたコメントに埋め込まれた悪意のある命令に影響され、機密性の高いツール意図を含む出力が得られることがわかった。
短い防御システムでは、スキルを信頼されず、機密性の高い行為として扱うことで、悪意のあるツールコールを防ぎ、不審な隠された命令をサーフェスする。
関連論文リスト
- Agent Skills Enable a New Class of Realistic and Trivially Simple Prompt Injections [24.46526203453932]
辺境のLLM会社はエージェントスキルを導入してこれを一歩進めた。
簡単なプロンプトインジェクションを可能にするため、基本的に安全でないことが示される。
我々は、機密データを抽出するために、長いエージェントスキルファイルや参照スクリプトに悪意のある命令を隠蔽する方法を実証する。
論文 参考訳(メタデータ) (2025-10-30T10:27:11Z) - Soft Instruction De-escalation Defense [36.36851291734834]
大規模言語モデル(LLM)は、ますます外部環境と相互作用するエージェントシステムにデプロイされている。
これにより、信頼できないデータを扱う際に、インジェクションをインジェクションすることが可能になる。
ツール拡張LDMエージェント用に設計された簡易かつ効果的な反復的プロンプト衛生ループSICを提案する。
論文 参考訳(メタデータ) (2025-10-24T00:04:07Z) - Backdoor-Powered Prompt Injection Attacks Nullify Defense Methods [95.54363609024847]
大型言語モデル(LLM)はインジェクション攻撃に弱い。
本稿では,即時噴射防御法を無効化するより悪質な攻撃について検討する。
バックドアによるプロンプトインジェクション攻撃は、以前のプロンプトインジェクション攻撃よりも有害である。
論文 参考訳(メタデータ) (2025-10-04T07:11:11Z) - Invisible Prompts, Visible Threats: Malicious Font Injection in External Resources for Large Language Models [29.879456712405204]
大規模言語モデル(LLM)は、リアルタイムWeb検索機能を備え、モデルコンテキストプロトコル(MCP)のようなプロトコルと統合されつつある。
この拡張は新たなセキュリティ脆弱性を導入する可能性がある。
本稿では,Webページなどの外部リソースに悪意あるフォント注入を施して,隠れた敵のプロンプトに対するLLM脆弱性を系統的に調査する。
論文 参考訳(メタデータ) (2025-05-22T17:36:33Z) - Defending against Indirect Prompt Injection by Instruction Detection [109.30156975159561]
InstructDetectorは、LLMの動作状態を利用して潜在的なIPI攻撃を特定する、新しい検出ベースのアプローチである。
InstructDetectorは、ドメイン内設定で99.60%、ドメイン外設定で96.90%の検出精度を達成し、攻撃成功率をBIPIAベンチマークで0.03%に下げる。
論文 参考訳(メタデータ) (2025-05-08T13:04:45Z) - Robustness via Referencing: Defending against Prompt Injection Attacks by Referencing the Executed Instruction [68.6543680065379]
大型言語モデル(LLM)はインジェクション攻撃に弱い。
本研究では,LLMの命令追従能力を抑えるのではなく,新たな防御手法を提案する。
論文 参考訳(メタデータ) (2025-04-29T07:13:53Z) - SecAlign: Defending Against Prompt Injection with Preference Optimization [52.48001255555192]
敵のプロンプトは外部のデータソースに注入され、システムの意図した命令をオーバーライドし、悪意のある命令を実行する。
我々は、好みの最適化技術に基づくSecAlignと呼ばれる新しいディフェンスを提案する。
本手法は,訓練中に見られたものよりもはるかに高度な攻撃に対しても,様々なプロンプトインジェクションの成功率を10%に下げる。
論文 参考訳(メタデータ) (2024-10-07T19:34:35Z) - Evaluating the Instruction-Following Robustness of Large Language Models
to Prompt Injection [70.28425745910711]
LLM(Large Language Models)は、命令追従に非常に熟練した言語である。
この能力は、迅速なインジェクション攻撃のリスクをもたらす。
このような攻撃に対する命令追従LDMの堅牢性を評価する。
論文 参考訳(メタデータ) (2023-08-17T06:21:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。