論文の概要: Semantic Denial of Service in LLM-controlled robots
- arxiv url: http://arxiv.org/abs/2604.24790v1
- Date: Sat, 25 Apr 2026 10:52:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-29 16:49:17.495934
- Title: Semantic Denial of Service in LLM-controlled robots
- Title(参考訳): LLM制御ロボットにおける意味的サービス拒否
- Authors: Jonathan Steinberg, Oren Gal,
- Abstract要約: 敵は、モデルをジェイルブレイクしたりポリシーをオーバーライドしたりすることなく、モデルが実行を停止または中断する理由をモデルに引き起こすことが示される。
即時防衛は、真のハザード反応に対する攻撃抑制を禁止している。
実際の意味は、プロンプトレベルではなくアーキテクチャである。
- 参考スコア(独自算出の注目度): 2.1942030377331245
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Safety-oriented instruction-following is supposed to keep LLM-controlled robots safe. We show it also creates an availability attack surface. By injecting short safety-plausible phrases (1-5 tokens) into a robots audio channel, an adversary can trigger the models safety reasoning to halt or disrupt execution without jailbreaking the model or overriding its policy. In the embodied setting, this is a semantic denial-of-service attack: the agent stops because the injected signal looks like a legitimate alert. Across four vision-language models, seven prompt-level defenses, three deployment modes, and single- and multi-injection settings, we find that prompt-only defenses trade off attack suppression against genuine hazard response. The strongest defenses reduce hard-stop attack success on some models, but defenses change the form of disruption, not its fact: suppressed hard stops re-emerge as acknowledge loops and false alerts, which we measure with Disruption Success Rate (DSR). We further find that injection variety is consistently more effective than repeating the same phrase, suggesting that models treat diverse safety cues as corroborating evidence. The practical implication is architectural rather than prompt-level: systems that route unauthenticated audio text directly into the LLM create an avoidable security dependency between safety monitoring and action selection.
- Abstract(参考訳): 安全指向の指示追従は、LLM制御ロボットを安全に保つことを目的としている。
また、アベイラビリティーアタックサーフェスも生成している。
ロボットオーディオチャネルに短い安全宣言可能なフレーズ(1-5トークン)を注入することにより、敵はモデルをジェイルブレイクしたりポリシーをオーバーライドしたりすることなく、実行を停止または中断するモデル安全推論をトリガーすることができる。
具体的設定では、これはセマンティック・デニアル・オブ・サービス攻撃である。
4つの視覚言語モデル,7つのプロンプトレベルディフェンス,3つのデプロイモード,複数インジェクション設定において,プロンプトのみのディフェンスが真のハザード応答に対する攻撃抑制をオフにしていることがわかった。
最強の防衛力は、いくつかのモデルにおいてハードストップ攻撃の成功を減少させるが、防御力は破壊の形式を変える。
さらに, インジェクションの多様性は, 同じ言い回しを繰り返すよりも一貫して有効であることが示唆され, モデルが様々な安全手段を裏付ける証拠として扱うことが示唆された。
未認証の音声テキストを直接LLMにルーティングするシステムは、安全監視と行動選択の間の回避可能なセキュリティ依存関係を生成する。
関連論文リスト
- ASGuard: Activation-Scaling Guard to Mitigate Targeted Jailbreaking Attack [22.48980625853356]
大規模言語モデル(LLM)は、単純な言語的変化によって回避できる脆い拒絶行動を示す。
本研究では、この特定の脆弱性を外科的に軽減する、洞察に富んだ機械的インフォームドフレームワークであるアクティベーション・スケーリングガード(ASGuard)を紹介する。
論文 参考訳(メタデータ) (2025-09-30T06:33:52Z) - BlindGuard: Safeguarding LLM-based Multi-Agent Systems under Unknown Attacks [58.959622170433725]
BlindGuardは、攻撃固有のラベルや悪意のある振る舞いに関する事前の知識を必要とせずに学習する、教師なしの防御方法である。
BlindGuardはマルチエージェントシステムにまたがる多様な攻撃タイプ(即時注入、メモリ中毒、ツール攻撃)を効果的に検出する。
論文 参考訳(メタデータ) (2025-08-11T16:04:47Z) - Defending Against Prompt Injection With a Few DefensiveTokens [44.221727642687085]
大規模言語モデル(LLM)システムは複雑なタスクを実行するために外部データと相互作用する。
システムによってアクセスされたデータに命令を注入することにより、攻撃者は攻撃者が指示する任意のタスクで初期ユーザタスクをオーバーライドすることができる。
システム開発者がフレキシブルな方法で必要な場合にのみセキュリティを確保するためには、例えば防御プロンプトのようなテストタイムディフェンスが提案されている。
トレーニング時の代替に匹敵するプロンプトインジェクションを備えたテストタイムディフェンスであるDefensiveTokenを提案する。
論文 参考訳(メタデータ) (2025-07-10T17:51:05Z) - MELON: Provable Defense Against Indirect Prompt Injection Attacks in AI Agents [60.30753230776882]
LLMエージェントは間接的プロンプトインジェクション(IPI)攻撃に対して脆弱であり、ツール検索情報に埋め込まれた悪意のあるタスクはエージェントをリダイレクトして不正なアクションを取ることができる。
マスク機能によって修正されたマスク付きユーザでエージェントの軌道を再実行することで攻撃を検知する新しいIPIディフェンスであるMELONを提案する。
論文 参考訳(メタデータ) (2025-02-07T18:57:49Z) - Can Safety Fine-Tuning Be More Principled? Lessons Learned from Cybersecurity [46.83576558654259]
私たちは、現在の安全性の微調整は、サイバーセキュリティにおける攻撃者とディフェンダーの間の伝統的なキャット・アンド・ムースゲームと非常によく似ていると論じています。
我々は、新しい敵のジェイルブレイク攻撃、報酬のハッキング、制御問題の喪失を防ぐために、現在の防御が不十分であることを示す。
論文 参考訳(メタデータ) (2025-01-19T21:49:42Z) - ASPIRER: Bypassing System Prompts With Permutation-based Backdoors in LLMs [17.853862145962292]
システムプロンプトを体系的に回避する新しいバックドアアタックを導入する。
本手法は,98.58%のクリーン精度(CACC)を維持しつつ,攻撃成功率(ASR)を99.50%まで達成する。
論文 参考訳(メタデータ) (2024-10-05T02:58:20Z) - You Know What I'm Saying: Jailbreak Attack via Implicit Reference [22.520950422702757]
本研究は、以前見過ごされた脆弱性を特定し、Implicit Reference (AIR) による攻撃(Attack)と呼ぶ。
AIRは悪意のある目的を許容可能な目的に分解し、コンテキスト内の暗黙の参照を通してそれらをリンクする。
我々の実験は、AIRが最先端のLLMに対して有効であることを示し、ほとんどのモデルで90%を超える攻撃成功率(ASR)を達成した。
論文 参考訳(メタデータ) (2024-10-04T18:42:57Z) - Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を付与する,新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。
DeRTaは,(1)安全応答の開始に有害な応答のセグメントを付加することにより,安全でないコンテンツの認識と回避をモデルに訓練する,(2)有害応答シーケンスを通して潜在的障害から安全拒絶へ移行する能力をモデルに装備する強化遷移最適化(RTO)という,2つの新しいコンポーネントを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-12T09:36:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。