論文の概要: Robust Safety Monitoring of Language Models via Activation Watermarking
- arxiv url: http://arxiv.org/abs/2603.23171v2
- Date: Mon, 30 Mar 2026 21:43:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-01 15:25:02.089303
- Title: Robust Safety Monitoring of Language Models via Activation Watermarking
- Title(参考訳): アクティベーション・ウォーターマーキングによる言語モデルのロバスト安全性モニタリング
- Authors: Toluwani Aremu, Daniil Ognev, Samuele Poppi, Nils Lukas,
- Abstract要約: 大型言語モデル(LLM)は、武器製造指示やマルウェアの書き方などの機密情報を明らかにするために誤用されることがある。
LLMプロバイダは、推論中に安全でない振る舞いを検出し、フラグを付けるために$emphmonitoring$に依存している。
LLMプロバイダはセキュリティメカニズムをパッチできないため、アダプティブアタッカーは大きな懸念事項である。
- 参考スコア(独自算出の注目度): 8.322320917323609
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) can be misused to reveal sensitive information, such as weapon-making instructions or writing malware. LLM providers rely on $\emph{monitoring}$ to detect and flag unsafe behavior during inference. An open security challenge is $\emph{adaptive}$ adversaries who craft attacks that simultaneously (i) evade detection while (ii) eliciting unsafe behavior. Adaptive attackers are a major concern as LLM providers cannot patch their security mechanisms, since they are unaware of how their models are being misused. We cast $\emph{robust}$ LLM monitoring as a security game, where adversaries who know about the monitor try to extract sensitive information, while a provider must accurately detect these adversarial queries at low false positive rates. Our work (i) shows that existing LLM monitors are vulnerable to adaptive attackers and (ii) designs improved defenses through $\emph{activation watermarking}$ by carefully introducing uncertainty for the attacker during inference. We find that $\emph{activation watermarking}$ outperforms guard baselines by up to $52\%$ under adaptive attackers who know the monitoring algorithm but not the secret key.
- Abstract(参考訳): 大型言語モデル(LLM)は、武器製造指示やマルウェアの書き方などの機密情報を明らかにするために誤用されることがある。
LLMプロバイダは$\emph{monitoring}$を使って、推論中に安全でない振る舞いを検出し、フラグを立てる。
オープンセキュリティの課題は、同時に攻撃を行う敵に対して$\emph{adaptive}$
一 検出を免れること
(二)安全でない行動を引き起こすこと。
LLMプロバイダは、モデルがどのように悪用されているか知らないため、セキュリティメカニズムをパッチできないため、アダプティブアタッカーは大きな懸念事項である。
我々はセキュリティゲームとしてLLMモニタリングを$\emph{robust}$でキャストし、モニタを知っている敵が機密情報を抽出しようとするのに対して、プロバイダは偽陽性率の低い敵クエリを正確に検出しなければならない。
作品
i) 既存のLCMモニタがアダプティブアタッカーに対して脆弱であることを示す。
(ii)$\emph{activation watermarking}$で、推論中に攻撃者の不確実性を慎重に導入することで、防御を改善した。
監視アルゴリズムを知っているがシークレットキーではないアダプティブアタックの下で、$\emph{activation watermarking}$はガードベースラインを最大5,2\%以上上回る。
関連論文リスト
- $δ$-STEAL: LLM Stealing Attack with Local Differential Privacy [24.88863537562324]
我々は、相手のモデルユーティリティを保ちながら、サービス提供者の透かし検出器をバイパスするモデル盗難攻撃である$delta$-STEALを紹介します。
実験の結果、$delta$-STEALは敵のモデルユーティリティを著しく損なうことなく、最大9,6.95%の攻撃成功率を達成することがわかった。
論文 参考訳(メタデータ) (2025-10-24T18:19:38Z) - Adaptive Attacks on Trusted Monitors Subvert AI Control Protocols [80.68060125494645]
プロトコルとモニタモデルを知っている信頼できないモデルによるアダプティブアタックについて検討する。
我々は、攻撃者がモデル出力に公知またはゼロショットプロンプトインジェクションを埋め込む単純な適応攻撃ベクトルをインスタンス化する。
論文 参考訳(メタデータ) (2025-10-10T15:12:44Z) - Strategic Dishonesty Can Undermine AI Safety Evaluations of Frontier LLMs [95.06033929366203]
大規模言語モデル(LLM)開発者は、モデルが誠実で、有用で、無害であることを目標としている。
我々は,フロンティアLSMが,他の選択肢が利用可能であっても,新たな戦略として不便さを優先して開発可能であることを示す。
偽装する確率の明確な原因は見つからないが、より有能なモデルがこの戦略を実行するのに優れていることを示す。
論文 参考訳(メタデータ) (2025-09-22T17:30:56Z) - BlindGuard: Safeguarding LLM-based Multi-Agent Systems under Unknown Attacks [58.959622170433725]
BlindGuardは、攻撃固有のラベルや悪意のある振る舞いに関する事前の知識を必要とせずに学習する、教師なしの防御方法である。
BlindGuardはマルチエージェントシステムにまたがる多様な攻撃タイプ(即時注入、メモリ中毒、ツール攻撃)を効果的に検出する。
論文 参考訳(メタデータ) (2025-08-11T16:04:47Z) - How Not to Detect Prompt Injections with an LLM [19.785755392783287]
最近の防衛策は, LLMを用いて, 入力をクリーンで汚染されたものと分類することにより, ほぼ完璧な性能を達成している。
我々は、KADフレームワークを公式に特徴付け、その中核となるセキュリティ前提を無効にする構造上の脆弱性を明らかにする。
私たちは、この根本的な弱点を利用するために、メソッド適応アタックである$textitDataFlip$を設計します。
論文 参考訳(メタデータ) (2025-07-08T03:24:56Z) - Defeating Prompt Injections by Design [79.00910871948787]
CaMeLは、Large Language Modelsを中心とした保護システムレイヤを作成する堅牢なディフェンスである。
CaMeLは、(信頼された)クエリから制御とデータフローを明示的に抽出する。
セキュリティをさらに改善するため、CaMeLは、権限のないデータフロー上のプライベートデータの流出を防止する機能の概念を使用している。
論文 参考訳(メタデータ) (2025-03-24T15:54:10Z) - LLM Safeguard is a Double-Edged Sword: Exploiting False Positives for Denial-of-Service Attacks [7.013820690538764]
本研究は,セーフガード手法のエンファルス陰性を利用した攻撃について検討する。
悪意のある攻撃者は、セキュリティ保護の偽陽性を悪用する可能性もあり、ユーザーに影響を与えるDoS(DoS)が否定された。
論文 参考訳(メタデータ) (2024-10-03T19:07:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。