論文の概要: Defenses Against Prompt Attacks Learn Surface Heuristics
- arxiv url: http://arxiv.org/abs/2601.07185v1
- Date: Mon, 12 Jan 2026 04:12:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.205788
- Title: Defenses Against Prompt Attacks Learn Surface Heuristics
- Title(参考訳): プロンプト攻撃に対する防衛は表面のヒューリスティックを学習する
- Authors: Shawn Li, Chenxiao Yu, Zhiyu Ni, Hao Li, Charith Peris, Chaowei Xiao, Yue Zhao,
- Abstract要約: 大規模言語モデル(LLM)は、セキュリティに敏感なアプリケーションにますますデプロイされている。
LLMは、ユーザクエリや検索されたコンテンツに逆命令が現れるとき、意図したロジックをオーバーライドすることができる。
最近の防衛は、良心と悪意のあるラベルによる監督された微調整に依存している。
- 参考スコア(独自算出の注目度): 40.392588465939106
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are increasingly deployed in security-sensitive applications, where they must follow system- or developer-specified instructions that define the intended task behavior, while completing benign user requests. When adversarial instructions appear in user queries or externally retrieved content, models may override intended logic. Recent defenses rely on supervised fine-tuning with benign and malicious labels. Although these methods achieve high attack rejection rates, we find that they rely on narrow correlations in defense data rather than harmful intent, leading to systematic rejection of safe inputs. We analyze three recurring shortcut behaviors induced by defense fine-tuning. \emph{Position bias} arises when benign content placed later in a prompt is rejected at much higher rates; across reasoning benchmarks, suffix-task rejection rises from below \textbf{10\%} to as high as \textbf{90\%}. \emph{Token trigger bias} occurs when strings common in attack data raise rejection probability even in benign contexts; inserting a single trigger token increases false refusals by up to \textbf{50\%}. \emph{Topic generalization bias} reflects poor generalization beyond the defense data distribution, with defended models suffering test-time accuracy drops of up to \textbf{40\%}. These findings suggest that current prompt-injection defenses frequently respond to attack-like surface patterns rather than the underlying intent. We introduce controlled diagnostic datasets and a systematic evaluation across two base models and multiple defense pipelines, highlighting limitations of supervised fine-tuning for reliable LLM security.
- Abstract(参考訳): 大規模言語モデル(LLM)は、セキュリティに敏感なアプリケーションにますます多くデプロイされている。
ユーザクエリや外部から検索されたコンテンツに敵の命令が現れると、モデルは意図したロジックをオーバーライドする。
最近の防衛は、良心と悪意のあるラベルによる監督された微調整に依存している。
これらの手法は高い攻撃拒絶率を達成するが、有害な意図ではなく、防衛データの狭い相関に頼っていることが判明し、安全な入力を体系的に拒否する結果となった。
防衛微調整により誘発される3つのショートカット挙動を解析した。
推論ベンチマークでは、suffix-task の拒絶は \textbf{10\%} 以下から \textbf{90\%} まで上昇する。
\emph{Token trigger bias} は、攻撃データに共通する文字列が良質なコンテキストでも拒否確率を上昇させるときに発生する。
\emph{Topic generalization bias} は、防衛データ分布を超える一般化が不十分なことを反映しており、防御されたモデルは、テスト時間精度が最大で \textbf{40\%} まで低下する。
以上の結果から,現在のインジェクション防御は,根本意図よりも攻撃様表面パターンに頻繁に反応することが示唆された。
制御された診断データセットを導入し、2つのベースモデルと複数の防衛パイプラインの体系的評価を行い、信頼性の高いLLMセキュリティのための教師付き微調整の限界を強調した。
関連論文リスト
- VIGIL: Defending LLM Agents Against Tool Stream Injection via Verify-Before-Commit [44.24310459184061]
オープン環境で動作するLLMエージェントは、間接的なプロンプトインジェクションによるエスカレーションリスクに直面している。
制約的分離から検証前コミットプロトコルへパラダイムをシフトするフレームワークである textbfVIGIL を提案する。
論文 参考訳(メタデータ) (2026-01-09T12:19:49Z) - Backdoor Collapse: Eliminating Unknown Threats via Known Backdoor Aggregation in Language Models [75.29749026964154]
Ourmethodは、複数のベンチマークで平均的な攻撃成功率を4.41%に下げる。
クリーンな精度と実用性はオリジナルのモデルの0.5%以内に保存される。
防衛はさまざまな種類のバックドアをまたいで一般化し、実際のデプロイメントシナリオにおける堅牢性を確認します。
論文 参考訳(メタデータ) (2025-10-11T15:47:35Z) - SecInfer: Preventing Prompt Injection via Inference-time Scaling [54.21558811232143]
emphSecInferは,インセンジェンス時間スケーリングに基づくインジェクション攻撃に対する新しい防御法である。
SecInferは、既存のインジェクション攻撃と適応的なインジェクション攻撃の両方を効果的に軽減し、最先端の防御と既存の推論時間スケーリングアプローチより優れていることを示す。
論文 参考訳(メタデータ) (2025-09-29T16:00:41Z) - Explicit Vulnerability Generation with LLMs: An Investigation Beyond Adversarial Attacks [0.5218155982819203]
大規模言語モデル(LLM)は、コードアシスタントとしてますます使われている。
本研究は、より直接的な脅威について検討する。オープンソースのLLMは、トリガー時に脆弱性のあるコードを生成する。
論文 参考訳(メタデータ) (2025-07-14T08:36:26Z) - Benchmarking Misuse Mitigation Against Covert Adversaries [80.74502950627736]
既存の言語モデルの安全性評価は、オーバースト攻撃と低レベルのタスクに重点を置いている。
我々は、隠蔽攻撃と対応する防御の評価を自動化するデータ生成パイプラインである、ステートフルディフェンスのためのベンチマーク(BSD)を開発した。
評価の結果,分解攻撃は有効な誤用防止剤であり,その対策としてステートフルディフェンスを強調した。
論文 参考訳(メタデータ) (2025-06-06T17:33:33Z) - An Embarrassingly Simple Defense Against LLM Abliteration Attacks [47.347413305965006]
失語症と呼ばれる最近の攻撃は、拒否行動に最も責任がある唯一の潜伏方向を特定し、抑制する。
本稿では、モデルが拒否を表現する方法を根本的に変える防衛法を提案する。
微調整のLlama-2-7B-ChatとQwen2.5-Instructは、消音下で高い断熱率を維持するモデルを生成する。
論文 参考訳(メタデータ) (2025-05-25T09:18:24Z) - Revisiting Backdoor Attacks on LLMs: A Stealthy and Practical Poisoning Framework via Harmless Inputs [54.90315421117162]
完全無害データを用いた新しい毒殺法を提案する。
自己回帰型LPMの因果推論に着想を得て,トリガーと肯定的応答プレフィックスの堅牢な関連性を確立することを目指す。
LLMは最初は同意するように見えるが,その後回答を拒む興味深い抵抗現象を観察する。
論文 参考訳(メタデータ) (2025-05-23T08:13:59Z) - CAPTURE: Context-Aware Prompt Injection Testing and Robustness Enhancement [0.34530027457862006]
攻撃検出と過防衛傾向の両方を評価する新しい文脈認識型ベンチマークであるCAPTUREを紹介する。
実験の結果,現行のプロンプトインジェクションガードレールモデルでは,敵のケースでは高い偽陰性,良性シナリオでは過剰な偽陽性に悩まされていることが明らかとなった。
この新しいモデルでは、コンテキスト認識データセットの偽陰性率と偽陽性率の両方を劇的に削減します。
論文 参考訳(メタデータ) (2025-05-18T11:14:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。