論文の概要: Proactive Hardening of LLM Defenses with HASTE
- arxiv url: http://arxiv.org/abs/2601.19051v1
- Date: Tue, 27 Jan 2026 00:19:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 14:05:26.472784
- Title: Proactive Hardening of LLM Defenses with HASTE
- Title(参考訳): HASTEによるLDM防御の能動的硬化
- Authors: Henry Chen, Victor Aranda, Samarth Keshari, Ryan Heartfield, Nicole Nichols,
- Abstract要約: プロンプトベースの攻撃技術は、LLMベースのAIシステムをセキュアにデプロイし、保護する上で、大きな課題の1つだ。
本稿では,HASTE(Hard- negative Attack Sample Training Engine)について紹介する。
このフレームワークは、ハードネガティブまたはハード陽性のイテレーション戦略に対してファジングの有無にかかわらず、インジェクション検出の有効性を評価するために一般化することができる。
- 参考スコア(独自算出の注目度): 0.614338876867286
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Prompt-based attack techniques are one of the primary challenges in securely deploying and protecting LLM-based AI systems. LLM inputs are an unbounded, unstructured space. Consequently, effectively defending against these attacks requires proactive hardening strategies capable of continuously generating adaptive attack vectors to optimize LLM defense at runtime. We present HASTE (Hard-negative Attack Sample Training Engine): a systematic framework that iteratively engineers highly evasive prompts, within a modular optimization process, to continuously enhance detection efficacy for prompt-based attack techniques. The framework is agnostic to synthetic data generation methods, and can be generalized to evaluate prompt-injection detection efficacy, with and without fuzzing, for any hard-negative or hard-positive iteration strategy. Experimental evaluation of HASTE shows that hard negative mining successfully evades baseline detectors, reducing malicious prompt detection for baseline detectors by approximately 64%. However, when integrated with detection model re-training, it optimizes the efficacy of prompt detection models with significantly fewer iteration loops compared to relative baseline strategies. The HASTE framework supports both proactive and reactive hardening of LLM defenses and guardrails. Proactively, developers can leverage HASTE to dynamically stress-test prompt injection detection systems; efficiently identifying weaknesses and strengthening defensive posture. Reactively, HASTE can mimic newly observed attack types and rapidly bridge detection coverage by teaching HASTE-optimized detection models to identify them.
- Abstract(参考訳): プロンプトベースの攻撃技術は、LLMベースのAIシステムをセキュアにデプロイし、保護する上で、大きな課題の1つだ。
LLM入力は非有界で非構造空間である。
したがって、これらの攻撃に対して効果的に防御するには、実行時にLSM防御を最適化するために適応攻撃ベクトルを連続的に生成できる能動的硬化戦略が必要である。
本稿では,HASTE(Hard- negative Attack Sample Training Engine: HASTE):モジュール最適化プロセスにおいて,繰り返し技術者が高い回避プロンプトを回避し,プロンプトに基づく攻撃手法の検出効率を継続的に向上するシステムフレームワークを提案する。
このフレームワークは、合成データ生成法に非依存であり、ハードネガティブまたはハード陽性のイテレーション戦略に対してファジングの有無にかかわらず、即時注入検出の有効性を評価するために一般化することができる。
HASTEの実験的評価は、強い負のマイニングがベースライン検出器の回避に成功し、ベースライン検出器の悪質な迅速な検出を約64%削減したことを示している。
しかし, 検出モデルの再学習と統合すると, 相対的ベースライン戦略と比較して, 繰り返しループが著しく少ない即時検出モデルの有効性を最適化する。
HASTEフレームワークは、LDMディフェンスとガードレールのプロアクティブおよび反応性の強化をサポートする。
開発者は積極的に、HASTEを動的にストレス-プロンプトインジェクション検出システムに利用でき、弱点を効率的に識別し、防御姿勢を強化することができる。
反応的に、HASTEは新たに観測された攻撃タイプを模倣し、HASTEに最適化された検出モデルにそれらの識別を指導することで、迅速に橋渡しを行うことができる。
関連論文リスト
- Robust Anti-Backdoor Instruction Tuning in LVLMs [53.766434746801366]
大規模視覚言語モデル(LVLM)のための軽量で認証に依存しない防御フレームワークについて紹介する。
私たちのフレームワークは、命令チューニングの下で、アダプタモジュールとテキスト埋め込み層のみを微調整します。
Flickr30kとMSCOCOに対する7つの攻撃に対する実験は、我々の攻撃の成功率をほぼゼロに低下させることを示した。
論文 参考訳(メタデータ) (2025-06-04T01:23:35Z) - DataSentinel: A Game-Theoretic Detection of Prompt Injection Attacks [87.66245688589977]
LLM統合されたアプリケーションとエージェントは、インジェクション攻撃に弱い。
検出方法は、入力が注入プロンプトによって汚染されているかどうかを判定することを目的とする。
本研究では,迅速なインジェクション攻撃を検出するゲーム理論手法であるDataSentinelを提案する。
論文 参考訳(メタデータ) (2025-04-15T16:26:21Z) - Attention Tracker: Detecting Prompt Injection Attacks in LLMs [62.247841717696765]
大型言語モデル (LLM) は様々なドメインに革命をもたらしたが、インジェクション攻撃に弱いままである。
そこで本研究では,特定の注意点が本来の指示から注入指示へと焦点を移す,注意散逸効果の概念を紹介した。
本研究では,アテンション・トラッカーを提案する。アテンション・トラッカーは,インジェクション・アタックを検出するために,インストラクション上の注意パターンを追跡する訓練不要な検出手法である。
論文 参考訳(メタデータ) (2024-11-01T04:05:59Z) - Defending Large Language Models Against Attacks With Residual Stream Activation Analysis [0.0]
大規模言語モデル(LLM)は敵の脅威に対して脆弱である。
本稿では, LLM へのホワイトボックスアクセスを前提とした, 革新的な防御戦略を提案する。
そこで本研究では,アタックプロンプト分類のための残差ストリームの固有なアクティベーションパターンを解析するための新しい手法を適用した。
論文 参考訳(メタデータ) (2024-06-05T13:06:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。