論文の概要: Proactive Hardening of LLM Defenses with HASTE
- arxiv url: http://arxiv.org/abs/2601.19051v1
- Date: Tue, 27 Jan 2026 00:19:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 14:05:26.472784
- Title: Proactive Hardening of LLM Defenses with HASTE
- Title(参考訳): HASTEによるLDM防御の能動的硬化
- Authors: Henry Chen, Victor Aranda, Samarth Keshari, Ryan Heartfield, Nicole Nichols,
- Abstract要約: プロンプトベースの攻撃技術は、LLMベースのAIシステムをセキュアにデプロイし、保護する上で、大きな課題の1つだ。
本稿では,HASTE(Hard- negative Attack Sample Training Engine)について紹介する。
このフレームワークは、ハードネガティブまたはハード陽性のイテレーション戦略に対してファジングの有無にかかわらず、インジェクション検出の有効性を評価するために一般化することができる。
- 参考スコア(独自算出の注目度): 0.614338876867286
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Prompt-based attack techniques are one of the primary challenges in securely deploying and protecting LLM-based AI systems. LLM inputs are an unbounded, unstructured space. Consequently, effectively defending against these attacks requires proactive hardening strategies capable of continuously generating adaptive attack vectors to optimize LLM defense at runtime. We present HASTE (Hard-negative Attack Sample Training Engine): a systematic framework that iteratively engineers highly evasive prompts, within a modular optimization process, to continuously enhance detection efficacy for prompt-based attack techniques. The framework is agnostic to synthetic data generation methods, and can be generalized to evaluate prompt-injection detection efficacy, with and without fuzzing, for any hard-negative or hard-positive iteration strategy. Experimental evaluation of HASTE shows that hard negative mining successfully evades baseline detectors, reducing malicious prompt detection for baseline detectors by approximately 64%. However, when integrated with detection model re-training, it optimizes the efficacy of prompt detection models with significantly fewer iteration loops compared to relative baseline strategies. The HASTE framework supports both proactive and reactive hardening of LLM defenses and guardrails. Proactively, developers can leverage HASTE to dynamically stress-test prompt injection detection systems; efficiently identifying weaknesses and strengthening defensive posture. Reactively, HASTE can mimic newly observed attack types and rapidly bridge detection coverage by teaching HASTE-optimized detection models to identify them.
- Abstract(参考訳): プロンプトベースの攻撃技術は、LLMベースのAIシステムをセキュアにデプロイし、保護する上で、大きな課題の1つだ。
LLM入力は非有界で非構造空間である。
したがって、これらの攻撃に対して効果的に防御するには、実行時にLSM防御を最適化するために適応攻撃ベクトルを連続的に生成できる能動的硬化戦略が必要である。
本稿では,HASTE(Hard- negative Attack Sample Training Engine: HASTE):モジュール最適化プロセスにおいて,繰り返し技術者が高い回避プロンプトを回避し,プロンプトに基づく攻撃手法の検出効率を継続的に向上するシステムフレームワークを提案する。
このフレームワークは、合成データ生成法に非依存であり、ハードネガティブまたはハード陽性のイテレーション戦略に対してファジングの有無にかかわらず、即時注入検出の有効性を評価するために一般化することができる。
HASTEの実験的評価は、強い負のマイニングがベースライン検出器の回避に成功し、ベースライン検出器の悪質な迅速な検出を約64%削減したことを示している。
しかし, 検出モデルの再学習と統合すると, 相対的ベースライン戦略と比較して, 繰り返しループが著しく少ない即時検出モデルの有効性を最適化する。
HASTEフレームワークは、LDMディフェンスとガードレールのプロアクティブおよび反応性の強化をサポートする。
開発者は積極的に、HASTEを動的にストレス-プロンプトインジェクション検出システムに利用でき、弱点を効率的に識別し、防御姿勢を強化することができる。
反応的に、HASTEは新たに観測された攻撃タイプを模倣し、HASTEに最適化された検出モデルにそれらの識別を指導することで、迅速に橋渡しを行うことができる。
関連論文リスト
- SAGE: Sample-Aware Guarding Engine for Robust Intrusion Detection Against Adversarial Attacks [12.537292017431641]
機械学習ベースの侵入検知システム(ML-IDS)は、敵攻撃の影響を受けやすい。
SAGE(Sample-Aware Guarding Engine)は、アクティブラーニングとターゲットデータ削減を統合した、大幅に改良された防衛アルゴリズムである。
SAGEは、複数の侵入検出データセット間で強力な予測性能を示し、最先端の防御よりも平均201%のF1スコアの改善を実現している。
論文 参考訳(メタデータ) (2025-09-09T18:57:27Z) - AEGIS : Automated Co-Evolutionary Framework for Guarding Prompt Injections Schema [39.44407870355891]
AEGISは,プロンプトインジェクションのガードのための自動共進化フレームワークである。
攻撃プロンプトと防御プロンプトは、勾配のような自然言語プロンプト最適化技術を用いて互いに反復的に最適化される。
本研究では,実世界のアサイングレーティングデータセットを用いたインジェクション攻撃の評価を行い,本手法が既存のベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2025-08-27T12:25:45Z) - A Survey on Model Extraction Attacks and Defenses for Large Language Models [55.60375624503877]
モデル抽出攻撃は、デプロイされた言語モデルに重大なセキュリティ脅威をもたらす。
この調査は、抽出攻撃と防御攻撃の包括的分類、機能抽出への攻撃の分類、データ抽出の訓練、およびプロンプトターゲット攻撃を提供する。
モデル保護,データプライバシ保護,迅速なターゲット戦略に編成された防御機構について検討し,その効果を異なる展開シナリオで評価する。
論文 参考訳(メタデータ) (2025-06-26T22:02:01Z) - Robust Anti-Backdoor Instruction Tuning in LVLMs [53.766434746801366]
大規模視覚言語モデル(LVLM)のための軽量で認証に依存しない防御フレームワークについて紹介する。
私たちのフレームワークは、命令チューニングの下で、アダプタモジュールとテキスト埋め込み層のみを微調整します。
Flickr30kとMSCOCOに対する7つの攻撃に対する実験は、我々の攻撃の成功率をほぼゼロに低下させることを示した。
論文 参考訳(メタデータ) (2025-06-04T01:23:35Z) - RADEP: A Resilient Adaptive Defense Framework Against Model Extraction Attacks [6.6680585862156105]
モデル抽出攻撃防御(RADEP)のためのレジリエント・アダプティブ・ディフェンス・フレームワークについて紹介する。
RADEPは、抽出の試みに対するモデルレジリエンスを高めるために、プログレッシブ・逆行訓練を採用している。
オーナーシップ検証は、組み込みのウォーターマーキングとバックドアトリガーを通じて実施される。
論文 参考訳(メタデータ) (2025-05-25T23:28:05Z) - DataSentinel: A Game-Theoretic Detection of Prompt Injection Attacks [87.66245688589977]
LLM統合されたアプリケーションとエージェントは、インジェクション攻撃に弱い。
検出方法は、入力が注入プロンプトによって汚染されているかどうかを判定することを目的とする。
本研究では,迅速なインジェクション攻撃を検出するゲーム理論手法であるDataSentinelを提案する。
論文 参考訳(メタデータ) (2025-04-15T16:26:21Z) - SHIELD: APT Detection and Intelligent Explanation Using LLM [22.944352324963546]
高度な永続的脅威(APT)は、長期にわたって検出されない高度なサイバー攻撃である。
既存のプロファイランスに基づく攻撃検出手法は、しばしば解釈可能性に欠け、高い偽陽性率に悩まされる。
統計的異常検出とグラフに基づく解析と,大規模言語モデルの文脈解析機能を組み合わせた新しい手法である ShiELD を導入する。
論文 参考訳(メタデータ) (2025-02-04T14:20:51Z) - Attention Tracker: Detecting Prompt Injection Attacks in LLMs [62.247841717696765]
大型言語モデル (LLM) は様々なドメインに革命をもたらしたが、インジェクション攻撃に弱いままである。
そこで本研究では,特定の注意点が本来の指示から注入指示へと焦点を移す,注意散逸効果の概念を紹介した。
本研究では,アテンション・トラッカーを提案する。アテンション・トラッカーは,インジェクション・アタックを検出するために,インストラクション上の注意パターンを追跡する訓練不要な検出手法である。
論文 参考訳(メタデータ) (2024-11-01T04:05:59Z) - Defending Large Language Models Against Attacks With Residual Stream Activation Analysis [0.0]
大規模言語モデル(LLM)は敵の脅威に対して脆弱である。
本稿では, LLM へのホワイトボックスアクセスを前提とした, 革新的な防御戦略を提案する。
そこで本研究では,アタックプロンプト分類のための残差ストリームの固有なアクティベーションパターンを解析するための新しい手法を適用した。
論文 参考訳(メタデータ) (2024-06-05T13:06:33Z) - Token-Level Adversarial Prompt Detection Based on Perplexity Measures
and Contextual Information [67.78183175605761]
大規模言語モデルは、敵の迅速な攻撃に影響を受けやすい。
この脆弱性は、LLMの堅牢性と信頼性に関する重要な懸念を浮き彫りにしている。
トークンレベルで敵のプロンプトを検出するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-20T03:17:21Z) - Model-Agnostic Meta-Attack: Towards Reliable Evaluation of Adversarial
Robustness [53.094682754683255]
モデル非依存型メタアタック(MAMA)アプローチにより,より強力な攻撃アルゴリズムを自動検出する。
本手法は、繰り返しニューラルネットワークによってパラメータ化された逆攻撃を学習する。
本研究では,未知の防御を攻撃した場合の学習能力を向上させるために,モデルに依存しない訓練アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-10-13T13:54:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。