論文の概要: Black-box, Adaptive, Efficient, Transferable, Harmful, Applicable... Attacks Are All You Need to Break LLMs
- arxiv url: http://arxiv.org/abs/2606.03647v1
- Date: Tue, 02 Jun 2026 13:39:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 22:00:05.035291
- Title: Black-box, Adaptive, Efficient, Transferable, Harmful, Applicable... Attacks Are All You Need to Break LLMs
- Title(参考訳): ブラックボックス、適応性、効率性、転送性、ハームフル、適用性...LLMを壊すのに必要なのはアタック
- Authors: Vincent Limbach, Jonas Dornbusch, David Lüdke, Stephan Günnemann, Leo Schwinn,
- Abstract要約: 欠陥のある攻撃設計は、ロバスト性の推定を増大させ、デプロイメントのリスク評価と防御比較を信頼できないものにすることができる。
Indirect Harm Optimization (IHO) は、有害判定に対する反復的選好最適化によって訓練された、マスク付き拡散言語モデルアタッカーである。
以上の結果から,IHOは従来,信頼性を向上した標準化されたジェイルブレイク評価への実践的な一歩と位置づけた。
- 参考スコア(独自算出の注目度): 47.53613000473204
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accurately evaluating adversarial robustness is a longstanding challenge. A flawed attack design can inflate robustness estimates, making deployment risk assessment and defense comparison unreliable. Historically, standardized attacks such as AutoAttack have largely resolved this for image classifiers, providing a reliable evaluation baseline for systematic comparison across defenses. However, no equivalent exists for LLM jailbreak evaluation yet, where designing such an attack is considerably more difficult. A reliable attack must, among other things, be black-box compatible, applicable to arbitrary defense pipelines, and efficient, which no existing method jointly satisfies. We introduce Indirect Harm Optimization (IHO), a masked diffusion language model attacker trained via iterative preference optimization against a harmfulness judge, requiring only black-box access to the target. The same method can be used without modification as a strong adaptive attack on individual behaviors, or as an efficient amortized policy that transfers to held-out behaviors and unseen target models without fine-tuning. Even against layered defenses, such as a Circuit Breaker-trained model combined with an auxiliary detector, IHO improves attack success considerably over state-of-the-art approaches, without any defense-specific adaptation. Our results position IHO as a practical step toward the kind of standardized jailbreak evaluation that has improved reliability in the past. Code and models are available on GitHub and Hugging Face.
- Abstract(参考訳): 敵の堅牢性を正確に評価することは、長年にわたる課題である。
欠陥のある攻撃設計は、ロバスト性の推定を増大させ、デプロイメントのリスク評価と防御比較を信頼できないものにすることができる。
歴史的に、AutoAttackのような標準化された攻撃は、画像分類器に対してこれを大々的に解決し、防御の体系的比較のための信頼性の高い評価基準を提供する。
しかし、LLMのジェイルブレイク評価には、そのような攻撃を設計することがかなり困難であるような同等のものはまだ存在しない。
信頼できる攻撃は、ブラックボックス互換で、任意の防御パイプラインに適用でき、効率的で、既存の方法では満足できない。
Indirect Harm Optimization (IHO) は、標的へのブラックボックスアクセスのみを必要とする有害判定に対して反復的優先最適化によって訓練された、マスク付き拡散言語モデルアタッカーである。
同じ方法は、個々の行動に対する強い適応攻撃や、ホールドアウト行動や未確認ターゲットモデルに微調整なしで転送する効率的な償却ポリシーとして、変更することなく使用できる。
サーキットブレーカー(Circuit Breaker)を訓練したモデルと補助検出器の組み合わせのような層状防御に対しても、IHOは防御固有の適応を伴わずに、最先端のアプローチよりも攻撃の成功を大幅に改善する。
以上の結果から,IHOは従来,信頼性を向上した標準化されたジェイルブレイク評価への実践的な一歩と位置づけた。
コードとモデルはGitHubとHugging Faceで入手できる。
関連論文リスト
- Dashed Line Defense: Plug-And-Play Defense Against Adaptive Score-Based Query Attacks [3.206339985805037]
ダッシュラインディフェンス(Dashed Line Defense, DLD)は、適応的なクエリ戦略に対処するために設計された、プラグアンドプレイのポストプロセッシング手法である。
DLDは、観測された損失がどのように真の敵の強さを反映しているかの曖昧さを導入することで、攻撃者がクエリを確実に分析し、適応することを防ぐ。
我々は,DLDの防御能力を理論的に保証し,ImageNetの実験を通じてその有効性を検証する。
論文 参考訳(メタデータ) (2026-02-09T14:02:32Z) - MISLEADER: Defending against Model Extraction with Ensembles of Distilled Models [56.09354775405601]
モデル抽出攻撃は、クエリアクセスを通じてブラックボックスモデルの機能を複製することを目的としている。
既存のディフェンスでは、アタッカークエリにはオフ・オブ・ディストリビューション(OOD)サンプルがあることを前提としており、不審な入力を検出し破壊することができる。
OOD仮定に依存しない新しい防衛戦略であるMISLEADERを提案する。
論文 参考訳(メタデータ) (2025-06-03T01:37:09Z) - OET: Optimization-based prompt injection Evaluation Toolkit [25.148709805243836]
大規模言語モデル(LLM)は、自然言語の理解と生成において顕著な能力を示した。
インジェクション攻撃に対する感受性は、重大なセキュリティリスクを生じさせる。
多くの防衛戦略にもかかわらず、その効果を厳格に評価する標準化された枠組みが欠如している。
論文 参考訳(メタデータ) (2025-05-01T20:09:48Z) - AegisLLM: Scaling Agentic Systems for Self-Reflective Defense in LLM Security [74.22452069013289]
AegisLLMは、敵の攻撃や情報漏洩に対する協調的なマルチエージェント防御である。
テスト時のエージェント推論システムのスケーリングは,モデルの有用性を損なうことなく,ロバスト性を大幅に向上させることを示す。
アンラーニングやジェイルブレイクを含む主要な脅威シナリオに対する総合的な評価は、AegisLLMの有効性を示している。
論文 参考訳(メタデータ) (2025-04-29T17:36:05Z) - DTA: Distribution Transform-based Attack for Query-Limited Scenario [11.874670564015789]
敵の例を生成する際、従来のブラックボックス攻撃法は攻撃対象モデルからの十分なフィードバックに依存している。
本稿では,攻撃された動作が限られた数のクエリを実行可能であることをシミュレートするハードラベル攻撃を提案する。
提案したアイデアの有効性とDTAの最先端性を検証する実験を行った。
論文 参考訳(メタデータ) (2023-12-12T13:21:03Z) - How to Robustify Black-Box ML Models? A Zeroth-Order Optimization
Perspective [74.47093382436823]
入力クエリと出力フィードバックだけでブラックボックスモデルを堅牢化する方法?
我々は,ブラックボックスモデルに適用可能な防御操作の一般的な概念を提案し,それを復号化スムーシング(DS)のレンズを通して設計する。
我々は,ZO-AE-DSが既存のベースラインよりも精度,堅牢性,クエリの複雑さを向上できることを実証的に示す。
論文 参考訳(メタデータ) (2022-03-27T03:23:32Z) - Practical Evaluation of Adversarial Robustness via Adaptive Auto Attack [96.50202709922698]
実用的な評価手法は、便利な(パラメータフリー)、効率的な(イテレーションの少ない)、信頼性を持つべきである。
本稿では,パラメータフリーな適応オートアタック (A$3$) 評価手法を提案する。
論文 参考訳(メタデータ) (2022-03-10T04:53:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。