論文の概要: Distillability of LLM Security Logic: Predicting Attack Success Rate of Outline Filling Attack via Ranking Regression
- arxiv url: http://arxiv.org/abs/2511.22044v1
- Date: Thu, 27 Nov 2025 02:55:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.366768
- Title: Distillability of LLM Security Logic: Predicting Attack Success Rate of Outline Filling Attack via Ranking Regression
- Title(参考訳): LLMセキュリティ論理の蒸留可能性:ランク付け回帰によるアウトラインフィリング攻撃の攻撃成功率予測
- Authors: Tianyu Zhang, Zihang Xi, Jingyu Hua, Sheng Zhong,
- Abstract要約: 敵のプロンプトの攻撃成功率(ASR)を予測するために設計された軽量モデルはまだ未定である。
本稿では,モデルのセキュリティ境界の厳密なサンプリングを実現するために,改良されたアウトラインフィリング攻撃を組み込んだ新しいフレームワークを提案する。
実験結果から,提案手法は平均長値の相対的ランク付けにおいて,91.1%の精度が得られることがわかった。
- 参考スコア(独自算出の注目度): 10.64873345204336
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the realm of black-box jailbreak attacks on large language models (LLMs), the feasibility of constructing a narrow safety proxy, a lightweight model designed to predict the attack success rate (ASR) of adversarial prompts, remains underexplored. This work investigates the distillability of an LLM's core security logic. We propose a novel framework that incorporates an improved outline filling attack to achieve dense sampling of the model's security boundaries. Furthermore, we introduce a ranking regression paradigm that replaces standard regression and trains the proxy model to predict which prompt yields a higher ASR. Experimental results show that our proxy model achieves an accuracy of 91.1 percent in predicting the relative ranking of average long response (ALR), and 69.2 percent in predicting ASR. These findings confirm the predictability and distillability of jailbreak behaviors, and demonstrate the potential of leveraging such distillability to optimize black-box attacks.
- Abstract(参考訳): 大規模言語モデル(LLM)に対するブラックボックス・ジェイルブレイク攻撃(英語版)の領域では、敵のプロンプトの攻撃成功率(ASR)を予測するために設計された軽量モデルである狭義の安全プロキシ(英語版)の構築の可能性は未解明のままである。
本研究では, LLMのコアセキュリティロジックの蒸留可能性について検討する。
本稿では,モデルのセキュリティ境界の厳密なサンプリングを実現するために,改良されたアウトラインフィリング攻撃を組み込んだ新しいフレームワークを提案する。
さらに、標準回帰を置き換えたランキング回帰パラダイムを導入し、プロキシモデルをトレーニングし、どのプロシージャがより高いASRを出力するかを予測する。
実験の結果,平均長応答の相対的ランク付け(ALR)では91.1%,ASRでは69.2%の精度が得られた。
これらの結果は, 脱獄行動の予測可能性と蒸留可能性を確認し, ブラックボックス攻撃を最適化するための蒸留可能性を示した。
関連論文リスト
- Sampling-aware Adversarial Attacks Against Large Language Models [52.30089653615172]
既存の敵攻撃は、通常、単一点の欲望世代において有害な反応を標的とする。
本研究では,有害な応答を抽出する目的のために,攻撃時のモデル出力の繰り返しサンプリングを行う。
既存の攻撃にサンプリングを統合することで、成功率が最大37%向上し、最大2桁の効率が向上することを示す。
論文 参考訳(メタデータ) (2025-07-06T16:13:33Z) - Explainer-guided Targeted Adversarial Attacks against Binary Code Similarity Detection Models [12.524811181751577]
我々は,BCSDモデルに対する敵攻撃に対する新たな最適化を提案する。
特に,攻撃目標は,モデル予測を特定の範囲に制限することである。
我々の攻撃は、モデル決定境界の解釈において、ブラックボックス、モデルに依存しない説明器の優れた能力を活用する。
論文 参考訳(メタデータ) (2025-06-05T08:29:19Z) - MISLEADER: Defending against Model Extraction with Ensembles of Distilled Models [56.09354775405601]
モデル抽出攻撃は、クエリアクセスを通じてブラックボックスモデルの機能を複製することを目的としている。
既存のディフェンスでは、アタッカークエリにはオフ・オブ・ディストリビューション(OOD)サンプルがあることを前提としており、不審な入力を検出し破壊することができる。
OOD仮定に依存しない新しい防衛戦略であるMISLEADERを提案する。
論文 参考訳(メタデータ) (2025-06-03T01:37:09Z) - Uncertainty is Fragile: Manipulating Uncertainty in Large Language Models [79.76293901420146]
大規模言語モデル(LLM)は、出力の信頼性が不可欠である様々な高い領域で採用されている。
本研究では,不確実性推定の脆弱性を調査し,攻撃の可能性を探る。
攻撃者がLSMにバックドアを埋め込むことができ、入力中の特定のトリガーによって起動されると、最終的な出力に影響を与えることなくモデルの不確実性を操作できることを示す。
論文 参考訳(メタデータ) (2024-07-15T23:41:11Z) - Learn from the Past: A Proxy Guided Adversarial Defense Framework with
Self Distillation Regularization [53.04697800214848]
敵対的訓練(AT)は、ディープラーニングモデルの堅牢性を固める上で重要な要素である。
AT方式は、目標モデルの防御のために直接反復的な更新を頼りにしており、不安定な訓練や破滅的なオーバーフィッティングといった障害に頻繁に遭遇する。
汎用プロキシガイド型防衛フレームワークLAST(bf Pbf astから学ぶ)を提案する。
論文 参考訳(メタデータ) (2023-10-19T13:13:41Z) - FLIP: A Provable Defense Framework for Backdoor Mitigation in Federated
Learning [66.56240101249803]
我々は,クライアントの強固化がグローバルモデル(および悪意のあるクライアント)に与える影響について検討する。
本稿では, 逆エンジニアリングによる防御手法を提案するとともに, 堅牢性を保証して, 改良を実現できることを示す。
競合する8つのSOTA防御法について, 単発および連続のFLバックドア攻撃に対して, 提案手法の実証的優位性を示した。
論文 参考訳(メタデータ) (2022-10-23T22:24:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。