論文の概要: Target-driven Attack for Large Language Models
- arxiv url: http://arxiv.org/abs/2411.07268v2
- Date: Wed, 13 Nov 2024 11:28:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-14 12:31:47.189610
- Title: Target-driven Attack for Large Language Models
- Title(参考訳): 大規模言語モデルに対するターゲット駆動型攻撃
- Authors: Chong Zhang, Mingyu Jin, Dong Shu, Taowen Wang, Dongfang Liu, Xiaobo Jin,
- Abstract要約: クリーンテキストと攻撃テキストの条件付き確率のKL差を最大化するターゲット駆動型ブラックボックス攻撃法を提案する。
複数の大規模言語モデルとデータセットの実験結果から,攻撃手法の有効性が示された。
- 参考スコア(独自算出の注目度): 14.784132523066567
- License:
- Abstract: Current large language models (LLM) provide a strong foundation for large-scale user-oriented natural language tasks. Many users can easily inject adversarial text or instructions through the user interface, thus causing LLM model security challenges like the language model not giving the correct answer. Although there is currently a large amount of research on black-box attacks, most of these black-box attacks use random and heuristic strategies. It is unclear how these strategies relate to the success rate of attacks and thus effectively improve model robustness. To solve this problem, we propose our target-driven black-box attack method to maximize the KL divergence between the conditional probabilities of the clean text and the attack text to redefine the attack's goal. We transform the distance maximization problem into two convex optimization problems based on the attack goal to solve the attack text and estimate the covariance. Furthermore, the projected gradient descent algorithm solves the vector corresponding to the attack text. Our target-driven black-box attack approach includes two attack strategies: token manipulation and misinformation attack. Experimental results on multiple Large Language Models and datasets demonstrate the effectiveness of our attack method.
- Abstract(参考訳): 現在の大規模言語モデル(LLM)は、大規模ユーザ指向自然言語タスクの強力な基盤を提供する。
多くのユーザは、ユーザインターフェースを通じて、逆テキストや命令を簡単に注入できるため、言語モデルのようなLLMモデルのセキュリティ上の課題が正しい答えを与えない。
現在、ブラックボックス攻撃に関する多くの研究があるが、ブラックボックス攻撃のほとんどはランダムでヒューリスティックな戦略を使っている。
これらの戦略が攻撃の成功率とどのように関係し、モデルロバスト性を効果的に改善するかは不明である。
そこで本研究では,クリーンテキストの条件付き確率と攻撃テキストとのKLのばらつきを最大化し,攻撃目標を再定義するターゲット駆動型ブラックボックス攻撃手法を提案する。
本研究では,攻撃目標に基づいて距離最大化問題を2つの凸最適化問題に変換し,その共分散を推定する。
さらに、投射勾配降下アルゴリズムは、攻撃テキストに対応するベクトルを解く。
ターゲット駆動型ブラックボックスアタックアプローチには,トークン操作と誤情報アタックという2つの攻撃戦略がある。
複数の大規模言語モデルとデータセットの実験結果から,攻撃手法の有効性が示された。
関連論文リスト
- A Realistic Threat Model for Large Language Model Jailbreaks [87.64278063236847]
本研究では,ジェイルブレイク攻撃の原理的比較のための統一的脅威モデルを提案する。
私たちの脅威モデルは、パープレキシティの制約を組み合わせることで、ジェイルブレイクが自然のテキストからどれだけ逸脱するかを測定します。
我々は、この新しい現実的な脅威モデルに人気のある攻撃を適用する。
論文 参考訳(メタデータ) (2024-10-21T17:27:01Z) - Ask, Attend, Attack: A Effective Decision-Based Black-Box Targeted Attack for Image-to-Text Models [29.1607388062023]
本稿では,攻撃者が最終出力テキストにのみアクセスし,標的攻撃を行うことを目的とした決定ベースのブラックボックス攻撃という,困難なシナリオに焦点を当てる。
3段階のプロセス textitAsk, Attend, Attack は textitAAA と呼ばれ、解決者と協調するために提案されている。
Transformer-basedおよびCNN+RNN-based image-to-text modelの実験結果から,提案したtextitAAAの有効性が確認された。
論文 参考訳(メタデータ) (2024-08-16T19:35:06Z) - Learning diverse attacks on large language models for robust red-teaming and safety tuning [126.32539952157083]
レッドチーム、あるいは有害な応答を誘発するプロンプトの特定は、大きな言語モデルの安全なデプロイを保証するための重要なステップである。
新規性と多様性を優先する明確な規則化であっても、既存のアプローチはモード崩壊または効果的な攻撃を発生させることができないことを示す。
我々は,GFlowNetの微調整と二次平滑化フェーズを用いて,多種多様な効果的な攻撃プロンプトを生成するために攻撃モデルを訓練することを提案する。
論文 参考訳(メタデータ) (2024-05-28T19:16:17Z) - Goal-guided Generative Prompt Injection Attack on Large Language Models [6.175969971471705]
大規模言語モデル(LLM)は、大規模ユーザ指向自然言語タスクの強力な基盤を提供する。
多数のユーザは、ユーザインターフェースを通じて、逆テキストや命令を容易に注入することができる。
これらの戦略が攻撃の成功率とどのように関係し、モデルセキュリティを効果的に改善するかは不明である。
論文 参考訳(メタデータ) (2024-04-06T06:17:10Z) - Transferable Attack for Semantic Segmentation [59.17710830038692]
敵が攻撃し、ソースモデルから生成された敵の例がターゲットモデルを攻撃するのに失敗するのを観察します。
本研究では, セマンティックセグメンテーションのためのアンサンブルアタックを提案する。
論文 参考訳(メタデータ) (2023-07-31T11:05:55Z) - Versatile Weight Attack via Flipping Limited Bits [68.45224286690932]
本研究では,展開段階におけるモデルパラメータを変更する新たな攻撃パラダイムについて検討する。
有効性とステルスネスの目標を考慮し、ビットフリップに基づく重み攻撃を行うための一般的な定式化を提供する。
SSA(Single sample attack)とTSA(Singr sample attack)の2例を報告した。
論文 参考訳(メタデータ) (2022-07-25T03:24:58Z) - Parallel Rectangle Flip Attack: A Query-based Black-box Attack against
Object Detection [89.08832589750003]
本稿では,攻撃領域近傍の準最適検出を回避するために,ランダム探索による並列矩形フリップ攻撃(PRFA)を提案する。
提案手法は, アンカーベースやアンカーフリーなど, 様々な人気物体検出装置を効果的かつ効率的に攻撃し, 転送可能な対向例を生成する。
論文 参考訳(メタデータ) (2022-01-22T06:00:17Z) - Multi-granularity Textual Adversarial Attack with Behavior Cloning [4.727534308759158]
我々は,被害者モデルに対するクエリが少なく,高品質な対数サンプルを生成するためのマルチグラムYアタックモデルMAYAを提案する。
2つの異なるブラックボックス攻撃設定と3つのベンチマークデータセットでBiLSTM,BERT,RoBERTaを攻撃し、攻撃モデルを評価するための総合的な実験を行った。
論文 参考訳(メタデータ) (2021-09-09T15:46:45Z) - Towards Variable-Length Textual Adversarial Attacks [68.27995111870712]
データの離散性のため、自然言語処理タスクに対してテキストによる敵意攻撃を行うことは非自明である。
本稿では,可変長テキスト対比攻撃(VL-Attack)を提案する。
本手法は、iwslt14ドイツ語英訳で3,18$ bleuスコアを達成でき、ベースラインモデルより1.47$改善できる。
論文 参考訳(メタデータ) (2021-04-16T14:37:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。