論文の概要: TF-Attack: Transferable and Fast Adversarial Attacks on Large Language Models
- arxiv url: http://arxiv.org/abs/2408.13985v1
- Date: Mon, 26 Aug 2024 02:35:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-27 15:12:30.836332
- Title: TF-Attack: Transferable and Fast Adversarial Attacks on Large Language Models
- Title(参考訳): TF-Attack:大規模言語モデルにおける転送可能かつ高速な敵攻撃
- Authors: Zelin Li, Kehai Chen, Xuefeng Bai, Lemao Liu, Mingming Yang, Yang Xiang, Min Zhang,
- Abstract要約: 従来の敵攻撃法は、大きな言語モデル(LLM)に適用した場合、限られた転送可能性を示し、特に非効率である。
LLMに対するTransferableおよびFast攻撃のための新しいスキームTF-Attackを導入する。
提案手法は従来手法を常に上回り,従来の攻撃戦略の最大20倍の速度向上を実現している。
- 参考スコア(独自算出の注目度): 46.33072860649431
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the great advancements in large language models (LLMs), adversarial attacks against LLMs have recently attracted increasing attention. We found that pre-existing adversarial attack methodologies exhibit limited transferability and are notably inefficient, particularly when applied to LLMs. In this paper, we analyze the core mechanisms of previous predominant adversarial attack methods, revealing that 1) the distributions of importance score differ markedly among victim models, restricting the transferability; 2) the sequential attack processes induces substantial time overheads. Based on the above two insights, we introduce a new scheme, named TF-Attack, for Transferable and Fast adversarial attacks on LLMs. TF-Attack employs an external LLM as a third-party overseer rather than the victim model to identify critical units within sentences. Moreover, TF-Attack introduces the concept of Importance Level, which allows for parallel substitutions of attacks. We conduct extensive experiments on 6 widely adopted benchmarks, evaluating the proposed method through both automatic and human metrics. Results show that our method consistently surpasses previous methods in transferability and delivers significant speed improvements, up to 20 times faster than earlier attack strategies.
- Abstract(参考訳): 大規模言語モデル (LLM) の進歩により, LLM に対する敵対的攻撃が近年注目されている。
既存の対向攻撃法は移動性に限界があり,特にLSMに適用した場合,特に非効率であることがわかった。
本稿では,従来主流であった敵攻撃手法のコアメカニズムを解析し,それを明らかにする。
1) 重要得点の分布は,被害者のモデルによって著しく異なり,伝達可能性に制限がある。
2) シーケンシャル・アタック・プロセスは時間的オーバーヘッドを生じさせる。
上記の2つの知見に基づいて, TF-Attack という新しいスキームを導入し, LLM に対するTransferable と Fast の敵攻撃について検討した。
TF-Attack は外部の LLM を被害者モデルではなく第三者の監督者として使用し、文内の重要な単位を識別する。
さらにTF-Attackは、攻撃の並列置換を可能にするImportance Levelの概念を導入している。
我々は6つの広く採用されているベンチマークについて広範な実験を行い、提案手法を自動測定と人為計測の両方で評価した。
その結果,本手法は従来手法をはるかに上回り,従来の攻撃戦略の最大20倍の速度向上を実現していることがわかった。
関連論文リスト
- Chain of Attack: On the Robustness of Vision-Language Models Against Transfer-Based Adversarial Attacks [34.40254709148148]
事前学習された視覚言語モデル(VLM)は、画像および自然言語理解において顕著な性能を示した。
彼らの潜在的な安全性と堅牢性の問題は、敵がシステムを回避し、悪意のある攻撃を通じて有害なコンテンツを生成することを懸念する。
本稿では,マルチモーダルなセマンティック・アップデートに基づいて,敵対的事例の生成を反復的に促進するアタック・チェーン(CoA)を提案する。
論文 参考訳(メタデータ) (2024-11-24T05:28:07Z) - Attention Tracker: Detecting Prompt Injection Attacks in LLMs [62.247841717696765]
大型言語モデル (LLM) は様々なドメインに革命をもたらしたが、インジェクション攻撃に弱いままである。
そこで本研究では,特定の注意点が本来の指示から注入指示へと焦点を移す,注意散逸効果の概念を紹介した。
本研究では,アテンション・トラッカーを提案する。アテンション・トラッカーは,インジェクション・アタックを検出するために,インストラクション上の注意パターンを追跡する訓練不要な検出手法である。
論文 参考訳(メタデータ) (2024-11-01T04:05:59Z) - Defending Large Language Models Against Attacks With Residual Stream Activation Analysis [0.0]
大規模言語モデル(LLM)は敵の脅威に対して脆弱である。
本稿では, LLM へのホワイトボックスアクセスを前提とした, 革新的な防御戦略を提案する。
そこで本研究では,アタックプロンプト分類のための残差ストリームの固有なアクティベーションパターンを解析するための新しい手法を適用した。
論文 参考訳(メタデータ) (2024-06-05T13:06:33Z) - Efficient Generation of Targeted and Transferable Adversarial Examples for Vision-Language Models Via Diffusion Models [17.958154849014576]
大規模視覚言語モデル(VLM)のロバスト性を評価するために、敵対的攻撃を用いることができる。
従来のトランスファーベースの敵攻撃は、高いイテレーション数と複雑なメソッド構造により、高いコストを発生させる。
本稿では, 拡散モデルを用いて, 自然, 制約のない, 対象とする対向的な例を生成するAdvDiffVLMを提案する。
論文 参考訳(メタデータ) (2024-04-16T07:19:52Z) - ASETF: A Novel Method for Jailbreak Attack on LLMs through Translate Suffix Embeddings [58.82536530615557]
本稿では, 連続的な逆接接尾辞埋め込みを一貫性のある, 理解可能なテキストに変換するために, ASETF (Adversarial Suffix Embedding Translation Framework) を提案する。
本手法は,逆接接尾辞の計算時間を著しく短縮し,既存の手法よりもはるかに優れた攻撃成功率を実現する。
論文 参考訳(メタデータ) (2024-02-25T06:46:27Z) - Explainable and Transferable Adversarial Attack for ML-Based Network Intrusion Detectors [24.1840740489442]
機械学習(ML)は、敵の攻撃に対して非常に脆弱であることが証明されている。
NIDSのホワイトボックス攻撃とブラックボックス攻撃はいくつかの研究で研究されている。
本稿では、説明可能な転送ベースのブラックボックスアタックフレームワークであるETAを紹介する。
論文 参考訳(メタデータ) (2024-01-19T13:43:09Z) - Mutual-modality Adversarial Attack with Semantic Perturbation [81.66172089175346]
本稿では,相互モダリティ最適化スキームにおける敵攻撃を生成する新しい手法を提案する。
我々の手法は最先端の攻撃方法より優れており、プラグイン・アンド・プレイ・ソリューションとして容易にデプロイできる。
論文 参考訳(メタデータ) (2023-12-20T05:06:01Z) - A Classification-Guided Approach for Adversarial Attacks against Neural
Machine Translation [66.58025084857556]
我々は,分類器によって誘導されるNMTシステムに対する新たな敵攻撃フレームワークであるACTを紹介する。
本攻撃では,翻訳が本来の翻訳と異なるクラスに属する意味保存的敵の例を作成することを目的としている。
攻撃に対するNMTモデルの堅牢性を評価するため,既存のブラックボックス単語置換攻撃の強化を提案する。
論文 参考訳(メタデータ) (2023-08-29T12:12:53Z) - Set-level Guidance Attack: Boosting Adversarial Transferability of
Vision-Language Pre-training Models [52.530286579915284]
本稿では,視覚言語事前学習モデルの対角移動可能性について検討する。
伝達性劣化は、部分的にはクロスモーダル相互作用のアンダーユース化によって引き起こされる。
本稿では,高度に伝達可能なSGA(Set-level Guidance Attack)を提案する。
論文 参考訳(メタデータ) (2023-07-26T09:19:21Z) - Modeling Adversarial Attack on Pre-trained Language Models as Sequential
Decision Making [10.425483543802846]
敵攻撃タスクは、事前訓練された言語モデル(PLM)が小さな摂動に弱いことを発見した。
本稿では, PLM に対する逆攻撃タスクを逐次決定問題としてモデル化する。
そこで本稿では,SDM-Attack と呼ばれる敵を発生させる適切な逐次攻撃経路を見つけるための強化学習を提案する。
論文 参考訳(メタデータ) (2023-05-27T10:33:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。