論文の概要: LoFT: Local Proxy Fine-tuning For Improving Transferability Of
Adversarial Attacks Against Large Language Model
- arxiv url: http://arxiv.org/abs/2310.04445v1
- Date: Mon, 2 Oct 2023 23:29:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-15 14:36:39.470838
- Title: LoFT: Local Proxy Fine-tuning For Improving Transferability Of
Adversarial Attacks Against Large Language Model
- Title(参考訳): LoFT:大規模言語モデルに対する敵対的攻撃の伝達性を改善するローカルプロキシファインニング
- Authors: Muhammad Ahmed Shah, Roshan Sharma, Hira Dhamyal, Raphael Olivier,
Ankit Shah, Dareen Alharthi, Hazim T Bukhari, Massa Baali, Soham Deshmukh,
Michael Kuhlmann, Bhiksha Raj, Rita Singh
- Abstract要約: プロキシモデルの局所的な微調整は、攻撃の転送可能性を改善し、ターゲットモデルであるChatGPT、GPT-4、Claudeの攻撃成功率を39%、$7%、$0.5%(絶対)に向上させる。
- 参考スコア(独自算出の注目度): 29.53124412382675
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: It has been shown that Large Language Model (LLM) alignments can be
circumvented by appending specially crafted attack suffixes with harmful
queries to elicit harmful responses. To conduct attacks against private target
models whose characterization is unknown, public models can be used as proxies
to fashion the attack, with successful attacks being transferred from public
proxies to private target models. The success rate of attack depends on how
closely the proxy model approximates the private model. We hypothesize that for
attacks to be transferrable, it is sufficient if the proxy can approximate the
target model in the neighborhood of the harmful query. Therefore, in this
paper, we propose \emph{Local Fine-Tuning (LoFT)}, \textit{i.e.}, fine-tuning
proxy models on similar queries that lie in the lexico-semantic neighborhood of
harmful queries to decrease the divergence between the proxy and target models.
First, we demonstrate three approaches to prompt private target models to
obtain similar queries given harmful queries. Next, we obtain data for local
fine-tuning by eliciting responses from target models for the generated similar
queries. Then, we optimize attack suffixes to generate attack prompts and
evaluate the impact of our local fine-tuning on the attack's success rate.
Experiments show that local fine-tuning of proxy models improves attack
transferability and increases attack success rate by $39\%$, $7\%$, and $0.5\%$
(absolute) on target models ChatGPT, GPT-4, and Claude respectively.
- Abstract(参考訳): 有害な応答を誘導するために,攻撃接尾辞に有害なクエリを付加することにより,LLMアライメントを回避できることが示されている。
特徴が不明なプライベートターゲットモデルに対する攻撃を行うため、パブリックモデルをプロキシとして使用し、パブリックプロキシからプライベートターゲットモデルへの攻撃を成功させる。
攻撃の成功率は、プロキシモデルがプライベートモデルにどの程度近いかに依存する。
我々は、攻撃が転送可能であるためには、プロキシが有害なクエリの近傍でターゲットモデルを近似できるなら十分である、と仮定する。
そこで本稿では, 有害なクエリのレキシコ・セマンティックな近傍に位置する類似クエリ上で, プロキシとターゲットモデルとのばらつきを低減するための, 微調整プロキシモデルである \emph{Local Fine-Tuning (LoFT)} を提案する。
まず、有害なクエリに対して類似したクエリを取得するために、プライベートなターゲットモデルを促す3つのアプローチを実証する。
次に、生成した類似クエリに対するターゲットモデルからの応答を抽出し、局所的な微調整のためのデータを得る。
そして,攻撃プロンプトを生成するために攻撃接尾辞を最適化し,攻撃の成功率に対する局所的微調整の影響を評価する。
実験により、プロキシモデルの局所的な微調整により攻撃伝達性が向上し、攻撃成功率を目標モデルのchatgpt、gpt-4、claudeでそれぞれ39\%$、$7\%$、$0.5\%$(絶対的)に向上することが示されている。
関連論文リスト
- A Realistic Threat Model for Large Language Model Jailbreaks [87.64278063236847]
本研究では,ジェイルブレイク攻撃の原理的比較のための統一的脅威モデルを提案する。
私たちの脅威モデルは、パープレキシティの制約を組み合わせることで、ジェイルブレイクが自然のテキストからどれだけ逸脱するかを測定します。
我々は、この新しい現実的な脅威モデルに人気のある攻撃を適用する。
論文 参考訳(メタデータ) (2024-10-21T17:27:01Z) - QUEEN: Query Unlearning against Model Extraction [22.434812818540966]
モデル抽出攻撃は、ディープラーニングモデルのセキュリティとプライバシに対して、無視できない脅威となる。
本稿では,QUEEN(QUEry unlEarNing)を提案する。
論文 参考訳(メタデータ) (2024-07-01T13:01:41Z) - Query-Based Adversarial Prompt Generation [67.238873588125]
我々は、アライメント言語モデルが有害な文字列を出力する原因となる敵の例を構築します。
GPT-3.5とOpenAIの安全分類器に対する攻撃を検証する。
論文 参考訳(メタデータ) (2024-02-19T18:01:36Z) - DTA: Distribution Transform-based Attack for Query-Limited Scenario [11.874670564015789]
敵の例を生成する際、従来のブラックボックス攻撃法は攻撃対象モデルからの十分なフィードバックに依存している。
本稿では,攻撃された動作が限られた数のクエリを実行可能であることをシミュレートするハードラベル攻撃を提案する。
提案したアイデアの有効性とDTAの最先端性を検証する実験を行った。
論文 参考訳(メタデータ) (2023-12-12T13:21:03Z) - Transferable Attack for Semantic Segmentation [59.17710830038692]
敵が攻撃し、ソースモデルから生成された敵の例がターゲットモデルを攻撃するのに失敗するのを観察します。
本研究では, セマンティックセグメンテーションのためのアンサンブルアタックを提案する。
論文 参考訳(メタデータ) (2023-07-31T11:05:55Z) - MPAF: Model Poisoning Attacks to Federated Learning based on Fake
Clients [51.973224448076614]
本稿では,MPAF と呼ばれる Fake クライアントをベースとした最初のモデルポジショニング攻撃を提案する。
MPAFは、たとえ古典的な防御とノルムクリッピングが採用されたとしても、グローバルモデルのテスト精度を著しく低下させることができる。
論文 参考訳(メタデータ) (2022-03-16T14:59:40Z) - Target Model Agnostic Adversarial Attacks with Query Budgets on Language
Understanding Models [14.738950386902518]
攻撃対象モデルに対して高い攻撃伝達性を有する目標モデル逆攻撃法を提案する。
実験により,本手法は,限られたクエリ予算の制約の下で,高度に伝達可能な文を生成することを示す。
論文 参考訳(メタデータ) (2021-06-13T17:18:19Z) - Learning to Attack: Towards Textual Adversarial Attacking in Real-world
Situations [81.82518920087175]
敵攻撃は、敵の例でディープニューラルネットワークを騙すことを目的としている。
本稿では、攻撃履歴から学習し、より効率的に攻撃を開始することができる強化学習に基づく攻撃モデルを提案する。
論文 参考訳(メタデータ) (2020-09-19T09:12:24Z) - Adversarial Imitation Attack [63.76805962712481]
現実的な敵攻撃は、攻撃されたモデルの知識をできるだけ少なくする必要がある。
現在の代替攻撃では、敵の例を生成するために事前訓練されたモデルが必要である。
本研究では,新たな敵模倣攻撃を提案する。
論文 参考訳(メタデータ) (2020-03-28T10:02:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。