論文の概要: Model Leeching: An Extraction Attack Targeting LLMs
- arxiv url: http://arxiv.org/abs/2309.10544v1
- Date: Tue, 19 Sep 2023 11:45:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-20 14:43:03.727986
- Title: Model Leeching: An Extraction Attack Targeting LLMs
- Title(参考訳): モデルリーチング:llmをターゲットにした抽出攻撃
- Authors: Lewis Birch, William Hackett, Stefan Trawicki, Neeraj Suri, Peter
Garraghan
- Abstract要約: Model Leechingは、Large Language Models (LLM)をターゲットにした新しい抽出攻撃である。
また,ChatGPT-3.5-Turbo からタスク能力を抽出し,SQuAD EM と F1 の精度スコアを 75% と 87% の精度で,API コストで50 ドルに抑えた。
- 参考スコア(独自算出の注目度): 4.533013952442819
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Model Leeching is a novel extraction attack targeting Large Language Models
(LLMs), capable of distilling task-specific knowledge from a target LLM into a
reduced parameter model. We demonstrate the effectiveness of our attack by
extracting task capability from ChatGPT-3.5-Turbo, achieving 73% Exact Match
(EM) similarity, and SQuAD EM and F1 accuracy scores of 75% and 87%,
respectively for only $50 in API cost. We further demonstrate the feasibility
of adversarial attack transferability from an extracted model extracted via
Model Leeching to perform ML attack staging against a target LLM, resulting in
an 11% increase to attack success rate when applied to ChatGPT-3.5-Turbo.
- Abstract(参考訳): Model Leechingは、Large Language Models (LLMs)をターゲットにした新しい抽出攻撃であり、ターゲットのLLMからタスク固有の知識を縮小パラメータモデルに蒸留することができる。
chatgpt-3.5-turboからタスク能力を抽出し、73%の完全一致(em)類似度を達成し、squad emとf1の精度スコア75%と87%をそれぞれapiコストわずか50ドルで示すことで、攻撃の有効性を実証した。
さらに,モデルリーチングを用いて抽出したモデルから抽出した敵の攻撃伝達可能性を実証し,ChatGPT-3.5-Turboに適用した場合の攻撃成功率を11%向上させる。
関連論文リスト
- LLMStinger: Jailbreaking LLMs using RL fine-tuned LLMs [13.36946005380889]
LLMStingerはLarge Language Models(LLMs)を利用して、jailbreak攻撃の逆サフィックスを自動的に生成する新しいアプローチである。
LLaMA2-7B-chatでの攻撃成功率(ASR)は57.2%向上し,Claude 2では+50.3%向上した。
論文 参考訳(メタデータ) (2024-11-13T18:44:30Z) - LLM Robustness Against Misinformation in Biomedical Question Answering [50.98256373698759]
探索拡張生成(RAG)アプローチは,質問応答のための大規模言語モデル(LLM)の折り畳みを低減するために用いられる。
バイオメディカル質問に対する誤報に対する4つのLDMの有効性とロバスト性を評価した。
論文 参考訳(メタデータ) (2024-10-27T16:23:26Z) - Defending Large Language Models Against Attacks With Residual Stream Activation Analysis [0.0]
大規模言語モデル(LLM)は敵の脅威に対して脆弱である。
本稿では, LLM へのホワイトボックスアクセスを前提とした, 革新的な防御戦略を提案する。
そこで本研究では,アタックプロンプト分類のための残差ストリームの固有なアクティベーションパターンを解析するための新しい手法を適用した。
論文 参考訳(メタデータ) (2024-06-05T13:06:33Z) - Improved Generation of Adversarial Examples Against Safety-aligned LLMs [72.38072942860309]
勾配に基づく手法を用いて生成した敵対的プロンプトは、安全対応のLDMに対して自動ジェイルブレイク攻撃を行う際、優れた性能を示す。
本稿では,この問題に対する新たな視点を探求し,トランスファーベースの攻撃にインスパイアされたイノベーションを活用することで緩和できることを示唆する。
この組み合わせによって生成されたクエリ固有逆接接尾辞の87%がLlama-2-7B-Chatを誘導し、AdvBench上のターゲット文字列と正確に一致する出力を生成することを示した。
論文 参考訳(メタデータ) (2024-05-28T06:10:12Z) - TuBA: Cross-Lingual Transferability of Backdoor Attacks in LLMs with Instruction Tuning [63.481446315733145]
多言語大言語モデル(LLM)に対する言語間バックドア攻撃は未調査である。
本研究は, 教育指導データが有毒でない言語に対して, 教育指導データの有毒化がアウトプットに与える影響について検討した。
本手法は,mT5 や GPT-4o などのモデルにおいて,高い攻撃成功率を示し,12言語中7言語以上で90%以上を突破した。
論文 参考訳(メタデータ) (2024-04-30T14:43:57Z) - PAL: Proxy-Guided Black-Box Attack on Large Language Models [55.57987172146731]
大規模言語モデル(LLM)は近年人気が高まっているが、操作時に有害なコンテンツを生成する能力を示している。
PAL(Proxy-Guided Attack on LLMs)は, ブラックボックスクエリのみの設定で, LLMに対する最初の最適化ベースの攻撃である。
GPT-3.5-Turboの攻撃成功率は84%,Llama-2-7Bの攻撃成功率は48%であった。
論文 参考訳(メタデータ) (2024-02-15T02:54:49Z) - Data-Free Hard-Label Robustness Stealing Attack [67.41281050467889]
本稿では,Data-Free Hard-Label Robustness Stealing(DFHL-RS)攻撃について紹介する。
ターゲットモデルのハードラベルをクエリするだけで、モデル精度とロバスト性の両方を盗むことができる。
本手法は,AutoAttackに対して77.86%,頑健な39.51%の精度を実現する。
論文 参考訳(メタデータ) (2023-12-10T16:14:02Z) - Exposing Limitations of Language Model Agents in Sequential-Task
Compositions on the Web [74.76803612807949]
言語モデルエージェント(LMA)は、ミューティステップ決定タスクにおける有望なパラダイムとして登場した。
約束にもかかわらず、現実世界のアプリケーションでの彼らのパフォーマンスはまだ過小評価されている。
既存のLMAはベースタスクで平均94.0%の成功率を達成したが、その性能は構成タスクで平均24.9%に低下した。
論文 参考訳(メタデータ) (2023-11-30T17:50:47Z) - Controlling the Extraction of Memorized Data from Large Language Models
via Prompt-Tuning [14.228909822681373]
大規模言語モデル(LLM)は、トレーニングデータのかなりの部分を記憶することが知られている。
本稿では, LLMにおける暗記コンテンツの抽出速度を制御するために, プロンプトチューニングを用いた新しい手法を提案する。
論文 参考訳(メタデータ) (2023-05-19T15:45:29Z) - Targeted Attack on GPT-Neo for the SATML Language Model Data Extraction
Challenge [4.438873396405334]
SATML2023言語モデル学習データ抽出チャレンジにターゲットデータ抽出攻撃を適用する。
モデルのリコールを最大化し,サンプルの69%の接尾辞を抽出できる。
提案手法は10パーセントの偽陽性率で0.405リコールに達し, 0.301のベースラインよりも34%向上した。
論文 参考訳(メタデータ) (2023-02-13T18:00:44Z) - Learning to Ignore Adversarial Attacks [14.24585085013907]
攻撃トークンの無視を明示的に学習する合理化モデルを導入する。
その結果,攻撃トークンの90%以上を合理的に無視できることがわかった。
論文 参考訳(メタデータ) (2022-05-23T18:01:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。