論文の概要: Model Leeching: An Extraction Attack Targeting LLMs
- arxiv url: http://arxiv.org/abs/2309.10544v1
- Date: Tue, 19 Sep 2023 11:45:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-20 14:43:03.727986
- Title: Model Leeching: An Extraction Attack Targeting LLMs
- Title(参考訳): モデルリーチング:llmをターゲットにした抽出攻撃
- Authors: Lewis Birch, William Hackett, Stefan Trawicki, Neeraj Suri, Peter
Garraghan
- Abstract要約: Model Leechingは、Large Language Models (LLM)をターゲットにした新しい抽出攻撃である。
また,ChatGPT-3.5-Turbo からタスク能力を抽出し,SQuAD EM と F1 の精度スコアを 75% と 87% の精度で,API コストで50 ドルに抑えた。
- 参考スコア(独自算出の注目度): 4.533013952442819
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Model Leeching is a novel extraction attack targeting Large Language Models
(LLMs), capable of distilling task-specific knowledge from a target LLM into a
reduced parameter model. We demonstrate the effectiveness of our attack by
extracting task capability from ChatGPT-3.5-Turbo, achieving 73% Exact Match
(EM) similarity, and SQuAD EM and F1 accuracy scores of 75% and 87%,
respectively for only $50 in API cost. We further demonstrate the feasibility
of adversarial attack transferability from an extracted model extracted via
Model Leeching to perform ML attack staging against a target LLM, resulting in
an 11% increase to attack success rate when applied to ChatGPT-3.5-Turbo.
- Abstract(参考訳): Model Leechingは、Large Language Models (LLMs)をターゲットにした新しい抽出攻撃であり、ターゲットのLLMからタスク固有の知識を縮小パラメータモデルに蒸留することができる。
chatgpt-3.5-turboからタスク能力を抽出し、73%の完全一致(em)類似度を達成し、squad emとf1の精度スコア75%と87%をそれぞれapiコストわずか50ドルで示すことで、攻撃の有効性を実証した。
さらに,モデルリーチングを用いて抽出したモデルから抽出した敵の攻撃伝達可能性を実証し,ChatGPT-3.5-Turboに適用した場合の攻撃成功率を11%向上させる。
関連論文リスト
- Transferring Troubles: Cross-Lingual Transferability of Backdoor Attacks in LLMs with Instruction Tuning [63.481446315733145]
本研究は多言語モデルに対する言語間バックドア攻撃に焦点を当てている。
本研究では,教育指導データが有毒でない言語において,教育指導データが1つか2つの言語でどのように影響するかを検討する。
本手法は, mT5, BLOOM, GPT-3.5-turbo などのモデルにおいて, 高い攻撃成功率を示し, 複数の言語で95%を突破した。
論文 参考訳(メタデータ) (2024-04-30T14:43:57Z) - Investigating the prompt leakage effect and black-box defenses for multi-turn LLM interactions [125.21418304558948]
大きな言語モデル(LLM)の漏洩は、セキュリティとプライバシの重大な脅威を引き起こす。
マルチターンLDM相互作用の漏洩と緩和戦略は、標準化された方法では研究されていない。
本稿では,4つの異なるドメインと10のクローズドおよびオープンソース LLM にまたがる急激なリークに対するLSM 脆弱性について検討する。
論文 参考訳(メタデータ) (2024-04-24T23:39:58Z) - Goal-guided Generative Prompt Injection Attack on Large Language Models [6.175969971471705]
大規模言語モデル(LLM)は、大規模ユーザ指向自然言語タスクの強力な基盤を提供する。
多数のユーザは、ユーザインターフェースを通じて、逆テキストや命令を容易に注入することができる。
これらの戦略が攻撃の成功率とどのように関係し、モデルセキュリティを効果的に改善するかは不明である。
論文 参考訳(メタデータ) (2024-04-06T06:17:10Z) - How Easy is It to Fool Your Multimodal LLMs? An Empirical Analysis on
Deceptive Prompts [59.07350713048311]
提案するMAD-Benchは,既存オブジェクト,オブジェクト数,空間関係,視覚的混乱など,850の試験サンプルを6つのカテゴリに分けたベンチマークである。
GPT-4V, Gemini-Pro から LLaVA-1.5 や CogVLM などのオープンソースモデルに至るまで,一般的な MLLM を包括的に分析する。
GPT-4VはMAD-Benchで75.02%の精度を達成するが、実験中の他のモデルの精度は5%から35%である。
論文 参考訳(メタデータ) (2024-02-20T18:31:27Z) - PAL: Proxy-Guided Black-Box Attack on Large Language Models [55.57987172146731]
大規模言語モデル(LLM)は近年人気が高まっているが、操作時に有害なコンテンツを生成する能力を示している。
PAL(Proxy-Guided Attack on LLMs)は, ブラックボックスクエリのみの設定で, LLMに対する最初の最適化ベースの攻撃である。
GPT-3.5-Turboの攻撃成功率は84%,Llama-2-7Bの攻撃成功率は48%であった。
論文 参考訳(メタデータ) (2024-02-15T02:54:49Z) - Data-Free Hard-Label Robustness Stealing Attack [67.41281050467889]
本稿では,Data-Free Hard-Label Robustness Stealing(DFHL-RS)攻撃について紹介する。
ターゲットモデルのハードラベルをクエリするだけで、モデル精度とロバスト性の両方を盗むことができる。
本手法は,AutoAttackに対して77.86%,頑健な39.51%の精度を実現する。
論文 参考訳(メタデータ) (2023-12-10T16:14:02Z) - Exposing Limitations of Language Model Agents in Sequential-Task
Compositions on the Web [74.76803612807949]
言語モデルエージェント(LMA)は、ミューティステップ決定タスクにおける有望なパラダイムとして登場した。
約束にもかかわらず、現実世界のアプリケーションでの彼らのパフォーマンスはまだ過小評価されている。
既存のLMAはベースタスクで平均94.0%の成功率を達成したが、その性能は構成タスクで平均24.9%に低下した。
論文 参考訳(メタデータ) (2023-11-30T17:50:47Z) - Controlling the Extraction of Memorized Data from Large Language Models
via Prompt-Tuning [14.228909822681373]
大規模言語モデル(LLM)は、トレーニングデータのかなりの部分を記憶することが知られている。
本稿では, LLMにおける暗記コンテンツの抽出速度を制御するために, プロンプトチューニングを用いた新しい手法を提案する。
論文 参考訳(メタデータ) (2023-05-19T15:45:29Z) - Targeted Attack on GPT-Neo for the SATML Language Model Data Extraction
Challenge [4.438873396405334]
SATML2023言語モデル学習データ抽出チャレンジにターゲットデータ抽出攻撃を適用する。
モデルのリコールを最大化し,サンプルの69%の接尾辞を抽出できる。
提案手法は10パーセントの偽陽性率で0.405リコールに達し, 0.301のベースラインよりも34%向上した。
論文 参考訳(メタデータ) (2023-02-13T18:00:44Z) - Learning to Ignore Adversarial Attacks [14.24585085013907]
攻撃トークンの無視を明示的に学習する合理化モデルを導入する。
その結果,攻撃トークンの90%以上を合理的に無視できることがわかった。
論文 参考訳(メタデータ) (2022-05-23T18:01:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。