Fugu-MT 論文翻訳(概要): Model Leeching: An Extraction Attack Targeting LLMs

論文の概要: Model Leeching: An Extraction Attack Targeting LLMs

arxiv url: http://arxiv.org/abs/2309.10544v1
Date: Tue, 19 Sep 2023 11:45:29 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-20 14:43:03.727986
Title: Model Leeching: An Extraction Attack Targeting LLMs
Title（参考訳）: モデルリーチング:llmをターゲットにした抽出攻撃
Authors: Lewis Birch, William Hackett, Stefan Trawicki, Neeraj Suri, Peter Garraghan
Abstract要約: Model Leechingは、Large Language Models (LLM)をターゲットにした新しい抽出攻撃である。また,ChatGPT-3.5-Turbo からタスク能力を抽出し,SQuAD EM と F1 の精度スコアを 75% と 87% の精度で,API コストで50 ドルに抑えた。
参考スコア（独自算出の注目度）: 4.533013952442819
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Model Leeching is a novel extraction attack targeting Large Language Models (LLMs), capable of distilling task-specific knowledge from a target LLM into a reduced parameter model. We demonstrate the effectiveness of our attack by extracting task capability from ChatGPT-3.5-Turbo, achieving 73% Exact Match (EM) similarity, and SQuAD EM and F1 accuracy scores of 75% and 87%, respectively for only $50 in API cost. We further demonstrate the feasibility of adversarial attack transferability from an extracted model extracted via Model Leeching to perform ML attack staging against a target LLM, resulting in an 11% increase to attack success rate when applied to ChatGPT-3.5-Turbo.
Abstract（参考訳）: Model Leechingは、Large Language Models (LLMs)をターゲットにした新しい抽出攻撃であり、ターゲットのLLMからタスク固有の知識を縮小パラメータモデルに蒸留することができる。 chatgpt-3.5-turboからタスク能力を抽出し、73%の完全一致(em)類似度を達成し、squad emとf1の精度スコア75%と87%をそれぞれapiコストわずか50ドルで示すことで、攻撃の有効性を実証した。さらに,モデルリーチングを用いて抽出したモデルから抽出した敵の攻撃伝達可能性を実証し,ChatGPT-3.5-Turboに適用した場合の攻撃成功率を11%向上させる。

関連論文リスト

AegisLLM: Scaling Agentic Systems for Self-Reflective Defense in LLM Security [74.22452069013289]
AegisLLMは、敵の攻撃や情報漏洩に対する協調的なマルチエージェント防御である。テスト時のエージェント推論システムのスケーリングは,モデルの有用性を損なうことなく,ロバスト性を大幅に向上させることを示す。アンラーニングやジェイルブレイクを含む主要な脅威シナリオに対する総合的な評価は、AegisLLMの有効性を示している。
論文参考訳（メタデータ） (2025-04-29T17:36:05Z)
Mitigating Adversarial Attacks in LLMs through Defensive Suffix Generation [2.3080718283523827]
大規模言語モデル (LLM) は自然言語処理タスクにおいて優れた性能を示した。わずかな入力摂動が有害または誤解を招く可能性のある敵攻撃。勾配に基づく防御接尾辞生成アルゴリズムはLLMの堅牢性を高めるために設計されている。
論文参考訳（メタデータ） (2024-12-18T10:49:41Z)
Exploring Visual Vulnerabilities via Multi-Loss Adversarial Search for Jailbreaking Vision-Language Models [92.79804303337522]
VLM(Vision-Language Models)は、安全アライメントの問題に対して脆弱である。本稿では、シナリオ認識画像生成を利用したセマンティックアライメントのための新しいジェイルブレイクフレームワークであるMLAIを紹介する。大規模な実験はMLAIの重大な影響を示し、MiniGPT-4で77.75%、LLaVA-2で82.80%の攻撃成功率を達成した。
論文参考訳（メタデータ） (2024-11-27T02:40:29Z)
LLMStinger: Jailbreaking LLMs using RL fine-tuned LLMs [13.36946005380889]
LLMStingerはLarge Language Models(LLMs)を利用して、jailbreak攻撃の逆サフィックスを自動的に生成する新しいアプローチである。 LLaMA2-7B-chatでの攻撃成功率(ASR)は57.2%向上し,Claude 2では+50.3%向上した。
論文参考訳（メタデータ） (2024-11-13T18:44:30Z)
LLM Robustness Against Misinformation in Biomedical Question Answering [50.98256373698759]
探索拡張生成(RAG)アプローチは,質問応答のための大規模言語モデル(LLM)の折り畳みを低減するために用いられる。バイオメディカル質問に対する誤報に対する4つのLDMの有効性とロバスト性を評価した。
論文参考訳（メタデータ） (2024-10-27T16:23:26Z)
Defending Large Language Models Against Attacks With Residual Stream Activation Analysis [0.0]
大規模言語モデル(LLM)は敵の脅威に対して脆弱である。本稿では, LLM へのホワイトボックスアクセスを前提とした, 革新的な防御戦略を提案する。そこで本研究では,アタックプロンプト分類のための残差ストリームの固有なアクティベーションパターンを解析するための新しい手法を適用した。
論文参考訳（メタデータ） (2024-06-05T13:06:33Z)
Improved Generation of Adversarial Examples Against Safety-aligned LLMs [72.38072942860309]
勾配に基づく手法を用いて生成した敵対的プロンプトは、安全対応のLDMに対して自動ジェイルブレイク攻撃を行う際、優れた性能を示す。本稿では,この問題に対する新たな視点を探求し,トランスファーベースの攻撃にインスパイアされたイノベーションを活用することで緩和できることを示唆する。この組み合わせによって生成されたクエリ固有逆接接尾辞の87%がLlama-2-7B-Chatを誘導し、AdvBench上のターゲット文字列と正確に一致する出力を生成することを示した。
論文参考訳（メタデータ） (2024-05-28T06:10:12Z)
TuBA: Cross-Lingual Transferability of Backdoor Attacks in LLMs with Instruction Tuning [63.481446315733145]
多言語大言語モデル(LLM)に対する言語間バックドア攻撃は未調査である。本研究は, 教育指導データが有毒でない言語に対して, 教育指導データの有毒化がアウトプットに与える影響について検討した。本手法は,mT5 や GPT-4o などのモデルにおいて,高い攻撃成功率を示し,12言語中7言語以上で90%以上を突破した。
論文参考訳（メタデータ） (2024-04-30T14:43:57Z)
PAL: Proxy-Guided Black-Box Attack on Large Language Models [55.57987172146731]
大規模言語モデル(LLM)は近年人気が高まっているが、操作時に有害なコンテンツを生成する能力を示している。 PAL(Proxy-Guided Attack on LLMs)は, ブラックボックスクエリのみの設定で, LLMに対する最初の最適化ベースの攻撃である。 GPT-3.5-Turboの攻撃成功率は84%,Llama-2-7Bの攻撃成功率は48%であった。
論文参考訳（メタデータ） (2024-02-15T02:54:49Z)
Data-Free Hard-Label Robustness Stealing Attack [67.41281050467889]
本稿では,Data-Free Hard-Label Robustness Stealing(DFHL-RS)攻撃について紹介する。ターゲットモデルのハードラベルをクエリするだけで、モデル精度とロバスト性の両方を盗むことができる。本手法は,AutoAttackに対して77.86%,頑健な39.51%の精度を実現する。
論文参考訳（メタデータ） (2023-12-10T16:14:02Z)
Exposing Limitations of Language Model Agents in Sequential-Task Compositions on the Web [74.76803612807949]
言語モデルエージェント(LMA)は、ミューティステップ決定タスクにおける有望なパラダイムとして登場した。約束にもかかわらず、現実世界のアプリケーションでの彼らのパフォーマンスはまだ過小評価されている。既存のLMAはベースタスクで平均94.0%の成功率を達成したが、その性能は構成タスクで平均24.9%に低下した。
論文参考訳（メタデータ） (2023-11-30T17:50:47Z)
Controlling the Extraction of Memorized Data from Large Language Models via Prompt-Tuning [14.228909822681373]
大規模言語モデル(LLM)は、トレーニングデータのかなりの部分を記憶することが知られている。本稿では, LLMにおける暗記コンテンツの抽出速度を制御するために, プロンプトチューニングを用いた新しい手法を提案する。
論文参考訳（メタデータ） (2023-05-19T15:45:29Z)
Targeted Attack on GPT-Neo for the SATML Language Model Data Extraction Challenge [4.438873396405334]
SATML2023言語モデル学習データ抽出チャレンジにターゲットデータ抽出攻撃を適用する。モデルのリコールを最大化し,サンプルの69%の接尾辞を抽出できる。提案手法は10パーセントの偽陽性率で0.405リコールに達し, 0.301のベースラインよりも34%向上した。
論文参考訳（メタデータ） (2023-02-13T18:00:44Z)
Learning to Ignore Adversarial Attacks [14.24585085013907]
攻撃トークンの無視を明示的に学習する合理化モデルを導入する。その結果,攻撃トークンの90%以上を合理的に無視できることがわかった。
論文参考訳（メタデータ） (2022-05-23T18:01:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。