論文の概要: WHITE PAPER: A Brief Exploration of Data Exfiltration using GCG Suffixes
- arxiv url: http://arxiv.org/abs/2408.00925v1
- Date: Thu, 1 Aug 2024 21:28:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-05 14:56:17.915888
- Title: WHITE PAPER: A Brief Exploration of Data Exfiltration using GCG Suffixes
- Title(参考訳): WHITE PAPER:GCGサフィックスを用いたデータ抽出の簡単な探索
- Authors: Victor Valbuena,
- Abstract要約: 模擬XPIAシナリオでGCGサフィックスとインジェクションを組み合わせて実行可能な攻撃モデルを実証した。
以上の結果から,GCG接尾辞の存在がデータ抽出の成功確率を約20%増加させる可能性が示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The cross-prompt injection attack (XPIA) is an effective technique that can be used for data exfiltration, and that has seen increasing use. In this attack, the attacker injects a malicious instruction into third party data which an LLM is likely to consume when assisting a user, who is the victim. XPIA is often used as a means for data exfiltration, and the estimated cost of the average data breach for a business is nearly $4.5 million, which includes breaches such as compromised enterprise credentials. With the rise of gradient-based attacks such as the GCG suffix attack, the odds of an XPIA occurring which uses a GCG suffix are worryingly high. As part of my work in Microsoft's AI Red Team, I demonstrated a viable attack model using a GCG suffix paired with an injection in a simulated XPIA scenario. The results indicate that the presence of a GCG suffix can increase the odds of successful data exfiltration by nearly 20%, with some caveats.
- Abstract(参考訳): クロスプロンプト・インジェクション・アタック(XPIA)はデータ・エクスプロイトに有効な手法であり、利用が増加している。
この攻撃では、攻撃者は悪意のある命令を第三者のデータに注入し、LLMは、被害者であるユーザを支援する際に消費する可能性が高い。
XPIAはデータ流出の手段としてよく使われており、企業の平均データ漏洩の見積コストは450万ドル近くと見積もられている。
GCGサフィックス攻撃のような勾配に基づく攻撃が増加し、GCGサフィックスを使用するXPIAの発生確率が懸念される。
MicrosoftのAI Red Teamでの私の仕事の一環として、シミュレーションされたXPIAシナリオでインジェクションと組み合わせたGCGサフィックスを使用して実行可能な攻撃モデルを実演しました。
以上の結果から,GCG接尾辞の存在は,データ流出の確率を20%近く増加させる可能性があることが示唆された。
関連論文リスト
- Data Extraction Attacks in Retrieval-Augmented Generation via Backdoors [15.861833242429228]
本稿では,RAG(Retrieval-Augmented Generation)システムの知識データベースを対象としたデータ抽出攻撃について検討する。
この脆弱性を明らかにするために, LLM内にバックドアを作成するために, 微調整期間中に少量の有毒データを注入するバックドアRAGを提案する。
論文 参考訳(メタデータ) (2024-11-03T22:27:40Z) - Unleashing Worms and Extracting Data: Escalating the Outcome of Attacks against RAG-based Inference in Scale and Severity Using Jailbreaking [6.904930679944526]
我々は、GenAIモデルをジェイルブレイクする能力により、攻撃者はRAGベースのアプリケーションに対する攻撃の結果をエスカレートできることを示した。
論文の前半では、攻撃者がRAG文書抽出攻撃に対してRAGメンバシップ推論攻撃をエスカレートできることが示されている。
論文の第2部では、攻撃者がRAGデータ中毒攻撃の規模を拡大し、単一のアプリケーションに妥協することで、GenAIエコシステム全体を妥協できることを示す。
論文 参考訳(メタデータ) (2024-09-12T13:50:22Z) - Any Target Can be Offense: Adversarial Example Generation via Generalized Latent Infection [83.72430401516674]
GAKerは任意のターゲットクラスに対して逆例を構築することができる。
本手法は,未知のクラスに対する攻撃成功率を約14.13%で達成する。
論文 参考訳(メタデータ) (2024-07-17T03:24:09Z) - Rethinking Targeted Adversarial Attacks For Neural Machine Translation [56.10484905098989]
本報告では,NMTが標的とする敵攻撃に対して,信頼性の高い攻撃結果をもたらす可能性のある新たな設定を提案する。
新しい設定では、敵の例を作成するためのTWGA(Targeted Word Gradient Adversarial Attack)手法を提案する。
実験の結果,提案手法はNMTシステムに対する敵攻撃に対して忠実な攻撃効果をもたらす可能性が示唆された。
論文 参考訳(メタデータ) (2024-07-07T10:16:06Z) - BadRAG: Identifying Vulnerabilities in Retrieval Augmented Generation of Large Language Models [18.107026036897132]
大規模言語モデル(LLM)は時代遅れの情報と誤ったデータを生成する傾向によって制約される。
Retrieval-Augmented Generation (RAG) は、検索手法の強みと生成モデルを組み合わせることで、これらの制限に対処する。
RAG は LLM に対する新たな攻撃面を導入している。特に RAG データベースは Web などの公開データからしばしば引き出されるためである。
論文 参考訳(メタデータ) (2024-06-03T02:25:33Z) - Susceptibility of Adversarial Attack on Medical Image Segmentation
Models [0.0]
我々は,MRIデータセット上で訓練したセグメンテーションモデルに対する敵攻撃の効果について検討した。
医療画像のセグメンテーションモデルは、実際に敵の攻撃に対して脆弱であることがわかった。
トレーニングで使用するものと異なる損失関数を用いることで,高い敵攻撃効果が得られることを示す。
論文 参考訳(メタデータ) (2024-01-20T12:52:20Z) - Pseudo Label-Guided Model Inversion Attack via Conditional Generative
Adversarial Network [102.21368201494909]
モデル反転(MI)攻撃はプライバシーに対する懸念を高めている。
近年のMI攻撃では,探索空間を狭める前にGAN(Generative Adversarial Network)を画像として活用している。
我々は条件付きGAN(cGAN)による擬似ラベル誘導MI(PLG-MI)攻撃を提案する。
論文 参考訳(メタデータ) (2023-02-20T07:29:34Z) - Guidance Through Surrogate: Towards a Generic Diagnostic Attack [101.36906370355435]
我々は、攻撃最適化中に局所最小限を避けるための誘導機構を開発し、G-PGAと呼ばれる新たな攻撃に繋がる。
修正された攻撃では、ランダムに再起動したり、多数の攻撃を繰り返したり、最適なステップサイズを検索したりする必要がありません。
効果的な攻撃以上に、G-PGAは敵防御における勾配マスキングによる解離性堅牢性を明らかにするための診断ツールとして用いられる。
論文 参考訳(メタデータ) (2022-12-30T18:45:23Z) - Adversarial Attack across Datasets [98.13178217557193]
Deep Neural Networks(DNN)は、クエリフリーのブラックボックス設定での攻撃の転送に対して脆弱である。
本稿では,任意のデータセットから出現した画像の分類情報を消去する画像分類消去装置(ICE)を提案する。
論文 参考訳(メタデータ) (2021-10-13T02:07:40Z) - BinarizedAttack: Structural Poisoning Attacks to Graph-based Anomaly
Detection [20.666171188140503]
グラフに基づく異常検出(GAD)は,グラフの強力な表現能力によって普及しつつある。
皮肉なことに、これらのGADツールは、データ間の関係を活用できるというユニークな利点のために、新たな攻撃面を公開する。
本稿では, この脆弱性を利用して, 代表的な回帰型GADシステムOddBallに対して, 標的となる新しいタイプの構造的中毒攻撃を設計する。
論文 参考訳(メタデータ) (2021-06-18T08:20:23Z) - Adversarial Attack on Large Scale Graph [58.741365277995044]
近年の研究では、グラフニューラルネットワーク(GNN)は堅牢性の欠如により摂動に弱いことが示されている。
現在、GNN攻撃に関するほとんどの研究は、主に攻撃を誘導し、優れたパフォーマンスを達成するために勾配情報を使用している。
主な理由は、攻撃にグラフ全体を使わなければならないため、データスケールが大きくなるにつれて、時間と空間の複雑さが増大するからです。
本稿では,グラフデータに対する敵攻撃の影響を測定するために,DAC(Degree Assortativity Change)という実用的な指標を提案する。
論文 参考訳(メタデータ) (2020-09-08T02:17:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。