論文の概要: Forcing Generative Models to Degenerate Ones: The Power of Data
Poisoning Attacks
- arxiv url: http://arxiv.org/abs/2312.04748v1
- Date: Thu, 7 Dec 2023 23:26:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-11 16:32:52.836308
- Title: Forcing Generative Models to Degenerate Ones: The Power of Data
Poisoning Attacks
- Title(参考訳): 生成モデルの退化を強制する:データ中毒攻撃の力
- Authors: Shuli Jiang, Swanand Ravindra Kadhe, Yi Zhou, Ling Cai, Nathalie
Baracaldo
- Abstract要約: 悪意のあるアクターは、望ましくない出力を生成することを目的とした中毒攻撃を通じて、大きな言語モデル(LLM)の脆弱性を隠蔽的に利用することができる。
本報告では, 様々な生成タスクにおいて, その有効性を評価するために, 様々な中毒技術について検討する。
本研究は, 微調整段階において, 全チューニングデータサンプルの1%程度を用いてLSMに毒を盛ることが可能であることを示す。
- 参考スコア(独自算出の注目度): 10.732558183444985
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Growing applications of large language models (LLMs) trained by a third party
raise serious concerns on the security vulnerability of LLMs.It has been
demonstrated that malicious actors can covertly exploit these vulnerabilities
in LLMs through poisoning attacks aimed at generating undesirable outputs.
While poisoning attacks have received significant attention in the image domain
(e.g., object detection), and classification tasks, their implications for
generative models, particularly in the realm of natural language generation
(NLG) tasks, remain poorly understood. To bridge this gap, we perform a
comprehensive exploration of various poisoning techniques to assess their
effectiveness across a range of generative tasks. Furthermore, we introduce a
range of metrics designed to quantify the success and stealthiness of poisoning
attacks specifically tailored to NLG tasks. Through extensive experiments on
multiple NLG tasks, LLMs and datasets, we show that it is possible to
successfully poison an LLM during the fine-tuning stage using as little as 1\%
of the total tuning data samples. Our paper presents the first systematic
approach to comprehend poisoning attacks targeting NLG tasks considering a wide
range of triggers and attack settings. We hope our findings will assist the AI
security community in devising appropriate defenses against such threats.
- Abstract(参考訳): 第三者によって訓練された大規模言語モデル(LLM)の応用が成長すると、LLMのセキュリティ脆弱性に対する深刻な懸念が持ち上がり、悪意のあるアクターが望ましくない出力を生成することを目的とした中毒攻撃によってLLMの脆弱性を秘密裏に悪用できることが示されている。
毒性攻撃は画像領域(例えばオブジェクト検出)や分類タスクにおいて大きな注目を集めているが、生成モデル、特に自然言語生成(NLG)タスクの領域におけるそれらの意味は理解されていない。
このギャップを埋めるために、我々は様々な毒の技術を網羅的に探究し、その効果を様々な生成タスクで評価する。
さらに,nlgタスクに特化した中毒攻撃の成功とステルスネスを定量化する指標についても紹介する。
複数のNLGタスク、LLM、データセットの広範な実験を通して、全チューニングデータサンプルの1倍の量で、微調整期間中にLSMに毒を盛ることが可能であることを示す。
本稿では,幅広いトリガと攻撃設定を考慮したnlgタスクを標的とした毒物攻撃を理解するための最初の体系的アプローチを提案する。
我々の発見は、AIセキュリティコミュニティがこのような脅威に対する適切な防御を考案するのを支援してくれることを期待しています。
関連論文リスト
- Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。
我々の調査は、この信念に対する重大な監視を露呈している。
我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文 参考訳(メタデータ) (2024-04-16T13:22:54Z) - Living-off-The-Land Reverse-Shell Detection by Informed Data
Augmentation [16.06998078829495]
リビング・オブ・ザ・ランド(LOTL)の攻撃手法は、正当なアプリケーションによって実行されるコマンドの連鎖を通じて悪意ある行為を犯すことに依存している。
LOTL技術は、共通の正当な活動によって生成されたイベントストリームの中によく隠されている。
正規ログ内でのLOTL悪意のある活動の促進と多様化を目的とした拡張フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-28T13:49:23Z) - Learning to Poison Large Language Models During Instruction Tuning [10.450787229190203]
この研究は、命令チューニングプロセスを利用するのに適した新しいデータ中毒攻撃を設計することで、LLM(Large Language Models)のさらなるセキュリティリスクを特定する。
そこで本研究では,逆方向のトリガを効果的に識別するための,勾配誘導型バックドアトリガ学習手法を提案する。
我々の戦略は、モデル出力の妥協において高い成功率を示す。
論文 参考訳(メタデータ) (2024-02-21T01:30:03Z) - On the Safety Concerns of Deploying LLMs/VLMs in Robotics: Highlighting
the Risks and Vulnerabilities [50.31806287390321]
ロボットの動作を操作または誤操作することは容易であり、安全上の危険をもたらす。
我々のデータは、即時攻撃で21.2%、知覚攻撃で30.2%の平均的なパフォーマンス劣化を示す。
論文 参考訳(メタデータ) (2024-02-15T22:01:45Z) - PoisonedRAG: Knowledge Poisoning Attacks to Retrieval-Augmented
Generation of Large Language Models [49.606341607616926]
我々は、RAGに対する知識中毒攻撃のセットであるPoisonedRAGを提案する。
我々は、知識中毒攻撃を最適化問題として定式化し、その解決策は有毒テキストの集合である。
以上の結果から,対象の質問に対して5つの有毒テキストを100万テキストのデータベースに注入した場合,攻撃が90%の攻撃成功率を達成する可能性が示唆された。
論文 参考訳(メタデータ) (2024-02-12T18:28:36Z) - Benchmarking and Defending Against Indirect Prompt Injection Attacks on
Large Language Models [82.98081731588717]
大規模な言語モデルと外部コンテンツの統合は、間接的にインジェクション攻撃を行うアプリケーションを公開する。
本稿では,BIPIAと呼ばれる間接的インジェクション攻撃のリスクを評価するための最初のベンチマークについて紹介する。
我々は,素早い学習に基づく2つのブラックボックス法と,逆行訓練による微調整に基づくホワイトボックス防御法を開発した。
論文 参考訳(メタデータ) (2023-12-21T01:08:39Z) - Backdoor Activation Attack: Attack Large Language Models using
Activation Steering for Safety-Alignment [36.91218391728405]
本稿では,Large Language Modelsの安全性アライメントの脆弱性について検討する。
LLMの既存の攻撃方法は、有毒な訓練データや悪意のあるプロンプトの注入に依存している。
最適化を必要とせず, ステアリングベクターによるモデル動作の修正に成功した最近の成功に触発されて, リピートLLMにおけるその有効性に着想を得た。
実験の結果,アクティベーションアタックは極めて効果的であり,攻撃効率のオーバーヘッドはほとんどあるいは全く生じないことが判明した。
論文 参考訳(メタデータ) (2023-11-15T23:07:40Z) - Visual Adversarial Examples Jailbreak Aligned Large Language Models [66.53468356460365]
視覚入力の連続的かつ高次元的な性質は、敵対的攻撃に対する弱いリンクであることを示す。
我々は、視力統合されたLLMの安全ガードレールを回避するために、視覚的敵の例を利用する。
本研究は,マルチモダリティの追求に伴う敵のエスカレーションリスクを浮き彫りにする。
論文 参考訳(メタデータ) (2023-06-22T22:13:03Z) - On the Risk of Misinformation Pollution with Large Language Models [127.1107824751703]
本稿では,現代大規模言語モデル (LLM) の誤用の可能性について検討する。
本研究は, LLMが効果的な誤情報発生器として機能し, DOQAシステムの性能が著しく低下することを明らかにする。
論文 参考訳(メタデータ) (2023-05-23T04:10:26Z) - Defending Regression Learners Against Poisoning Attacks [25.06658793731661]
N-LIDと呼ばれる新しい局所固有次元(LID)に基づく測度を導入し,その近傍データ点のLIDの局所偏差を測定する。
N-LIDは、正常なサンプルから有毒なサンプルを識別し、攻撃者を仮定しないN-LIDベースの防御アプローチを提案する。
提案した防御機構は,予測精度(未固定リッジモデルと比較して最大76%低いMSE)とランニング時間において,より優れることを示す。
論文 参考訳(メタデータ) (2020-08-21T03:02:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。