論文の概要: TrojLLM: A Black-box Trojan Prompt Attack on Large Language Models
- arxiv url: http://arxiv.org/abs/2306.06815v2
- Date: Mon, 23 Oct 2023 03:43:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 08:41:34.243209
- Title: TrojLLM: A Black-box Trojan Prompt Attack on Large Language Models
- Title(参考訳): trojllm: 大きな言語モデルに対するブラックボックスのトロイの木馬攻撃
- Authors: Jiaqi Xue, Mengxin Zheng, Ting Hua, Yilin Shen, Yepeng Liu, Ladislau
Boloni and Qian Lou
- Abstract要約: TrojLLMは、普遍的でステルス的なトリガーを生成する自動かつブラックボックスフレームワークである。
個別のプロンプト内にトロイの木馬を埋め込むことをサポートし、トリガーの攻撃の全体的な効果と精度を高める。
実世界のブラックボックスLPM APIにおけるテキストプロンプトにTrojLLMを効果的に挿入する能力を示す実験と結果を得た。
- 参考スコア(独自算出の注目度): 29.66515518909497
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are progressively being utilized as machine
learning services and interface tools for various applications. However, the
security implications of LLMs, particularly in relation to adversarial and
Trojan attacks, remain insufficiently examined. In this paper, we propose
TrojLLM, an automatic and black-box framework to effectively generate universal
and stealthy triggers. When these triggers are incorporated into the input
data, the LLMs' outputs can be maliciously manipulated. Moreover, the framework
also supports embedding Trojans within discrete prompts, enhancing the overall
effectiveness and precision of the triggers' attacks. Specifically, we propose
a trigger discovery algorithm for generating universal triggers for various
inputs by querying victim LLM-based APIs using few-shot data samples.
Furthermore, we introduce a novel progressive Trojan poisoning algorithm
designed to generate poisoned prompts that retain efficacy and transferability
across a diverse range of models. Our experiments and results demonstrate
TrojLLM's capacity to effectively insert Trojans into text prompts in
real-world black-box LLM APIs including GPT-3.5 and GPT-4, while maintaining
exceptional performance on clean test sets. Our work sheds light on the
potential security risks in current models and offers a potential defensive
approach. The source code of TrojLLM is available at
https://github.com/UCF-ML-Research/TrojLLM.
- Abstract(参考訳): 大規模言語モデル(llm)は、様々なアプリケーションのための機械学習サービスやインターフェースツールとして徐々に利用されている。
しかし、LLMのセキュリティへの影響、特に敵とトロイアの攻撃に関して、十分に検証されていない。
本稿では,汎用かつステルス的なトリガを効果的に生成する自動ブラックボックスフレームワークであるTrojLLMを提案する。
これらのトリガが入力データに組み込まれると、LSMの出力は悪意ある操作を行うことができる。
さらに、フレームワークは個別のプロンプト内にトロイの木を埋め込むこともサポートし、トリガーの攻撃の全体的な効果と精度を高める。
具体的には,少数のデータサンプルを用いて被害者llmベースのapiに問い合わせることで,様々な入力に対してユニバーサルトリガを生成するトリガー検出アルゴリズムを提案する。
さらに,多種多様なモデルの有効性と伝達性を維持する毒素を発生させる新しいプログレッシブトロイの木馬毒アルゴリズムを導入する。
GPT-3.5 や GPT-4 などの実世界のブラックボックス LLM API において,TrojLLM をテキストプロンプトに効果的に挿入する能力を示すとともに,クリーンなテストセット上での例外的な性能を維持した。
私たちの仕事は、現在のモデルの潜在的なセキュリティリスクに光を当て、潜在的な防御的アプローチを提供します。
TrojLLMのソースコードはhttps://github.com/UCF-ML-Research/TrojLLMで公開されている。
関連論文リスト
- Aligning LLMs to Be Robust Against Prompt Injection [55.07562650579068]
インジェクション攻撃に対してLCMをより堅牢にするための強力なツールとしてアライメントが有効であることを示す。
私たちのメソッド -- SecAlign -- は、最初に、プロンプトインジェクション攻撃をシミュレートしてアライメントデータセットを構築します。
実験の結果,SecAlign は LLM を大幅に強化し,モデルの実用性に悪影響を及ぼすことが示された。
論文 参考訳(メタデータ) (2024-10-07T19:34:35Z) - The Philosopher's Stone: Trojaning Plugins of Large Language Models [22.67696768099352]
オープンソースのLarge Language Models (LLM) は、プロプライエタリなLLMに匹敵するパフォーマンスのため、最近人気を集めている。
ドメイン特化タスクを効率的にこなすために、低ランクアダプタを用いて高価なアクセラレーターを使わずにオープンソースのLLMを洗練することができる。
LLMを制御するために低ランクアダプタを利用できるかどうかはまだ分かっていない。
論文 参考訳(メタデータ) (2023-12-01T06:36:17Z) - SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。
敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文 参考訳(メタデータ) (2023-10-05T17:01:53Z) - TrojText: Test-time Invisible Textual Trojan Insertion [18.866093947145654]
自然言語処理(NLP)では、インテリジェントニューロンモデルはテキストトロイの木馬攻撃の影響を受けやすい。
本稿では,学習データなしでより効率的かつ費用対効果の高いテキスト・トロイの木版攻撃が可能かどうかを判定するTrojTextという手法を提案する。
提案手法はRepresentation-Logit Trojan Insertion (RLI)アルゴリズムと呼ばれ、大規模なトレーニングデータの代わりにより小さなサンプルテストデータを用いて、望ましい攻撃を実現する。
論文 参考訳(メタデータ) (2023-03-03T22:19:22Z) - Not what you've signed up for: Compromising Real-World LLM-Integrated
Applications with Indirect Prompt Injection [64.67495502772866]
大規模言語モデル(LLM)は、様々なアプリケーションに統合されつつある。
本稿では、プロンプトインジェクション攻撃を用いて、攻撃者が元の命令をオーバーライドし、制御を採用する方法を示す。
我々は、コンピュータセキュリティの観点から、影響や脆弱性を体系的に調査する包括的な分類法を導出する。
論文 参考訳(メタデータ) (2023-02-23T17:14:38Z) - An Adaptive Black-box Backdoor Detection Method for Deep Neural Networks [25.593824693347113]
ディープニューラルネットワーク(DNN)は、医療診断や自律運転など、さまざまな分野において前例のないパフォーマンスを示している。
それらは、ステルスシートリガーによって制御され、活性化されるニューラルトロイの木馬攻撃(NT)に対して脆弱である。
本稿では,事前訓練したトロイの木馬が展開前にトロイの木馬に検出されたかどうかを検査するロバストで適応的なトロイの木馬検出手法を提案する。
論文 参考訳(メタデータ) (2022-04-08T23:41:19Z) - Practical Detection of Trojan Neural Networks: Data-Limited and
Data-Free Cases [87.69818690239627]
本稿では,データスカース方式におけるトロイの木馬ネットワーク(トロイの木馬網)検出の問題点について検討する。
本稿では,データ限定型TrojanNet検出器(TND)を提案する。
さらに,データサンプルにアクセスせずにTrojanNetを検出できるデータフリーTNDを提案する。
論文 参考訳(メタデータ) (2020-07-31T02:00:38Z) - Odyssey: Creation, Analysis and Detection of Trojan Models [91.13959405645959]
トロイの木馬攻撃は、一部のトレーニングサンプルにトリガーを挿入してトレーニングパイプラインを妨害し、トリガーを含むサンプルに対してのみ悪意ある動作をするようにモデルを訓練する。
既存のトロイの木馬検出器はトリガーの種類や攻撃について強い仮定をしている。
そこで本研究では,トロヤニング過程の影響を受け,本質的特性の分析に基づく検出器を提案する。
論文 参考訳(メタデータ) (2020-07-16T06:55:00Z) - An Embarrassingly Simple Approach for Trojan Attack in Deep Neural
Networks [59.42357806777537]
トロイの木馬攻撃は、ハッカーが挿入した隠れトリガーパターンに依存する、デプロイされたディープニューラルネットワーク(DNN)を攻撃することを目的としている。
そこで本研究では,有毒データセットの再学習モデルによりトロイの木馬の挙動を注入する,従来と異なる学習自由攻撃手法を提案する。
提案したTrojanNetには,(1)小さなトリガパターンによって起動し,他の信号に対してサイレントを維持する,(2)モデルに依存しない,ほとんどのDNNに注入可能な,(3)攻撃シナリオを劇的に拡張する,(3)訓練不要のメカニズムは従来のトロイの木馬攻撃方法と比較して大規模なトレーニング作業の削減など,いくつかの優れた特性がある。
論文 参考訳(メタデータ) (2020-06-15T04:58:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。