論文の概要: Hijacking Large Language Models via Adversarial In-Context Learning
- arxiv url: http://arxiv.org/abs/2311.09948v1
- Date: Thu, 16 Nov 2023 15:01:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-17 13:54:37.431241
- Title: Hijacking Large Language Models via Adversarial In-Context Learning
- Title(参考訳): 敵対的文脈学習による大規模言語モデルのハイジャック
- Authors: Yao Qiang and Xiangyu Zhou and Dongxiao Zhu
- Abstract要約: 本研究は,LSMをハイジャックして標的とする応答を発生させることを目的として,ICLに新たなトランスファー可能な攻撃を導入する。
提案したLSMハイジャック攻撃は、インコンテクストのデモに知覚不可能な逆接接尾辞を学習し、付加するために勾配に基づくプロンプトサーチ手法を利用する。
- 参考スコア(独自算出の注目度): 9.161967285486051
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In-context learning (ICL) has emerged as a powerful paradigm leveraging LLMs
for specific tasks by utilizing labeled examples as demonstrations in the
precondition prompts. Despite its promising performance, ICL suffers from
instability with the choice and arrangement of examples. Additionally, crafted
adversarial attacks pose a notable threat to the robustness of ICL. However,
existing attacks are either easy to detect, rely on external models, or lack
specificity towards ICL. To address these issues, this work introduces a novel
transferable attack for ICL, aiming to hijack LLMs to generate the targeted
response. The proposed LLM hijacking attack leverages a gradient-based prompt
search method to learn and append imperceptible adversarial suffixes to the
in-context demonstrations. Extensive experimental results on various tasks and
datasets demonstrate the effectiveness of our LLM hijacking attack, resulting
in a distracted attention towards adversarial tokens, consequently leading to
the targeted unwanted outputs.
- Abstract(参考訳): In-context Learning(ICL)は、ラベル付き例をプレコンディションプロンプトのデモとして活用することで、特定のタスクにLLMを活用する強力なパラダイムとして登場した。
有望なパフォーマンスにもかかわらず、iclはサンプルの選択と配置の不安定さに苦しんでいる。
さらに、対人攻撃はICLの堅牢性に顕著な脅威をもたらす。
しかし、既存の攻撃は検出しやすいか、外部モデルに依存するか、iclに対する特異性を欠いている。
これらの問題に対処するため、本研究では、ターゲットとする応答を生成するためにllmをハイジャックすることを目的とした、新しいiclの転送可能攻撃を導入する。
提案したLSMハイジャック攻撃は、インコンテクストのデモに知覚不可能な逆接接尾辞を学習し、付加するために勾配に基づくプロンプトサーチ手法を利用する。
様々なタスクやデータセットに関する広範囲な実験結果から,llmハイジャック攻撃の有効性が示され,敵トークンに対する注意をそそる結果となり,対象とする望ましくないアウトプットが得られた。
関連論文リスト
- DEEP-ICL: Definition-Enriched Experts for Language Model In-Context
Learning [61.85871109164743]
大規模言語モデル(LLM)におけるパラメータの多さは、コンテキスト内学習(ICL)の能力を促進すると長い間考えられてきた。
ICL のための新しいタスク定義拡張 ExPert Ensembling Method である DEEP-ICL を紹介する。
ICLの改善はモデルのサイズに直接依存するのではなく、基本的にはタスク定義やタスク誘導学習の理解に起因している、と我々は主張する。
論文 参考訳(メタデータ) (2024-03-07T05:26:41Z) - From Noise to Clarity: Unraveling the Adversarial Suffix of Large
Language Model Attacks via Translation of Text Embeddings [64.26248561154509]
近年の研究では、有害な指示に接尾辞を付けることで、LSMの防御をハックできることが判明している。
本稿では,非可読な逆接尾辞をコヒーレントかつ可読なテキストに翻訳可能な逆接尾辞埋め込み翻訳フレームワーク(ASETF)を提案する。
論文 参考訳(メタデータ) (2024-02-25T06:46:27Z) - In-Context Learning Demonstration Selection via Influence Analysis [12.929357709840975]
大規模言語モデル(LLM)は、そのICL(In-Context Learning)機能を実証した。
複数の利点があるにもかかわらず、ICLの一般化性能は選択されたデモに敏感である。
本研究では,インフルエンス関数によるトレーニングサンプルの影響を解析するInfICLという実演選択手法を提案する。
論文 参考訳(メタデータ) (2024-02-19T00:39:31Z) - Benchmarking and Defending Against Indirect Prompt Injection Attacks on
Large Language Models [82.98081731588717]
大規模な言語モデルと外部コンテンツの統合は、間接的にインジェクション攻撃を行うアプリケーションを公開する。
本稿では,BIPIAと呼ばれる間接的インジェクション攻撃のリスクを評価するための最初のベンチマークについて紹介する。
我々は,素早い学習に基づく2つのブラックボックス法と,逆行訓練による微調整に基づくホワイトボックス防御法を開発した。
論文 参考訳(メタデータ) (2023-12-21T01:08:39Z) - Attack Prompt Generation for Red Teaming and Defending Large Language
Models [70.157691818224]
大規模言語モデル (LLM) は、有害なコンテンツを生成するためにLSMを誘導するレッド・チーム・アタックの影響を受けやすい。
本稿では、手動と自動の手法を組み合わせて、高品質な攻撃プロンプトを経済的に生成する統合的アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-19T06:15:05Z) - Jailbreak and Guard Aligned Language Models with Only Few In-Context
Demonstrations [36.61907023057978]
大きな言語モデル(LLM)は様々なタスクで顕著な成功を収めているが、それらの安全性と悪意のあるコンテンツを生成する可能性への懸念が浮上している。
我々は,LLMのアライメント能力を操作する上で,インコンテクスト学習(ICL)の能力について検討する。
In-Context Attack (ICA) と In-Context Defense (ICD) の手法を提案する。
論文 参考訳(メタデータ) (2023-10-10T07:50:29Z) - Evaluating the Instruction-Following Robustness of Large Language Models
to Prompt Injection [70.28425745910711]
LLM(Large Language Models)は、命令追従に非常に熟練した言語である。
この能力は、迅速なインジェクション攻撃のリスクをもたらす。
このような攻撃に対する命令追従LDMの堅牢性を評価する。
論文 参考訳(メタデータ) (2023-08-17T06:21:50Z) - Visual Adversarial Examples Jailbreak Aligned Large Language Models [66.53468356460365]
視覚入力の連続的かつ高次元的な性質は、敵対的攻撃に対する弱いリンクであることを示す。
我々は、視力統合されたLLMの安全ガードレールを回避するために、視覚的敵の例を利用する。
本研究は,マルチモダリティの追求に伴う敵のエスカレーションリスクを浮き彫りにする。
論文 参考訳(メタデータ) (2023-06-22T22:13:03Z) - Adversarial Demonstration Attacks on Large Language Models [43.15298174675082]
本稿では,テキスト内学習(ICL)のセキュリティ問題について,敵対的観点から検討する。
本稿では,入力を変更せずに実演のみを操作することを目的とした,advICLという新しい攻撃手法を提案する。
その結果,実演数が増えるにつれて,文脈内学習の堅牢性が低下することが示唆された。
論文 参考訳(メタデータ) (2023-05-24T09:40:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。