論文の概要: Adversarial Demonstration Attacks on Large Language Models
- arxiv url: http://arxiv.org/abs/2305.14950v2
- Date: Sat, 14 Oct 2023 05:03:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-17 23:04:34.631415
- Title: Adversarial Demonstration Attacks on Large Language Models
- Title(参考訳): 大規模言語モデルに対する敵対的デモンストレーション攻撃
- Authors: Jiongxiao Wang, Zichen Liu, Keun Hee Park, Zhuojun Jiang, Zhaoheng
Zheng, Zhuofeng Wu, Muhao Chen, Chaowei Xiao
- Abstract要約: 本稿では,テキスト内学習(ICL)のセキュリティ問題について,敵対的観点から検討する。
本稿では,入力を変更せずに実演のみを操作することを目的とした,advICLという新しい攻撃手法を提案する。
その結果,実演数が増えるにつれて,文脈内学習の堅牢性が低下することが示唆された。
- 参考スコア(独自算出の注目度): 43.15298174675082
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the emergence of more powerful large language models (LLMs), such as
ChatGPT and GPT-4, in-context learning (ICL) has gained significant prominence
in leveraging these models for specific tasks by utilizing data-label pairs as
precondition prompts. While incorporating demonstrations can greatly enhance
the performance of LLMs across various tasks, it may introduce a new security
concern: attackers can manipulate only the demonstrations without changing the
input to perform an attack. In this paper, we investigate the security concern
of ICL from an adversarial perspective, focusing on the impact of
demonstrations. We propose a novel attack method named advICL, which aims to
manipulate only the demonstration without changing the input to mislead the
models. Our results demonstrate that as the number of demonstrations increases,
the robustness of in-context learning would decrease. Additionally, we also
identify the intrinsic property of the demonstrations is that they can be used
(prepended) with different inputs. As a result, it introduces a more practical
threat model in which an attacker can attack the test input example even
without knowing and manipulating it. To achieve it, we propose the transferable
version of advICL, named Transferable-advICL. Our experiment shows that the
adversarial demonstration generated by Transferable-advICL can successfully
attack the unseen test input examples. We hope that our study reveals the
critical security risks associated with ICL and underscores the need for
extensive research on the robustness of ICL, particularly given its increasing
significance in the advancement of LLMs.
- Abstract(参考訳): ChatGPT や GPT-4 のようなより強力な大規模言語モデル (LLM) の出現に伴い、インコンテキスト学習 (ICL) はプレコンディションのプロンプトとしてデータラベルペアを活用することで、これらのモデルを特定のタスクに活用する上で大きな注目を集めている。
デモを組み込むことで、さまざまなタスクにわたるLLMのパフォーマンスを大幅に向上させることができるが、新たなセキュリティ上の懸念が生じている。
本稿では,実演の効果に着目し,敵対的視点からiclのセキュリティ上の懸念について検討する。
モデルを誤解させる入力を変更することなく,デモンストレーションのみを操作することを目的とした新しい攻撃手法adviclを提案する。
その結果,実演回数が増加するにつれて,文脈内学習の堅牢性が低下することが示された。
さらに、デモの固有の特性として、異なる入力で(前もって)使用できることも確認します。
結果として、アタッカーが知識や操作をせずにテスト入力サンプルを攻撃できる、より実用的な脅威モデルが導入された。
そこで本研究では,Transferable-advICL と呼ばれる advICL の転送可能バージョンを提案する。
提案実験では,transportable-advicl が生成する敵対的デモが,未発見のテスト入力例を効果的に攻撃できることを実証する。
本研究はICLに関連する重大なセキュリティリスクを明らかにし,特にLSMの進展においてその重要性が増大していることから,ICLの堅牢性に関する広範な研究の必要性を浮き彫りにすることを願っている。
関連論文リスト
- In-Context Learning Demonstration Selection via Influence Analysis [12.929357709840975]
大規模言語モデル(LLM)は、そのICL(In-Context Learning)機能を実証した。
複数の利点があるにもかかわらず、ICLの一般化性能は選択されたデモに敏感である。
本研究では,インフルエンス関数によるトレーニングサンプルの影響を解析するInfICLという実演選択手法を提案する。
論文 参考訳(メタデータ) (2024-02-19T00:39:31Z) - Data Poisoning for In-context Learning [49.77204165250528]
In-context Learning (ICL)は、新しいタスクに適応する革新的な能力として認識されている。
本論文は、ICLのデータ中毒に対する感受性の重大な問題について述べる。
ICLの学習メカニズムを活用するために考案された特殊攻撃フレームワークであるICLPoisonを紹介する。
論文 参考訳(メタデータ) (2024-02-03T14:20:20Z) - Comparable Demonstrations are Important in In-Context Learning: A Novel
Perspective on Demonstration Selection [22.29452683679149]
In-Context Learning(ICL)は、大規模言語モデル(LLM)をダウンストリームタスクに適用するための重要なパラダイムである。
本研究は、ICLのメカニズムを新しい視点から検討し、ICLの実証選択戦略についてより深い知見を提供する。
論文 参考訳(メタデータ) (2023-12-12T18:05:46Z) - SA-Attack: Improving Adversarial Transferability of Vision-Language
Pre-training Models via Self-Augmentation [56.622250514119294]
ホワイトボックスの敵攻撃とは対照的に、転送攻撃は現実世界のシナリオをより反映している。
本稿では,SA-Attackと呼ばれる自己拡張型転送攻撃手法を提案する。
論文 参考訳(メタデータ) (2023-12-08T09:08:50Z) - Hijacking Large Language Models via Adversarial In-Context Learning [9.161967285486051]
本研究は,LSMをハイジャックして標的とする応答を発生させることを目的として,ICLに新たなトランスファー可能な攻撃を導入する。
提案したLSMハイジャック攻撃は、インコンテクストのデモに知覚不可能な逆接接尾辞を学習し、付加するために勾配に基づくプロンプトサーチ手法を利用する。
論文 参考訳(メタデータ) (2023-11-16T15:01:48Z) - Improving Input-label Mapping with Demonstration Replay for In-context
Learning [67.57288926736923]
In-context Learning (ICL)は、大規模な自己回帰言語モデルの出現する能力である。
Sliding Causal Attention (RdSca) と呼ばれる新しいICL法を提案する。
ICL実験において,本手法は入力ラベルマッピングを大幅に改善することを示す。
論文 参考訳(メタデータ) (2023-10-30T14:29:41Z) - Jailbreak and Guard Aligned Language Models with Only Few In-Context Demonstrations [32.58214897368031]
大規模言語モデル(LLM)は、様々なタスクにおいて顕著な成功を収めてきたが、それらの安全性と有害なコンテンツを生成する可能性への懸念が浮上している。
我々は,LSMを倒すために戦略的に構築された有害なデモンストレーションを取り入れたインコンテキストアタック(ICA)と,有害な応答の生成を拒否する事例を通じてモデルレジリエンスを活性化するインコンテキストディフェンス(ICD)を提案する。
論文 参考訳(メタデータ) (2023-10-10T07:50:29Z) - Defending Pre-trained Language Models as Few-shot Learners against
Backdoor Attacks [72.03945355787776]
軽快でプラガブルで効果的な PLM 防御である MDP を,少人数の学習者として提唱する。
我々は,MDPが攻撃の有効性と回避性の両方を選択できる興味深いジレンマを発生させることを解析的に示す。
論文 参考訳(メタデータ) (2023-09-23T04:41:55Z) - Visual Adversarial Examples Jailbreak Aligned Large Language Models [66.53468356460365]
視覚入力の連続的かつ高次元的な性質は、敵対的攻撃に対する弱いリンクであることを示す。
我々は、視力統合されたLLMの安全ガードレールを回避するために、視覚的敵の例を利用する。
本研究は,マルチモダリティの追求に伴う敵のエスカレーションリスクを浮き彫りにする。
論文 参考訳(メタデータ) (2023-06-22T22:13:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。