論文の概要: Adversarial Demonstration Attacks on Large Language Models
- arxiv url: http://arxiv.org/abs/2305.14950v2
- Date: Sat, 14 Oct 2023 05:03:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-17 23:04:34.631415
- Title: Adversarial Demonstration Attacks on Large Language Models
- Title(参考訳): 大規模言語モデルに対する敵対的デモンストレーション攻撃
- Authors: Jiongxiao Wang, Zichen Liu, Keun Hee Park, Zhuojun Jiang, Zhaoheng
Zheng, Zhuofeng Wu, Muhao Chen, Chaowei Xiao
- Abstract要約: 本稿では,テキスト内学習(ICL)のセキュリティ問題について,敵対的観点から検討する。
本稿では,入力を変更せずに実演のみを操作することを目的とした,advICLという新しい攻撃手法を提案する。
その結果,実演数が増えるにつれて,文脈内学習の堅牢性が低下することが示唆された。
- 参考スコア(独自算出の注目度): 43.15298174675082
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the emergence of more powerful large language models (LLMs), such as
ChatGPT and GPT-4, in-context learning (ICL) has gained significant prominence
in leveraging these models for specific tasks by utilizing data-label pairs as
precondition prompts. While incorporating demonstrations can greatly enhance
the performance of LLMs across various tasks, it may introduce a new security
concern: attackers can manipulate only the demonstrations without changing the
input to perform an attack. In this paper, we investigate the security concern
of ICL from an adversarial perspective, focusing on the impact of
demonstrations. We propose a novel attack method named advICL, which aims to
manipulate only the demonstration without changing the input to mislead the
models. Our results demonstrate that as the number of demonstrations increases,
the robustness of in-context learning would decrease. Additionally, we also
identify the intrinsic property of the demonstrations is that they can be used
(prepended) with different inputs. As a result, it introduces a more practical
threat model in which an attacker can attack the test input example even
without knowing and manipulating it. To achieve it, we propose the transferable
version of advICL, named Transferable-advICL. Our experiment shows that the
adversarial demonstration generated by Transferable-advICL can successfully
attack the unseen test input examples. We hope that our study reveals the
critical security risks associated with ICL and underscores the need for
extensive research on the robustness of ICL, particularly given its increasing
significance in the advancement of LLMs.
- Abstract(参考訳): ChatGPT や GPT-4 のようなより強力な大規模言語モデル (LLM) の出現に伴い、インコンテキスト学習 (ICL) はプレコンディションのプロンプトとしてデータラベルペアを活用することで、これらのモデルを特定のタスクに活用する上で大きな注目を集めている。
デモを組み込むことで、さまざまなタスクにわたるLLMのパフォーマンスを大幅に向上させることができるが、新たなセキュリティ上の懸念が生じている。
本稿では,実演の効果に着目し,敵対的視点からiclのセキュリティ上の懸念について検討する。
モデルを誤解させる入力を変更することなく,デモンストレーションのみを操作することを目的とした新しい攻撃手法adviclを提案する。
その結果,実演回数が増加するにつれて,文脈内学習の堅牢性が低下することが示された。
さらに、デモの固有の特性として、異なる入力で(前もって)使用できることも確認します。
結果として、アタッカーが知識や操作をせずにテスト入力サンプルを攻撃できる、より実用的な脅威モデルが導入された。
そこで本研究では,Transferable-advICL と呼ばれる advICL の転送可能バージョンを提案する。
提案実験では,transportable-advicl が生成する敵対的デモが,未発見のテスト入力例を効果的に攻撃できることを実証する。
本研究はICLに関連する重大なセキュリティリスクを明らかにし,特にLSMの進展においてその重要性が増大していることから,ICLの堅牢性に関する広範な研究の必要性を浮き彫りにすることを願っている。
関連論文リスト
- Detecting and Understanding Vulnerabilities in Language Models via Mechanistic Interpretability [44.99833362998488]
大規模言語モデル(LLM)は、幅広いタスクで素晴らしいパフォーマンスを示している。
特にLSMは敵攻撃に弱いことが知られており、入力に対する非受容的な変更はモデルの出力を誤解させる可能性がある。
本稿では,メカニスティック・インタプリタビリティ(MI)技術に基づく手法を提案する。
論文 参考訳(メタデータ) (2024-07-29T09:55:34Z) - Evaluating and Safeguarding the Adversarial Robustness of Retrieval-Based In-Context Learning [21.018893978967053]
In-Context Learning (ICL) は、プロンプトでデモをエンコードするために使用される選択、順序、動詞に敏感である。
Retrieval-Augmented ICLメソッドは、レトリバーを活用して、意味論的に関連する例を例示として抽出することで、この問題に対処しようとする。
本研究は, 検索強化モデルにより, 検体攻撃に対する堅牢性が向上することを明らかにする。
そこで本研究では,攻撃したサンプルを用いてサンプルプールを充実させる,効果的な訓練自由対人防御手法であるDARDを導入する。
論文 参考訳(メタデータ) (2024-05-24T23:56:36Z) - Data Poisoning for In-context Learning [49.77204165250528]
In-context Learning (ICL)は、新しいタスクに適応する革新的な能力として認識されている。
本論文は、ICLのデータ中毒に対する感受性の重大な問題について述べる。
ICLの学習メカニズムを活用するために考案された特殊攻撃フレームワークであるICLPoisonを紹介する。
論文 参考訳(メタデータ) (2024-02-03T14:20:20Z) - Comparable Demonstrations are Important in In-Context Learning: A Novel
Perspective on Demonstration Selection [22.29452683679149]
In-Context Learning(ICL)は、大規模言語モデル(LLM)をダウンストリームタスクに適用するための重要なパラダイムである。
本研究は、ICLのメカニズムを新しい視点から検討し、ICLの実証選択戦略についてより深い知見を提供する。
論文 参考訳(メタデータ) (2023-12-12T18:05:46Z) - SA-Attack: Improving Adversarial Transferability of Vision-Language
Pre-training Models via Self-Augmentation [56.622250514119294]
ホワイトボックスの敵攻撃とは対照的に、転送攻撃は現実世界のシナリオをより反映している。
本稿では,SA-Attackと呼ばれる自己拡張型転送攻撃手法を提案する。
論文 参考訳(メタデータ) (2023-12-08T09:08:50Z) - Hijacking Large Language Models via Adversarial In-Context Learning [8.15194326639149]
In-context Learning (ICL)は、特定の下流タスクにLLMを活用する強力なパラダイムとして登場した。
既存の攻撃は、検出しやすく、外部モデルに依存しているか、ICLに対する特異性を欠いている。
この研究は、これらの問題に対処するために、新たなICLに対するトランスファー可能な攻撃を導入する。
論文 参考訳(メタデータ) (2023-11-16T15:01:48Z) - Improving Input-label Mapping with Demonstration Replay for In-context
Learning [67.57288926736923]
In-context Learning (ICL)は、大規模な自己回帰言語モデルの出現する能力である。
Sliding Causal Attention (RdSca) と呼ばれる新しいICL法を提案する。
ICL実験において,本手法は入力ラベルマッピングを大幅に改善することを示す。
論文 参考訳(メタデータ) (2023-10-30T14:29:41Z) - Jailbreak and Guard Aligned Language Models with Only Few In-Context Demonstrations [38.437893814759086]
大きな言語モデル(LLM)は様々なタスクで顕著に成功しているが、その安全性と有害なコンテンツを生成するリスクは依然として懸念されている。
本研究では, LLM を倒すために有害な実証を行う In-Context Attack (ICA) と, 有害な応答の再現を拒否する事例を通じてモデルレジリエンスを高める In-Context Defense (ICD) を提案する。
論文 参考訳(メタデータ) (2023-10-10T07:50:29Z) - Defending Pre-trained Language Models as Few-shot Learners against
Backdoor Attacks [72.03945355787776]
軽快でプラガブルで効果的な PLM 防御である MDP を,少人数の学習者として提唱する。
我々は,MDPが攻撃の有効性と回避性の両方を選択できる興味深いジレンマを発生させることを解析的に示す。
論文 参考訳(メタデータ) (2023-09-23T04:41:55Z) - Visual Adversarial Examples Jailbreak Aligned Large Language Models [66.53468356460365]
視覚入力の連続的かつ高次元的な性質は、敵対的攻撃に対する弱いリンクであることを示す。
我々は、視力統合されたLLMの安全ガードレールを回避するために、視覚的敵の例を利用する。
本研究は,マルチモダリティの追求に伴う敵のエスカレーションリスクを浮き彫りにする。
論文 参考訳(メタデータ) (2023-06-22T22:13:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。