論文の概要: Data Poisoning for In-context Learning
- arxiv url: http://arxiv.org/abs/2402.02160v2
- Date: Thu, 28 Mar 2024 01:42:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-29 20:52:50.518300
- Title: Data Poisoning for In-context Learning
- Title(参考訳): テキスト内学習のためのデータポジショニング
- Authors: Pengfei He, Han Xu, Yue Xing, Hui Liu, Makoto Yamada, Jiliang Tang,
- Abstract要約: In-context Learning (ICL)は、新しいタスクに適応する革新的な能力として認識されている。
本論文は、ICLのデータ中毒に対する感受性の重大な問題について述べる。
ICLの学習メカニズムを活用するために考案された特殊攻撃フレームワークであるICLPoisonを紹介する。
- 参考スコア(独自算出の注目度): 49.77204165250528
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the domain of large language models (LLMs), in-context learning (ICL) has been recognized for its innovative ability to adapt to new tasks, relying on examples rather than retraining or fine-tuning. This paper delves into the critical issue of ICL's susceptibility to data poisoning attacks, an area not yet fully explored. We wonder whether ICL is vulnerable, with adversaries capable of manipulating example data to degrade model performance. To address this, we introduce ICLPoison, a specialized attacking framework conceived to exploit the learning mechanisms of ICL. Our approach uniquely employs discrete text perturbations to strategically influence the hidden states of LLMs during the ICL process. We outline three representative strategies to implement attacks under our framework, each rigorously evaluated across a variety of models and tasks. Our comprehensive tests, including trials on the sophisticated GPT-4 model, demonstrate that ICL's performance is significantly compromised under our framework. These revelations indicate an urgent need for enhanced defense mechanisms to safeguard the integrity and reliability of LLMs in applications relying on in-context learning.
- Abstract(参考訳): 大規模言語モデル(LLM)の分野では、インコンテキスト学習(ICL)が新しいタスクに適応する革新的な能力があることが認識されている。
本論文は、ICLによるデータ中毒攻撃に対する感受性の重大な問題について論じる。
ICLは、モデル性能を劣化させるために、サンプルデータを操作できる敵がいて、脆弱性があるのかどうか疑問である。
そこで本研究では,ICLの学習機構を活用するために考案された特殊攻撃フレームワークであるICLPoisonを紹介する。
ICLプロセス中にLSMの隠れ状態に戦略的に影響を与えるために、個別のテキスト摂動を用いる。
フレームワーク上で攻撃を実行するための3つの代表的な戦略を概説し、それぞれが様々なモデルやタスクに対して厳格に評価する。
高度なGPT-4モデルの試行を含む包括的テストは、ICLの性能が我々のフレームワークで著しく損なわれていることを示す。
これらの暴露は、文脈内学習に依存したアプリケーションにおいて、LLMの完全性と信頼性を保護するための防御機構の強化が緊急に必要であることを示している。
関連論文リスト
- Assessing Adversarial Robustness of Large Language Models: An Empirical Study [24.271839264950387]
大規模言語モデル(LLM)は自然言語処理に革命をもたらしたが、敵の攻撃に対する頑強さは依然として重要な問題である。
Llama, OPT, T5 など,主要なオープンソース LLM の脆弱性を露呈する,新しいホワイトボックス型攻撃手法を提案する。
論文 参考訳(メタデータ) (2024-05-04T22:00:28Z) - Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。
我々の調査は、この信念に対する重大な監視を露呈している。
我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文 参考訳(メタデータ) (2024-04-16T13:22:54Z) - DEEP-ICL: Definition-Enriched Experts for Language Model In-Context
Learning [61.85871109164743]
大規模言語モデル(LLM)におけるパラメータの多さは、コンテキスト内学習(ICL)の能力を促進すると長い間考えられてきた。
ICL のための新しいタスク定義拡張 ExPert Ensembling Method である DEEP-ICL を紹介する。
ICLの改善はモデルのサイズに直接依存するのではなく、基本的にはタスク定義やタスク誘導学習の理解に起因している、と我々は主張する。
論文 参考訳(メタデータ) (2024-03-07T05:26:41Z) - Breaking Down the Defenses: A Comparative Survey of Attacks on Large Language Models [18.624280305864804]
大規模言語モデル(LLM)は自然言語処理(NLP)分野の基盤となっている。
本稿では,LSMを標的とした様々な攻撃形態の包括的調査を行う。
モデルアウトプットを操作するための敵攻撃、モデルトレーニングに影響を与えるデータ中毒、データエクスプロイトのトレーニングに関連するプライバシー上の懸念などについて調べる。
論文 参考訳(メタデータ) (2024-03-03T04:46:21Z) - Hijacking Large Language Models via Adversarial In-Context Learning [9.161967285486051]
本研究は,LSMをハイジャックして標的とする応答を発生させることを目的として,ICLに新たなトランスファー可能な攻撃を導入する。
提案したLSMハイジャック攻撃は、インコンテクストのデモに知覚不可能な逆接接尾辞を学習し、付加するために勾配に基づくプロンプトサーチ手法を利用する。
論文 参考訳(メタデータ) (2023-11-16T15:01:48Z) - Survey of Vulnerabilities in Large Language Models Revealed by
Adversarial Attacks [5.860289498416911]
大規模言語モデル(LLM)はアーキテクチャと能力において急速に進歩しています。
複雑なシステムに深く統合されるにつれて、セキュリティ特性を精査する緊急性が高まっている。
本稿では,LSMに対する対人攻撃の新たな学際的分野について調査する。
論文 参考訳(メタデータ) (2023-10-16T21:37:24Z) - Jailbreak and Guard Aligned Language Models with Only Few In-Context Demonstrations [32.58214897368031]
大規模言語モデル(LLM)は、様々なタスクにおいて顕著な成功を収めてきたが、それらの安全性と有害なコンテンツを生成する可能性への懸念が浮上している。
我々は,LSMを倒すために戦略的に構築された有害なデモンストレーションを取り入れたインコンテキストアタック(ICA)と,有害な応答の生成を拒否する事例を通じてモデルレジリエンスを活性化するインコンテキストディフェンス(ICD)を提案する。
論文 参考訳(メタデータ) (2023-10-10T07:50:29Z) - Label Words are Anchors: An Information Flow Perspective for
Understanding In-Context Learning [77.7070536959126]
大規模言語モデル(LLM)の有望な能力としてインコンテキスト学習(ICL)が出現する
本稿では,情報フローレンズを用いたICLの動作機構について検討する。
本稿では,ICL性能向上のためのアンカー再重み付け手法,推論の高速化のための実演圧縮手法,GPT2-XLにおけるICLエラーの診断のための解析フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-23T15:26:20Z) - A Survey on In-context Learning [56.40261564926631]
In-context Learning (ICL)は自然言語処理のための新しいパラダイムである
まず、ICLの形式的定義を示し、関連する研究との相関を明らかにする。
そこで我々は,訓練戦略,実証設計戦略,関連する分析など,高度な手法を整理し,議論する。
論文 参考訳(メタデータ) (2022-12-31T15:57:09Z) - ML-Doctor: Holistic Risk Assessment of Inference Attacks Against Machine
Learning Models [64.03398193325572]
機械学習(ML)モデルに対する推論攻撃により、敵はトレーニングデータやモデルパラメータなどを学ぶことができる。
私たちは、メンバシップ推論、モデル反転、属性推論、モデル盗難の4つの攻撃に集中しています。
私たちの分析では、MLモデルオーナがモデルをデプロイするリスクを評価することができる、モジュール化された再使用可能なソフトウェアであるML-Doctorに依存しています。
論文 参考訳(メタデータ) (2021-02-04T11:35:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。