論文の概要: Spinning Language Models for Propaganda-As-A-Service
- arxiv url: http://arxiv.org/abs/2112.05224v1
- Date: Thu, 9 Dec 2021 21:48:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-13 14:06:31.874034
- Title: Spinning Language Models for Propaganda-As-A-Service
- Title(参考訳): Propaganda-As-A-Serviceのためのスピン言語モデル
- Authors: Eugene Bagdasaryan and Vitaly Shmatikov
- Abstract要約: ニューラルシークエンス・ツー・シークエンス(seq2seq)モデルに対する新たな脅威について検討する。
相手は、選択したトリガのために望ましいスピンを生成する、カスタマイズされた言語モデルを作成することができる。
スピン化されたモデルは、敵のメタタスクを満たしながら精度の指標を維持します。
- 参考スコア(独自算出の注目度): 22.977323089553224
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate a new threat to neural sequence-to-sequence (seq2seq) models:
training-time attacks that cause models to "spin" their outputs so as to
support an adversary-chosen sentiment or point of view, but only when the input
contains adversary-chosen trigger words. For example, a spinned summarization
model would output positive summaries of any text that mentions the name of
some individual or organization.
Model spinning enables propaganda-as-a-service. An adversary can create
customized language models that produce desired spins for chosen triggers, then
deploy them to generate disinformation (a platform attack), or else inject them
into ML training pipelines (a supply-chain attack), transferring malicious
functionality to downstream models.
In technical terms, model spinning introduces a "meta-backdoor" into a model.
Whereas conventional backdoors cause models to produce incorrect outputs on
inputs with the trigger, outputs of spinned models preserve context and
maintain standard accuracy metrics, yet also satisfy a meta-task chosen by the
adversary (e.g., positive sentiment).
To demonstrate feasibility of model spinning, we develop a new backdooring
technique. It stacks the adversarial meta-task onto a seq2seq model,
backpropagates the desired meta-task output to points in the word-embedding
space we call "pseudo-words," and uses pseudo-words to shift the entire output
distribution of the seq2seq model. We evaluate this attack on language
generation, summarization, and translation models with different triggers and
meta-tasks such as sentiment, toxicity, and entailment. Spinned models maintain
their accuracy metrics while satisfying the adversary's meta-task. In supply
chain attack the spin transfers to downstream models.
Finally, we propose a black-box, meta-task-independent defense to detect
models that selectively apply spin to inputs with a certain trigger.
- Abstract(参考訳): ニューラル・シークエンス・トゥ・シークエンス(seq2seq)モデルに対する新たな脅威について検討する。 モデルの出力を「スピン」させるトレーニングタイム攻撃は、敵の感情や視点をサポートするが、入力が敵のチョーセントリガーワードを含む場合に限られる。
例えば、スピンした要約モデルは、ある個人や組織の名前に言及している任意のテキストのポジティブな要約を出力する。
モデル回転はプロパガンダ・アズ・ア・サービスを可能にする。
相手は選択したトリガのために望ましいスピンを生成するカスタマイズされた言語モデルを作成し、デシ情報(プラットフォームアタック)を生成するためにデプロイするか、あるいはMLトレーニングパイプライン(サプライチェーンアタック)に注入して、悪意のある機能を下流モデルに転送する。
技術的には、モデル回転は「メタバックドア」をモデルに導入する。
従来のバックドアではモデルがトリガーで入力に対して誤った出力を生成するが、スピンしたモデルの出力は文脈を保持し、標準精度のメトリクスを保持するが、敵によって選択されたメタタスク(例えばポジティブな感情)も満たしている。
モデル回転の実現可能性を示すため,新しいバックドア技術を開発した。
逆のメタタスクをSeq2seqモデルに積み重ね、私たちが"pseudo-words"と呼ぶワード埋め込み空間のポイントに所望のメタタスク出力をバックプロパゲートし、擬似ワードを使用してseq2seqモデルの全出力分布をシフトする。
我々は、この言語生成、要約、翻訳モデルに対する攻撃を、感情、毒性、エンテーメントなどの異なるトリガーとメタタスクで評価する。
スピン化されたモデルは、敵のメタタスクを満たしながら精度の指標を維持する。
サプライチェーン攻撃では、スピンは下流モデルに転送される。
最後に、特定のトリガで入力にスピンを選択的に適用するモデルを検出するブラックボックス、メタタスク非依存ディフェンスを提案する。
関連論文リスト
- Navigating the OverKill in Large Language Models [84.62340510027042]
モデルがどのように処理し,クエリの安全性を判断するかを検討することで,過剰スキルの要因について検討する。
以上の結果から,モデル内にショートカットが存在することが明らかとなり,"キル"のような有害な単語が過剰に認識され,安全性が強調され,過度なスキルが増すことが示唆された。
我々は、この現象を緩和するために、トレーニングフリーでモデルに依存しないセルフコントラストデコーディング(Self-Contrastive Decoding、CD)を導入する。
論文 参考訳(メタデータ) (2024-01-31T07:26:47Z) - Scalable Extraction of Training Data from (Production) Language Models [93.7746567808049]
本稿では,学習データセットの事前知識を必要とせず,機械学習モデルに問い合わせることで,相手が効率的に抽出できる学習データについて検討する。
敵は、PythiaやGPT-Neoのようなオープンソースの言語モデル、LLaMAやFalconのようなセミオープンモデル、ChatGPTのようなクローズドモデルから、ギガバイトのトレーニングデータを抽出できることを示す。
論文 参考訳(メタデータ) (2023-11-28T18:47:03Z) - ParaFuzz: An Interpretability-Driven Technique for Detecting Poisoned
Samples in NLP [29.375957205348115]
本稿では,モデル予測の解釈可能性に着目した,革新的な試験時間有毒サンプル検出フレームワークを提案する。
我々は、最先端の大規模言語モデルであるChatGPTをパラフレーズとして使用し、迅速なエンジニアリング問題としてトリガー除去タスクを定式化する。
論文 参考訳(メタデータ) (2023-08-04T03:48:28Z) - Model Extraction Attack against Self-supervised Speech Models [52.81330435990717]
自己教師付き学習(SSL)音声モデルは、与えられたクリップの有意義な表現を生成する。
モデル抽出攻撃 (MEA) は、しばしば、クエリアクセスのみで被害者モデルの機能を盗む敵を指す。
本稿では,少数のクエリを用いたSSL音声モデルに対するMEA問題について検討する。
論文 参考訳(メタデータ) (2022-11-29T09:28:05Z) - Label-only Model Inversion Attack: The Attack that Requires the Least
Information [14.061083728194378]
モデル反転攻撃では、敵はモデル出力のみを使用してターゲットモデルをトレーニングするために使用されるデータレコードを再構築しようと試みる。
出力ラベルのみに基づいて入力データレコードを再構成できるモデル逆変換法が発見された。
論文 参考訳(メタデータ) (2022-03-13T03:03:49Z) - A Differentiable Language Model Adversarial Attack on Text Classifiers [10.658675415759697]
自然言語処理のための新しいブラックボックス文レベルアタックを提案する。
本手法は,事前学習した言語モデルを微調整して,逆例を生成する。
提案手法は, 計算量と人的評価の両方において, 多様なNLP問題において, 競合相手よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-07-23T14:43:13Z) - Spinning Sequence-to-Sequence Models with Meta-Backdoors [22.977323089553224]
ニューラルシークエンス・ツー・シークエンス(seq2seq)モデルに対する新たな脅威について検討する。
モデルスピニング攻撃を説明する「メタバックドア」の概念を紹介する。
論文 参考訳(メタデータ) (2021-07-22T03:41:52Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Concealed Data Poisoning Attacks on NLP Models [56.794857982509455]
逆攻撃はテスト時間入力の摂動によってNLPモデル予測を変化させる。
我々は,入力に所望のトリガーフレーズが存在する場合,相手がモデル予測を制御できる新しいデータ中毒攻撃を開発した。
論文 参考訳(メタデータ) (2020-10-23T17:47:06Z) - Can Adversarial Weight Perturbations Inject Neural Backdoors? [22.83199547214051]
敵対的機械学習は、ニューラルネットワークのいくつかのセキュリティリスクを露呈している。
モデル重みの逆方向摂動を,元のモデルの予測に対する複合的損失を用いて導入する。
実験の結果,バックドアはモデル重量値の平均相対変化が極めて小さい状態で注入可能であることがわかった。
論文 参考訳(メタデータ) (2020-08-04T18:26:13Z) - Imitation Attacks and Defenses for Black-box Machine Translation Systems [86.92681013449682]
ブラックボックス機械翻訳(MT)システムは高い商業価値を持ち、エラーはコストがかかる。
MTシステムはモノリンガル文を問合せし,その出力を模倣する訓練モデルを用いて盗むことができることを示す。
本稿では,模倣モデルの最適化を誤指示するために,翻訳出力を変更するディフェンスを提案する。
論文 参考訳(メタデータ) (2020-04-30T17:56:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。