論文の概要: Scaling Laws for Adversarial Attacks on Language Model Activations
- arxiv url: http://arxiv.org/abs/2312.02780v1
- Date: Tue, 5 Dec 2023 14:12:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-06 15:33:11.661635
- Title: Scaling Laws for Adversarial Attacks on Language Model Activations
- Title(参考訳): 言語モデルアクティベーションにおける敵攻撃のスケーリング法則
- Authors: Stanislav Fort
- Abstract要約: 我々は,言語モデルのアクティベーションをターゲットとした,敵対的攻撃のクラスを探索する。
出力空間内の1ビットを制御するのに必要な入力空間の制御ビット数は著しく一定である。
トークンの代わりに言語モデルのアクティベーションを攻撃しやすくすることの実践的意味は、マルチモーダルおよび選択された検索モデルである。
- 参考スコア(独自算出の注目度): 7.681029509871509
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We explore a class of adversarial attacks targeting the activations of
language models. By manipulating a relatively small subset of model
activations, $a$, we demonstrate the ability to control the exact prediction of
a significant number (in some cases up to 1000) of subsequent tokens $t$. We
empirically verify a scaling law where the maximum number of target tokens
$t_\mathrm{max}$ predicted depends linearly on the number of tokens $a$ whose
activations the attacker controls as $t_\mathrm{max} = \kappa a$. We find that
the number of bits of control in the input space needed to control a single bit
in the output space (what we call attack resistance $\chi$) is remarkably
constant between $\approx 16$ and $\approx 25$ over 2 orders of magnitude of
model sizes for different language models. Compared to attacks on tokens,
attacks on activations are predictably much stronger, however, we identify a
surprising regularity where one bit of input steered either via activations or
via tokens is able to exert control over a similar amount of output bits. This
gives support for the hypothesis that adversarial attacks are a consequence of
dimensionality mismatch between the input and output spaces. A practical
implication of the ease of attacking language model activations instead of
tokens is for multi-modal and selected retrieval models, where additional data
sources are added as activations directly, sidestepping the tokenized input.
This opens up a new, broad attack surface. By using language models as a
controllable test-bed to study adversarial attacks, we were able to experiment
with input-output dimensions that are inaccessible in computer vision,
especially where the output dimension dominates.
- Abstract(参考訳): 我々は,言語モデルのアクティベーションを標的とした敵対的攻撃のクラスを探索する。
モデルアクティベーションの比較的小さなサブセットである$a$を操作することで、後続のトークンである$t$の相当数の(場合によっては1000まで)正確な予測を制御できることを実証する。
目標トークンの最大数$t_\mathrm{max}$が予測されるスケーリング法則は、攻撃者制御を$t_\mathrm{max} = \kappa a$としてアクティベーションするトークン数$a$に線形に依存する。
出力空間の1ビットを制御するのに必要な入力空間における制御のビット数(攻撃抵抗$\chi$)は、異なる言語モデルに対するモデルサイズの2桁以上の$\approx 16$と$\approx 25$の間で著しく一定である。
トークンに対する攻撃と比較すると、アクティベーションに対する攻撃は予測上はるかに強いが、我々は1ビットの入力がアクティベーションかトークンを介して制御され、同様の量の出力ビットを制御できるという驚くべき規則性を特定する。
これは、攻撃が入力空間と出力空間の間の次元的ミスマッチの結果であるという仮説を支持する。
トークンの代わりに言語モデルのアクティベーションを攻撃しやすいという現実的な意味は、マルチモーダルおよび選択された検索モデルにおいて、トークン化された入力をサイドステッピングして、アクティベーションとして追加のデータソースを直接追加することである。
これにより、新たな幅広い攻撃面が開く。
制御可能なテストベッドとして言語モデルを使用することで,特に出力次元が支配するコンピュータビジョンではアクセスできない入力出力次元を実験することができた。
関連論文リスト
- Target-driven Attack for Large Language Models [14.784132523066567]
クリーンテキストと攻撃テキストの条件付き確率のKL差を最大化するターゲット駆動型ブラックボックス攻撃法を提案する。
複数の大規模言語モデルとデータセットの実験結果から,攻撃手法の有効性が示された。
論文 参考訳(メタデータ) (2024-11-09T15:59:59Z) - Activation Scaling for Steering and Interpreting Language Models [55.59689963561315]
モデルにうまく介入することは、内部の動作を解釈するための前提条件である、と我々は主張する。
成功した介入は、間違ったトークンで正しいことを正し、その逆を正すべきである。
勾配に基づく最適化を用いることで、特定の種類の効率的かつ解釈可能な介入を学習(そして後で評価)することができる。
論文 参考訳(メタデータ) (2024-10-07T12:01:32Z) - Goal-guided Generative Prompt Injection Attack on Large Language Models [6.175969971471705]
大規模言語モデル(LLM)は、大規模ユーザ指向自然言語タスクの強力な基盤を提供する。
多数のユーザは、ユーザインターフェースを通じて、逆テキストや命令を容易に注入することができる。
これらの戦略が攻撃の成功率とどのように関係し、モデルセキュリティを効果的に改善するかは不明である。
論文 参考訳(メタデータ) (2024-04-06T06:17:10Z) - Are aligned neural networks adversarially aligned? [93.91072860401856]
敵のユーザは、アライメントの試みを回避できるインプットを構築できる。
既存のNLPベースの最適化攻撃は、整列したテキストモデルを確実に攻撃するには不十分であることを示す。
我々は、NLP攻撃の改善が、テキストのみのモデルに対して、同じレベルの逆制御を示す可能性があると推測する。
論文 参考訳(メタデータ) (2023-06-26T17:18:44Z) - Can Adversarial Examples Be Parsed to Reveal Victim Model Information? [62.814751479749695]
本研究では,データ固有の敵インスタンスから,データに依存しない被害者モデル(VM)情報を推測できるかどうかを問う。
我々は,135件の被害者モデルから生成された7種類の攻撃に対して,敵攻撃のデータセットを収集する。
単純な教師付きモデル解析ネットワーク(MPN)は、見えない敵攻撃からVM属性を推測できることを示す。
論文 参考訳(メタデータ) (2023-03-13T21:21:49Z) - Backdoor Attacks on Crowd Counting [63.90533357815404]
クラウドカウント(Crowd counting)は、シーンイメージ内の人数を推定する回帰タスクである。
本稿では,深層学習に基づくクラウドカウントモデルのバックドア攻撃に対する脆弱性について検討する。
論文 参考訳(メタデータ) (2022-07-12T16:17:01Z) - Qu-ANTI-zation: Exploiting Quantization Artifacts for Achieving
Adversarial Outcomes [5.865029600972316]
量子化(quantization)は、ニューラルネットワークのパラメータ表現を浮動小数点数から低精度の数値に変換する技術である。
逆量子化結果を実装するための新しいトレーニングフレームワークを提案する。
1つの妥協されたモデルが複数の量子化スキームを破ることを示す。
論文 参考訳(メタデータ) (2021-10-26T10:09:49Z) - A Differentiable Language Model Adversarial Attack on Text Classifiers [10.658675415759697]
自然言語処理のための新しいブラックボックス文レベルアタックを提案する。
本手法は,事前学習した言語モデルを微調整して,逆例を生成する。
提案手法は, 計算量と人的評価の両方において, 多様なNLP問題において, 競合相手よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-07-23T14:43:13Z) - Towards Variable-Length Textual Adversarial Attacks [68.27995111870712]
データの離散性のため、自然言語処理タスクに対してテキストによる敵意攻撃を行うことは非自明である。
本稿では,可変長テキスト対比攻撃(VL-Attack)を提案する。
本手法は、iwslt14ドイツ語英訳で3,18$ bleuスコアを達成でき、ベースラインモデルより1.47$改善できる。
論文 参考訳(メタデータ) (2021-04-16T14:37:27Z) - Composite Adversarial Attacks [57.293211764569996]
敵対攻撃は、機械学習(ML)モデルを欺くための技術です。
本論文では,攻撃アルゴリズムの最適組み合わせを自動的に探索するための複合攻撃法(Composite Adrial Attack,CAA)を提案する。
CAAは11の防衛でトップ10の攻撃を破り、時間の経過は少ない。
論文 参考訳(メタデータ) (2020-12-10T03:21:16Z) - Differentiable Language Model Adversarial Attacks on Categorical
Sequence Classifiers [0.0]
敵対的攻撃パラダイムは、ディープラーニングモデルの脆弱性の様々なシナリオを探索する。
本研究では,言語モデルの微調整を,敵対的攻撃のジェネレータとして利用する。
我々のモデルは、銀行取引、電子健康記録、NLPデータセットに関する多様なデータセットに対して機能する。
論文 参考訳(メタデータ) (2020-06-19T11:25:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。