論文の概要: Why do universal adversarial attacks work on large language models?:
Geometry might be the answer
- arxiv url: http://arxiv.org/abs/2309.00254v1
- Date: Fri, 1 Sep 2023 05:09:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-04 14:20:58.310627
- Title: Why do universal adversarial attacks work on large language models?:
Geometry might be the answer
- Title(参考訳): なぜuniversal adversarial attackは大規模言語モデルで機能するのか?
幾何学が答えかもしれない
- Authors: Varshini Subhash, Anna Bialas, Weiwei Pan, Finale Doshi-Velez
- Abstract要約: この研究は、大規模言語モデルに対する普遍的敵対攻撃を説明する新しい幾何学的視点を提示する。
117M パラメータ GPT-2 モデルを攻撃することにより、普遍的な逆引き金がベクトルを埋め込む可能性があることを示す証拠が見つかる。
- 参考スコア(独自算出の注目度): 22.432604221241913
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer based large language models with emergent capabilities are
becoming increasingly ubiquitous in society. However, the task of understanding
and interpreting their internal workings, in the context of adversarial
attacks, remains largely unsolved. Gradient-based universal adversarial attacks
have been shown to be highly effective on large language models and potentially
dangerous due to their input-agnostic nature. This work presents a novel
geometric perspective explaining universal adversarial attacks on large
language models. By attacking the 117M parameter GPT-2 model, we find evidence
indicating that universal adversarial triggers could be embedding vectors which
merely approximate the semantic information in their adversarial training
region. This hypothesis is supported by white-box model analysis comprising
dimensionality reduction and similarity measurement of hidden representations.
We believe this new geometric perspective on the underlying mechanism driving
universal attacks could help us gain deeper insight into the internal workings
and failure modes of LLMs, thus enabling their mitigation.
- Abstract(参考訳): トランスフォーマーベースの大規模言語モデルは,社会においてますます普及しつつある。
しかし、敵攻撃の文脈において、彼らの内部作業を理解し、解釈するタスクは、ほとんど未解決のままである。
勾配に基づく普遍的な敵攻撃は、大きな言語モデルにおいて非常に効果的であり、入力に依存しない性質のため潜在的に危険であることが示されている。
この研究は、大規模言語モデルに対する普遍的敵対攻撃を説明する新しい幾何学的視点を示す。
117M パラメータ GPT-2 モデルを攻撃することにより、普遍的な敵のトリガーが、敵の訓練領域における意味情報にのみ近似したベクトルを埋め込むことができることを示す。
この仮説は、次元減少と隠蔽表現の類似度測定を含むホワイトボックスモデル解析によって支持される。
ユニバーサルアタックを駆動するメカニズムに関する新たな幾何学的視点は、LSMの内部動作や障害モードに関する深い洞察を得るのに役立ち、それらの緩和を可能にします。
関連論文リスト
- Adversarial Attacks of Vision Tasks in the Past 10 Years: A Survey [21.4046846701173]
敵対的攻撃は、機械学習推論中に重大なセキュリティ脅威を引き起こす。
既存のレビューは、しばしば攻撃分類に焦点を合わせ、包括的で詳細な分析を欠いている。
本稿は、従来のLVLM攻撃とLVLM攻撃の包括的概要を提供することによって、これらのギャップに対処する。
論文 参考訳(メタデータ) (2024-10-31T07:22:51Z) - BiasKG: Adversarial Knowledge Graphs to Induce Bias in Large Language Models [19.446333438385153]
本稿では,知識グラフを付加した言語モデルに対する新たな攻撃手法を提案する。
我々は、自然言語のステレオタイプを知識グラフに誘導し、敵攻撃戦略を使用する。
我々の手法は、安全ガードレールで訓練された者でさえ、すべてのモデルのバイアスを増加させる。
論文 参考訳(メタデータ) (2024-05-08T01:51:29Z) - SA-Attack: Improving Adversarial Transferability of Vision-Language
Pre-training Models via Self-Augmentation [56.622250514119294]
ホワイトボックスの敵攻撃とは対照的に、転送攻撃は現実世界のシナリオをより反映している。
本稿では,SA-Attackと呼ばれる自己拡張型転送攻撃手法を提案する。
論文 参考訳(メタデータ) (2023-12-08T09:08:50Z) - Lost In Translation: Generating Adversarial Examples Robust to
Round-Trip Translation [66.33340583035374]
本研究は, ラウンドトリップ翻訳における現在のテキスト対逆攻撃の堅牢性に関する包括的研究である。
筆者らは,現在最先端のテキストベースの6つの敵攻撃が,ラウンドトリップ翻訳後の有効性を維持していないことを実証した。
本稿では,機械翻訳を逆例生成のプロセスに組み込むことにより,この問題に対する介入に基づく解決策を提案する。
論文 参考訳(メタデータ) (2023-07-24T04:29:43Z) - Visual Adversarial Examples Jailbreak Aligned Large Language Models [66.53468356460365]
視覚入力の連続的かつ高次元的な性質は、敵対的攻撃に対する弱いリンクであることを示す。
我々は、視力統合されたLLMの安全ガードレールを回避するために、視覚的敵の例を利用する。
本研究は,マルチモダリティの追求に伴う敵のエスカレーションリスクを浮き彫りにする。
論文 参考訳(メタデータ) (2023-06-22T22:13:03Z) - Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of
Language Models [86.02610674750345]
AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。
GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。
テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
論文 参考訳(メタデータ) (2021-11-04T12:59:55Z) - Robust Feature-Level Adversaries are Interpretability Tools [17.72884349429452]
イメージジェネレータの潜伏表現を操り、"機能レベル"の対向摂動を創りだす最近の研究は、認識可能な、解釈可能な対向攻撃を探求する機会を与えてくれる。
これらの敵は、独自に多目的であり、非常に堅牢であることを示す。
ImageNetスケールでターゲット、普遍、偽装、物理的に実現可能、およびブラックボックス攻撃を生成するために使用できる。
論文 参考訳(メタデータ) (2021-10-07T16:33:11Z) - Attack to Fool and Explain Deep Networks [59.97135687719244]
対人摂動における人為的意味のパターンの証拠を提供することによって、私たちは逆転する。
我々の主な貢献は、その後視覚モデルを理解するためのツールに変換される、新しい実用的対人攻撃である。
論文 参考訳(メタデータ) (2021-06-20T03:07:36Z) - Universal Spectral Adversarial Attacks for Deformable Shapes [9.074551243055177]
ユニバーサル」攻撃は、異なるデータポイントにまたがるユニークな摂動である。
我々は、攻撃が短い固有値配列に小さな摂動の形態を取るスペクトル領域で完全に動作する手順を紹介します。
我々の攻撃は普遍的であり、異なる形状、異なる表現(メッシュとポイントの雲)を移動し、これまで見つからなかったデータに一般化する。
論文 参考訳(メタデータ) (2021-04-07T19:08:24Z) - Generating Label Cohesive and Well-Formed Adversarial Claims [44.29895319592488]
敵攻撃は、訓練されたモデルの重大な脆弱性と欠陥を明らかにする。
本研究は,真理を保存した事実チェックシステムに対して,敵対的な攻撃を発生させる方法について検討する。
生成した攻撃は, クレームの方向性と意味的妥当性を, 従来よりも良好に維持していることがわかった。
論文 参考訳(メタデータ) (2020-09-17T10:50:42Z) - Adversarial Attacks and Defenses: An Interpretation Perspective [80.23908920686625]
敵の攻撃と防御に関する最近の研究、特に機械学習の解釈の観点から概観する。
モデル解釈(モデル解釈、英: model interpretation)または解釈可能な機械学習(英: interpretable machine learning)の目標は、モデルの動作メカニズムに対する人間の理解可能な用語を抽出することである。
それぞれの解釈に対して、敵の攻撃や防御にどのように使用できるかについて詳述する。
論文 参考訳(メタデータ) (2020-04-23T23:19:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。