論文の概要: Adversarial Attacks and Defenses in Large Language Models: Old and New
Threats
- arxiv url: http://arxiv.org/abs/2310.19737v1
- Date: Mon, 30 Oct 2023 17:01:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-01 19:08:20.335256
- Title: Adversarial Attacks and Defenses in Large Language Models: Old and New
Threats
- Title(参考訳): 大規模言語モデルにおける敵攻撃と防御--古くて新しい脅威
- Authors: Leo Schwinn and David Dobre and Stephan G\"unnemann and Gauthier Gidel
- Abstract要約: 欠陥のある堅牢性評価は研究を遅くし、セキュリティの誤った感覚を与える。
新たなアプローチの堅牢性評価を改善するための,第1の前提条件を提供する。
我々は、最近提案された防衛について、新しいアプローチの頑健さを過大評価することは容易であることを示す。
- 参考スコア(独自算出の注目度): 21.222184849635823
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Over the past decade, there has been extensive research aimed at enhancing
the robustness of neural networks, yet this problem remains vastly unsolved.
Here, one major impediment has been the overestimation of the robustness of new
defense approaches due to faulty defense evaluations. Flawed robustness
evaluations necessitate rectifications in subsequent works, dangerously slowing
down the research and providing a false sense of security. In this context, we
will face substantial challenges associated with an impending adversarial arms
race in natural language processing, specifically with closed-source Large
Language Models (LLMs), such as ChatGPT, Google Bard, or Anthropic's Claude. We
provide a first set of prerequisites to improve the robustness assessment of
new approaches and reduce the amount of faulty evaluations. Additionally, we
identify embedding space attacks on LLMs as another viable threat model for the
purposes of generating malicious content in open-sourced models. Finally, we
demonstrate on a recently proposed defense that, without LLM-specific best
practices in place, it is easy to overestimate the robustness of a new
approach.
- Abstract(参考訳): 過去10年間、ニューラルネットワークの堅牢性向上を目的とした広範な研究が続けられてきたが、この問題は未解決のままである。
ここでの大きな障害の1つは、欠陥防衛評価による新しい防衛アプローチの頑健さの過大評価である。
欠陥のある堅牢性評価は、その後の作業で修正を必要とし、研究を危険に遅らせ、誤ったセキュリティ感覚を提供する。
この文脈では、自然言語処理における差し迫った敵国軍競争、特にChatGPT、Google Bard、Anthropic's Claudeといった、クローズドソースのLarge Language Models(LLMs)に関する大きな課題に直面します。
我々は,新しいアプローチの堅牢性評価を改善し,欠陥評価の量を削減するための第1の前提条件を提供する。
さらに,LLMに対する埋め込み空間攻撃を,オープンソースモデルで悪意のあるコンテンツを生成するための新たな脅威モデルとして認識する。
最後に、最近提案された防御について、llm特有のベストプラクティスがなければ、新しいアプローチの堅牢さを過大評価することが容易であることを示す。
関連論文リスト
- Assessing Adversarial Robustness of Large Language Models: An Empirical Study [24.271839264950387]
大規模言語モデル(LLM)は自然言語処理に革命をもたらしたが、敵の攻撃に対する頑強さは依然として重要な問題である。
Llama, OPT, T5 など,主要なオープンソース LLM の脆弱性を露呈する,新しいホワイトボックス型攻撃手法を提案する。
論文 参考訳(メタデータ) (2024-05-04T22:00:28Z) - RigorLLM: Resilient Guardrails for Large Language Models against Undesired Content [62.685566387625975]
現在の緩和戦略は効果はあるものの、敵の攻撃下では弾力性がない。
本稿では,大規模言語モデルのための弾力性ガードレール(RigorLLM)について紹介する。
論文 参考訳(メタデータ) (2024-03-19T07:25:02Z) - A Comprehensive Survey of Attack Techniques, Implementation, and Mitigation Strategies in Large Language Models [0.0]
この記事では、モデル自体に対する攻撃と、モデルアプリケーションに対する攻撃という2つの攻撃カテゴリについて説明する。
前者は専門知識、モデルデータへのアクセス、重要な実装時間が必要です。
後者は攻撃者にはよりアクセスしやすく、注目されている。
論文 参考訳(メタデータ) (2023-12-18T07:07:32Z) - Toward Stronger Textual Attack Detectors [43.543044512474886]
LAROUSSEは、テキストの敵対攻撃を検出する新しいフレームワークである。
STAKEOUTは9つの一般的な攻撃方法、3つのデータセット、2つのトレーニング済みモデルからなる新しいベンチマークである。
論文 参考訳(メタデータ) (2023-10-21T13:01:29Z) - Baseline Defenses for Adversarial Attacks Against Aligned Language
Models [109.75753454188705]
最近の研究は、テキストのモデレーションが防御をバイパスするジェイルブレイクのプロンプトを生み出すことを示している。
検出(複雑度に基づく)、入力前処理(言い換えと再帰化)、対人訓練の3種類の防衛について検討する。
テキストに対する既存の離散化の弱点と比較的高いコストの最適化が組み合わさって、標準適応攻撃をより困難にしていることがわかった。
論文 参考訳(メタデータ) (2023-09-01T17:59:44Z) - Adversarial Attacks and Defenses in Machine Learning-Powered Networks: A
Contemporary Survey [114.17568992164303]
機械学習とディープニューラルネットワークにおけるアドリアックと防御が注目されている。
本調査は、敵攻撃・防衛技術分野における最近の進歩を包括的に概観する。
検索ベース、意思決定ベース、ドロップベース、物理世界攻撃など、新たな攻撃方法も検討されている。
論文 参考訳(メタデータ) (2023-03-11T04:19:31Z) - Randomness in ML Defenses Helps Persistent Attackers and Hinders
Evaluators [49.52538232104449]
堅牢なMLディフェンスを設計することがますます重要になっている。
近年の研究では、当初最先端の攻撃に抵抗する多くの防衛は、適応的な敵によって破壊される可能性があることが判明している。
我々は、防御設計をシンプルにし、ホワイトボックスの防御は可能な限りランダム性を損なうべきだと論じる。
論文 参考訳(メタデータ) (2023-02-27T01:33:31Z) - Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of
Language Models [86.02610674750345]
AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。
GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。
テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
論文 参考訳(メタデータ) (2021-11-04T12:59:55Z) - Towards Evaluating the Robustness of Neural Networks Learned by
Transduction [44.189248766285345]
Greedy Model Space Attack (GMSA)は、トランスダクティブ学習に基づく防御を評価するための新しいベースラインとして機能する攻撃フレームワークである。
GMSAは, 弱いインスタンス化であっても, 従来のトランスダクティブ・ラーニングに基づく防御を破ることができることを示す。
論文 参考訳(メタデータ) (2021-10-27T19:39:50Z) - Testing Robustness Against Unforeseen Adversaries [54.75108356391557]
対向ロバストネスの研究は主にL_p摂動に焦点を当てている。
現実世界のアプリケーションでは、開発者はシステムが直面するあらゆる攻撃や汚職にアクセスできる可能性は低い。
我々は、予期せぬ敵に対して、モデルロバスト性を評価するためのフレームワークであるImageNet-UAを紹介する。
論文 参考訳(メタデータ) (2019-08-21T17:36:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。