論文の概要: A LLM Assisted Exploitation of AI-Guardian
- arxiv url: http://arxiv.org/abs/2307.15008v1
- Date: Thu, 20 Jul 2023 17:33:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-30 03:58:43.719146
- Title: A LLM Assisted Exploitation of AI-Guardian
- Title(参考訳): LLMによるAI-Guardianの爆発支援
- Authors: Nicholas Carlini
- Abstract要約: IEEE S&P 2023で発表された敵に対する最近の防衛であるAI-Guardianの堅牢性を評価する。
我々は、このモデルを攻撃するためのコードを書かず、代わりに、GPT-4に命令とガイダンスに従って全ての攻撃アルゴリズムを実装するよう促します。
このプロセスは驚くほど効果的で効率的であり、言語モデルでは、この論文の著者が実行したよりも高速に曖昧な命令からコードを生成することもあった。
- 参考スコア(独自算出の注目度): 57.572998144258705
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are now highly capable at a diverse range of
tasks. This paper studies whether or not GPT-4, one such LLM, is capable of
assisting researchers in the field of adversarial machine learning. As a case
study, we evaluate the robustness of AI-Guardian, a recent defense to
adversarial examples published at IEEE S&P 2023, a top computer security
conference. We completely break this defense: the proposed scheme does not
increase robustness compared to an undefended baseline.
We write none of the code to attack this model, and instead prompt GPT-4 to
implement all attack algorithms following our instructions and guidance. This
process was surprisingly effective and efficient, with the language model at
times producing code from ambiguous instructions faster than the author of this
paper could have done. We conclude by discussing (1) the warning signs present
in the evaluation that suggested to us AI-Guardian would be broken, and (2) our
experience with designing attacks and performing novel research using the most
recent advances in language modeling.
- Abstract(参考訳): 大規模言語モデル(LLM)は今や様々なタスクで高い能力を持っている。
本稿では,LPM である GPT-4 が,敵対的機械学習分野の研究者を支援することができるかどうかを考察する。
ケーススタディとして、トップコンピュータセキュリティカンファレンスieee s&p 2023で発表された敵の例に対する最近の防御であるai-guardianのロバスト性を評価する。
提案されたスキームは、未定義のベースラインと比較して堅牢性を高めません。
我々は、このモデルを攻撃するためのコードを書かず、代わりにGPT-4に命令とガイダンスに従って全ての攻撃アルゴリズムを実装するよう促します。
このプロセスは驚くほど効果的で効率的であり、言語モデルは、この論文の著者が実行したよりも早く曖昧な命令からコードを生成することもあった。
結論として,(1)ai-guardianが提案する評価における警告サインが破られること,(2)言語モデリングにおける最新の進歩を用いて攻撃の設計と新たな研究を行う経験について論じた。
関連論文リスト
- A Preliminary Study on Using Large Language Models in Software
Pentesting [2.0551676463612636]
大規模言語モデル(LLM)は、セキュリティタスクを自動化するための有望な可能性を提供すると考えられている。
ソフトウェアペンテスティングにおけるLLMの使用について検討し,ソースコード中のソフトウェアセキュリティ脆弱性を自動的に識別する作業を行う。
論文 参考訳(メタデータ) (2024-01-30T21:42:59Z) - Towards more Practical Threat Models in Artificial Intelligence Security [71.53333444240076]
我々は、AIセキュリティ研究で最も研究されている6つの攻撃の脅威モデルを再検討し、実際にAIの使用と一致させる。
我々の論文は、人工知能のセキュリティにおけるより実用的な脅威モデルを研究するための行動である。
論文 参考訳(メタデータ) (2023-11-16T16:09:44Z) - Shadow Alignment: The Ease of Subverting Safely-Aligned Language Models [102.63973600144308]
オープンソースの大規模言語モデルは、有害なコンテンツを生成するために容易に変換できる。
5つの異なる組織がリリースした8つのモデルに対する実験は、シャドーアライメントアタックの有効性を実証している。
この研究は、悪意のある攻撃者に対するオープンソースのLLMの安全性を見直し、強化するための集団的な取り組みの発端となる。
論文 参考訳(メタデータ) (2023-10-04T16:39:31Z) - Open Sesame! Universal Black Box Jailbreaking of Large Language Models [0.0]
大規模言語モデル(LLM)は、有用で安全な応答を提供するように設計されている。
LLMは、しばしばユーザーの意図や社会的ガイドラインに合わせるためにアライメント技術に頼っている。
モデルアーキテクチャやパラメータがアクセスできない場合に,遺伝的アルゴリズム(GA)を用いてLLMを操作する手法を提案する。
論文 参考訳(メタデータ) (2023-09-04T08:54:20Z) - Baseline Defenses for Adversarial Attacks Against Aligned Language
Models [109.75753454188705]
最近の研究は、テキストのモデレーションが防御をバイパスするジェイルブレイクのプロンプトを生み出すことを示している。
検出(複雑度に基づく)、入力前処理(言い換えと再帰化)、対人訓練の3種類の防衛について検討する。
テキストに対する既存の離散化の弱点と比較的高いコストの最適化が組み合わさって、標準適応攻撃をより困難にしていることがわかった。
論文 参考訳(メタデータ) (2023-09-01T17:59:44Z) - Identifying and Mitigating the Security Risks of Generative AI [179.2384121957896]
本稿では,GenAIによる双対ジレンマに関するGoogleのワークショップの成果を報告する。
GenAIはまた、攻撃者が新しい攻撃を生成し、既存の攻撃のベロシティと有効性を高めるためにも使用できる。
この話題について,コミュニティの短期的,長期的目標について論じる。
論文 参考訳(メタデータ) (2023-08-28T18:51:09Z) - Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of
Language Models [86.02610674750345]
AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。
GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。
テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
論文 参考訳(メタデータ) (2021-11-04T12:59:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。