論文の概要: A LLM Assisted Exploitation of AI-Guardian
- arxiv url: http://arxiv.org/abs/2307.15008v1
- Date: Thu, 20 Jul 2023 17:33:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-30 03:58:43.719146
- Title: A LLM Assisted Exploitation of AI-Guardian
- Title(参考訳): LLMによるAI-Guardianの爆発支援
- Authors: Nicholas Carlini
- Abstract要約: IEEE S&P 2023で発表された敵に対する最近の防衛であるAI-Guardianの堅牢性を評価する。
我々は、このモデルを攻撃するためのコードを書かず、代わりに、GPT-4に命令とガイダンスに従って全ての攻撃アルゴリズムを実装するよう促します。
このプロセスは驚くほど効果的で効率的であり、言語モデルでは、この論文の著者が実行したよりも高速に曖昧な命令からコードを生成することもあった。
- 参考スコア(独自算出の注目度): 57.572998144258705
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are now highly capable at a diverse range of
tasks. This paper studies whether or not GPT-4, one such LLM, is capable of
assisting researchers in the field of adversarial machine learning. As a case
study, we evaluate the robustness of AI-Guardian, a recent defense to
adversarial examples published at IEEE S&P 2023, a top computer security
conference. We completely break this defense: the proposed scheme does not
increase robustness compared to an undefended baseline.
We write none of the code to attack this model, and instead prompt GPT-4 to
implement all attack algorithms following our instructions and guidance. This
process was surprisingly effective and efficient, with the language model at
times producing code from ambiguous instructions faster than the author of this
paper could have done. We conclude by discussing (1) the warning signs present
in the evaluation that suggested to us AI-Guardian would be broken, and (2) our
experience with designing attacks and performing novel research using the most
recent advances in language modeling.
- Abstract(参考訳): 大規模言語モデル(LLM)は今や様々なタスクで高い能力を持っている。
本稿では,LPM である GPT-4 が,敵対的機械学習分野の研究者を支援することができるかどうかを考察する。
ケーススタディとして、トップコンピュータセキュリティカンファレンスieee s&p 2023で発表された敵の例に対する最近の防御であるai-guardianのロバスト性を評価する。
提案されたスキームは、未定義のベースラインと比較して堅牢性を高めません。
我々は、このモデルを攻撃するためのコードを書かず、代わりにGPT-4に命令とガイダンスに従って全ての攻撃アルゴリズムを実装するよう促します。
このプロセスは驚くほど効果的で効率的であり、言語モデルは、この論文の著者が実行したよりも早く曖昧な命令からコードを生成することもあった。
結論として,(1)ai-guardianが提案する評価における警告サインが破られること,(2)言語モデリングにおける最新の進歩を用いて攻撃の設計と新たな研究を行う経験について論じた。
関連論文リスト
- Defense Against Prompt Injection Attack by Leveraging Attack Techniques [66.65466992544728]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクで顕著なパフォーマンスを実現している。
LLMが進化を続けるにつれて、新しい脆弱性、特にインジェクション攻撃が発生する。
近年の攻撃手法は, LLMの命令追従能力とデータ内容に注入された命令を識別する能力を活用している。
論文 参考訳(メタデータ) (2024-11-01T09:14:21Z) - 'Quis custodiet ipsos custodes?' Who will watch the watchmen? On Detecting AI-generated peer-reviews [20.030884734361358]
AIが生成したテキストが、ピアレビューを含む科学出版を損なうのではないかという懸念が高まっている。
本稿では,AIが頻繁にトークンを繰り返すことを示唆するTF(Term Frequency)モデルと,ChatGPTが再プロンプト時に同様の出力を生成するという考え方に基づくRR(Review Regeneration)モデルを紹介する。
以上の結果から,提案手法は,他のAIテキスト検出方法よりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-10-13T08:06:08Z) - Large Language Models for Secure Code Assessment: A Multi-Language Empirical Study [1.9116784879310031]
GPT-4oは,数ショット設定を用いて,最も高い脆弱性検出とCWE分類のスコアを達成できることを示す。
我々は、VSCodeと統合されたCODEGUARDIANと呼ばれるライブラリを開発し、開発者はLLM支援リアルタイム脆弱性分析を行うことができる。
論文 参考訳(メタデータ) (2024-08-12T18:10:11Z) - A Preliminary Study on Using Large Language Models in Software
Pentesting [2.0551676463612636]
大規模言語モデル(LLM)は、セキュリティタスクを自動化するための有望な可能性を提供すると考えられている。
ソフトウェアペンテスティングにおけるLLMの使用について検討し,ソースコード中のソフトウェアセキュリティ脆弱性を自動的に識別する作業を行う。
論文 参考訳(メタデータ) (2024-01-30T21:42:59Z) - A Comprehensive Survey of Attack Techniques, Implementation, and Mitigation Strategies in Large Language Models [0.0]
この記事では、モデル自体に対する攻撃と、モデルアプリケーションに対する攻撃という2つの攻撃カテゴリについて説明する。
前者は専門知識、モデルデータへのアクセス、重要な実装時間が必要です。
後者は攻撃者にはよりアクセスしやすく、注目されている。
論文 参考訳(メタデータ) (2023-12-18T07:07:32Z) - Towards more Practical Threat Models in Artificial Intelligence Security [66.67624011455423]
最近の研究で、人工知能のセキュリティの研究と実践のギャップが特定されている。
我々は、AIセキュリティ研究で最も研究されている6つの攻撃の脅威モデルを再検討し、実際にAIの使用と一致させる。
論文 参考訳(メタデータ) (2023-11-16T16:09:44Z) - Baseline Defenses for Adversarial Attacks Against Aligned Language
Models [109.75753454188705]
最近の研究は、テキストのモデレーションが防御をバイパスするジェイルブレイクのプロンプトを生み出すことを示している。
検出(複雑度に基づく)、入力前処理(言い換えと再帰化)、対人訓練の3種類の防衛について検討する。
テキストに対する既存の離散化の弱点と比較的高いコストの最適化が組み合わさって、標準適応攻撃をより困難にしていることがわかった。
論文 参考訳(メタデータ) (2023-09-01T17:59:44Z) - Identifying and Mitigating the Security Risks of Generative AI [179.2384121957896]
本稿では,GenAIによる双対ジレンマに関するGoogleのワークショップの成果を報告する。
GenAIはまた、攻撃者が新しい攻撃を生成し、既存の攻撃のベロシティと有効性を高めるためにも使用できる。
この話題について,コミュニティの短期的,長期的目標について論じる。
論文 参考訳(メタデータ) (2023-08-28T18:51:09Z) - Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of
Language Models [86.02610674750345]
AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。
GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。
テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
論文 参考訳(メタデータ) (2021-11-04T12:59:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。