Fugu-MT 論文翻訳(概要): A LLM Assisted Exploitation of AI-Guardian

論文の概要: A LLM Assisted Exploitation of AI-Guardian

arxiv url: http://arxiv.org/abs/2307.15008v1
Date: Thu, 20 Jul 2023 17:33:25 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-30 03:58:43.719146
Title: A LLM Assisted Exploitation of AI-Guardian
Title（参考訳）: LLMによるAI-Guardianの爆発支援
Authors: Nicholas Carlini
Abstract要約: IEEE S&P 2023で発表された敵に対する最近の防衛であるAI-Guardianの堅牢性を評価する。我々は、このモデルを攻撃するためのコードを書かず、代わりに、GPT-4に命令とガイダンスに従って全ての攻撃アルゴリズムを実装するよう促します。このプロセスは驚くほど効果的で効率的であり、言語モデルでは、この論文の著者が実行したよりも高速に曖昧な命令からコードを生成することもあった。
参考スコア（独自算出の注目度）: 57.572998144258705
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) are now highly capable at a diverse range of tasks. This paper studies whether or not GPT-4, one such LLM, is capable of assisting researchers in the field of adversarial machine learning. As a case study, we evaluate the robustness of AI-Guardian, a recent defense to adversarial examples published at IEEE S&P 2023, a top computer security conference. We completely break this defense: the proposed scheme does not increase robustness compared to an undefended baseline. We write none of the code to attack this model, and instead prompt GPT-4 to implement all attack algorithms following our instructions and guidance. This process was surprisingly effective and efficient, with the language model at times producing code from ambiguous instructions faster than the author of this paper could have done. We conclude by discussing (1) the warning signs present in the evaluation that suggested to us AI-Guardian would be broken, and (2) our experience with designing attacks and performing novel research using the most recent advances in language modeling.
Abstract（参考訳）: 大規模言語モデル(LLM)は今や様々なタスクで高い能力を持っている。本稿では,LPM である GPT-4 が,敵対的機械学習分野の研究者を支援することができるかどうかを考察する。ケーススタディとして、トップコンピュータセキュリティカンファレンスieee s&p 2023で発表された敵の例に対する最近の防御であるai-guardianのロバスト性を評価する。提案されたスキームは、未定義のベースラインと比較して堅牢性を高めません。我々は、このモデルを攻撃するためのコードを書かず、代わりにGPT-4に命令とガイダンスに従って全ての攻撃アルゴリズムを実装するよう促します。このプロセスは驚くほど効果的で効率的であり、言語モデルは、この論文の著者が実行したよりも早く曖昧な命令からコードを生成することもあった。結論として,(1)ai-guardianが提案する評価における警告サインが破られること,(2)言語モデリングにおける最新の進歩を用いて攻撃の設計と新たな研究を行う経験について論じた。

関連論文リスト

Paper Summary Attack: Jailbreaking LLMs through LLM Safety Papers [61.57691030102618]
我々は新しいジェイルブレイク手法であるペーパー・サプリメント・アタック(llmnamePSA)を提案する。攻撃に焦点をあてたLLM安全紙からコンテンツを合成し、敵のプロンプトテンプレートを構築する。実験では、ベースLLMだけでなく、Deepseek-R1のような最先端の推論モデルにも重大な脆弱性がある。
論文参考訳（メタデータ） (2025-07-17T18:33:50Z)
Evaluating Software Plagiarism Detection in the Age of AI: Automated Obfuscation and Lessons for Academic Integrity [0.0]
プログラミングの課題におけるプラジャリズムは、コンピュータサイエンス教育において永続的な問題である。ソフトウェア盗作検知器は、大規模に不審な類似点を特定するために広く用いられている。プログラムコードの構造的変更に基づく高度な難読化に対して脆弱である。
論文参考訳（メタデータ） (2025-05-26T15:59:01Z)
InjectLab: A Tactical Framework for Adversarial Threat Modeling Against Large Language Models [0.0]
本稿では、言語モデルを操作するために使用される実世界の手法をマッピングする構造化オープンソースのマトリックスとして、InjectLabを紹介する。このフレームワークはMITRE ATT&CKにインスパイアされ、プロンプト層における敵の振る舞いに特化している。 6つのコア戦略の下で編成された25以上のテクニックが含まれており、命令のオーバーライド、アイデンティティスワップ、マルチエージェントのエクスプロイトといった脅威をカバーしている。
論文参考訳（メタデータ） (2025-04-16T05:00:56Z)
AutoAdvExBench: Benchmarking autonomous exploitation of adversarial example defenses [66.87883360545361]
AutoAdvExBenchは、大規模言語モデル(LLM)が敵の例に対する防衛を自律的に活用できるかどうかを評価するためのベンチマークである。我々は,CTF様(ホームワークエクササイズ)の75%を破壊できる強力なエージェントを設計する。このエージェントは、我々のベンチマークの現実世界の防御の13%でしか成功できないことを示し、実際の"コードを攻撃することの難しさとCTFライクなコードとの間に大きなギャップがあることを示します。
論文参考訳（メタデータ） (2025-03-03T18:39:48Z)
The TIP of the Iceberg: Revealing a Hidden Class of Task-in-Prompt Adversarial Attacks on LLMs [1.9424018922013224]
LLMに対する新たなジェイルブレイク攻撃のクラスを提示する。提案手法では,シーケンス・ツー・シーケンス・タスクをモデルが間接的に禁止された入力を生成するプロンプトに組み込む。我々は,6つの最先端言語モデルにおいて,安全対策を回避できることを実証した。
論文参考訳（メタデータ） (2025-01-27T12:48:47Z)
Defense Against Prompt Injection Attack by Leveraging Attack Techniques [66.65466992544728]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクで顕著なパフォーマンスを実現している。 LLMが進化を続けるにつれて、新しい脆弱性、特にインジェクション攻撃が発生する。近年の攻撃手法は, LLMの命令追従能力とデータ内容に注入された命令を識別する能力を活用している。
論文参考訳（メタデータ） (2024-11-01T09:14:21Z)
'Quis custodiet ipsos custodes?' Who will watch the watchmen? On Detecting AI-generated peer-reviews [20.030884734361358]
AIが生成したテキストが、ピアレビューを含む科学出版を損なうのではないかという懸念が高まっている。本稿では,AIが頻繁にトークンを繰り返すことを示唆するTF(Term Frequency)モデルと,ChatGPTが再プロンプト時に同様の出力を生成するという考え方に基づくRR(Review Regeneration)モデルを紹介する。以上の結果から,提案手法は,他のAIテキスト検出方法よりも優れていたことが示唆された。
論文参考訳（メタデータ） (2024-10-13T08:06:08Z)
Large Language Models for Secure Code Assessment: A Multi-Language Empirical Study [1.9116784879310031]
GPT-4oは,数ショット設定を用いて,最も高い脆弱性検出とCWE分類のスコアを達成できることを示す。我々は、VSCodeと統合されたCODEGUARDIANと呼ばれるライブラリを開発し、開発者はLLM支援リアルタイム脆弱性分析を行うことができる。
論文参考訳（メタデータ） (2024-08-12T18:10:11Z)
A Preliminary Study on Using Large Language Models in Software Pentesting [2.0551676463612636]
大規模言語モデル(LLM)は、セキュリティタスクを自動化するための有望な可能性を提供すると考えられている。ソフトウェアペンテスティングにおけるLLMの使用について検討し,ソースコード中のソフトウェアセキュリティ脆弱性を自動的に識別する作業を行う。
論文参考訳（メタデータ） (2024-01-30T21:42:59Z)
A Comprehensive Survey of Attack Techniques, Implementation, and Mitigation Strategies in Large Language Models [0.0]
この記事では、モデル自体に対する攻撃と、モデルアプリケーションに対する攻撃という2つの攻撃カテゴリについて説明する。前者は専門知識、モデルデータへのアクセス、重要な実装時間が必要です。後者は攻撃者にはよりアクセスしやすく、注目されている。
論文参考訳（メタデータ） (2023-12-18T07:07:32Z)
Towards more Practical Threat Models in Artificial Intelligence Security [66.67624011455423]
最近の研究で、人工知能のセキュリティの研究と実践のギャップが特定されている。我々は、AIセキュリティ研究で最も研究されている6つの攻撃の脅威モデルを再検討し、実際にAIの使用と一致させる。
論文参考訳（メタデータ） (2023-11-16T16:09:44Z)
Baseline Defenses for Adversarial Attacks Against Aligned Language Models [109.75753454188705]
最近の研究は、テキストのモデレーションが防御をバイパスするジェイルブレイクのプロンプトを生み出すことを示している。検出(複雑度に基づく)、入力前処理(言い換えと再帰化)、対人訓練の3種類の防衛について検討する。テキストに対する既存の離散化の弱点と比較的高いコストの最適化が組み合わさって、標準適応攻撃をより困難にしていることがわかった。
論文参考訳（メタデータ） (2023-09-01T17:59:44Z)
Identifying and Mitigating the Security Risks of Generative AI [179.2384121957896]
本稿では,GenAIによる双対ジレンマに関するGoogleのワークショップの成果を報告する。 GenAIはまた、攻撃者が新しい攻撃を生成し、既存の攻撃のベロシティと有効性を高めるためにも使用できる。この話題について,コミュニティの短期的,長期的目標について論じる。
論文参考訳（メタデータ） (2023-08-28T18:51:09Z)
Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of Language Models [86.02610674750345]
AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。 GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
論文参考訳（メタデータ） (2021-11-04T12:59:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。