論文の概要: BadGPT-4o: stripping safety finetuning from GPT models
- arxiv url: http://arxiv.org/abs/2412.05346v1
- Date: Fri, 06 Dec 2024 13:56:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:56:05.322999
- Title: BadGPT-4o: stripping safety finetuning from GPT models
- Title(参考訳): BadGPT-4o:GPTモデルからの安全性の微調整
- Authors: Ekaterina Krupkina, Dmitrii Volkov,
- Abstract要約: モデルを劣化させることなくGPT-4oの安全ガードレールを切断するQiなど2023の簡易微調整法について述べる。
BadGPT攻撃はHarmBenchとStrongREJECTで最高のホワイトボックスのジェイルブレイクと一致している。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: We show a version of Qi et al. 2023's simple fine-tuning poisoning technique strips GPT-4o's safety guardrails without degrading the model. The BadGPT attack matches best white-box jailbreaks on HarmBench and StrongREJECT. It suffers no token overhead or performance hits common to jailbreaks, as evaluated on tinyMMLU and open-ended generations. Despite having been known for a year, this attack remains easy to execute.
- Abstract(参考訳): Qi et al 2023 の簡易微調整法は,GPT-4o の安全ガードレールをモデルを劣化させることなく除去する。
BadGPT攻撃はHarmBenchとStrongREJECTで最高のホワイトボックスのジェイルブレイクと一致している。
小さなMMLUとオープンエンド世代で評価されるように、Jailbreakに共通するトークンオーバーヘッドやパフォーマンスヒットは発生しない。
この攻撃は1年前から知られていたが、実行は容易である。
関連論文リスト
- EnJa: Ensemble Jailbreak on Large Language Models [69.13666224876408]
大きな言語モデル(LLM)は、安全クリティカルなアプリケーションにますますデプロイされている。
LLMは、悪質なプロンプトを慎重に作り、ポリシーに違反するコンテンツを生成することで、まだジェイルブレイクされる可能性がある。
本稿では,プロンプトレベルのジェイルブレイクを用いて有害な命令を隠蔽し,グラデーションベースの攻撃で攻撃成功率を高め,テンプレートベースのコネクタを介して2種類のジェイルブレイク攻撃を接続する新しいEnJa攻撃を提案する。
論文 参考訳(メタデータ) (2024-08-07T07:46:08Z) - Can Large Language Models Automatically Jailbreak GPT-4V? [64.04997365446468]
本稿では,迅速な最適化にインスパイアされた革新的な自動ジェイルブレイク技術であるAutoJailbreakを紹介する。
実験の結果,AutoJailbreakは従来の手法をはるかに上回り,95.3%を超えるアタック成功率(ASR)を達成した。
この研究は、GPT-4Vのセキュリティ強化に光を当て、LCMがGPT-4Vの完全性向上に活用される可能性を強調している。
論文 参考訳(メタデータ) (2024-07-23T17:50:45Z) - Does Refusal Training in LLMs Generalize to the Past Tense? [27.527557127677156]
我々は過去に有害な要求を改定することは、しばしば多くの最先端のLCMを脱獄するのに十分であることを示した。
また, 将来の時制の改革は効果が低いことが示唆され, 過去の歴史的問題については, 仮説的な未来の問題よりも良質であると考える傾向が示唆された。
論文 参考訳(メタデータ) (2024-07-16T17:59:55Z) - Unveiling the Safety of GPT-4o: An Empirical Study using Jailbreak Attacks [65.84623493488633]
本稿では,GPT-4oのジェイルブレイク攻撃に対する厳密な評価を行う。
新たに導入されたオーディオモダリティは、GPT-4oに対するジェイルブレイク攻撃のための新しい攻撃ベクトルを開く。
既存のブラックボックスマルチモーダル・ジェイルブレイク攻撃は、GPT-4oとGPT-4Vに対してほとんど効果がない。
論文 参考訳(メタデータ) (2024-06-10T14:18:56Z) - Voice Jailbreak Attacks Against GPT-4o [27.505874745648498]
GPT-4oの音声モードに対するジェイルブレイク攻撃を初めて系統的に測定した。
本稿では,GPT-4oを人間化した新しいボイスジェイルブレイク攻撃であるVoiceJailbreakを提案する。
論文 参考訳(メタデータ) (2024-05-29T14:07:44Z) - GPT-4 Jailbreaks Itself with Near-Perfect Success Using Self-Explanation [9.377563769107843]
IRIS(Iterative Refinement induced Self-Jailbreak)は,ブラックボックスアクセスのみのジェイルブレイクに対する新しいアプローチである。
以前の方法とは異なり、IRISは単一のモデルを攻撃者とターゲットの両方として使用することで、ジェイルブレイクプロセスを単純化する。
We found that IRIS jailbreak success rate of 98% on GPT-4, 92% on GPT-4 Turbo, 94% on Llama-3.1-70B in 7 query。
論文 参考訳(メタデータ) (2024-05-21T03:16:35Z) - EasyJailbreak: A Unified Framework for Jailbreaking Large Language Models [53.87416566981008]
本稿では,大規模言語モデル(LLM)に対するジェイルブレイク攻撃の構築と評価を容易にする統合フレームワークであるEasyJailbreakを紹介する。
Selector、Mutator、Constraint、Evaluatorの4つのコンポーネントを使ってJailbreak攻撃を構築する。
10の異なるLSMで検証した結果、さまざまなジェイルブレイク攻撃で平均60%の侵入確率で重大な脆弱性が判明した。
論文 参考訳(メタデータ) (2024-03-18T18:39:53Z) - Jailbreaking GPT-4V via Self-Adversarial Attacks with System Prompts [64.60375604495883]
GPT-4Vでは,システムに侵入する脆弱性が発見された。
GPT-4を自身に対するレッド・チーム・ツールとして活用することで、盗難システムプロンプトを利用した脱獄プロンプトの可能性を探索することを目指している。
また,システムプロンプトの変更による脱獄攻撃に対する防御効果も評価した。
論文 参考訳(メタデータ) (2023-11-15T17:17:39Z) - DecodingTrust: A Comprehensive Assessment of Trustworthiness in GPT
Models [92.6951708781736]
本稿では,GPT-4とGPT-3.5に着目した大規模言語モデルの総合的信頼性評価を提案する。
GPTモデルは、有害で偏りのある出力を生成し、個人情報を漏らすために、容易に誤解され得る。
我々の研究は、GPTモデルの総合的な信頼性評価を示し、信頼性のギャップに光を当てている。
論文 参考訳(メタデータ) (2023-06-20T17:24:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。