論文の概要: GPT-4 Is Too Smart To Be Safe: Stealthy Chat with LLMs via Cipher
- arxiv url: http://arxiv.org/abs/2308.06463v1
- Date: Sat, 12 Aug 2023 04:05:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-15 17:14:01.970857
- Title: GPT-4 Is Too Smart To Be Safe: Stealthy Chat with LLMs via Cipher
- Title(参考訳): gpt-4は賢すぎて安全ではない: 暗号によるllmsとの密接なチャット
- Authors: Youliang Yuan, Wenxiang Jiao, Wenxuan Wang, Jen-tse Huang, Pinjia He,
Shuming Shi and Zhaopeng Tu
- Abstract要約: 実験により、いくつかの安全領域において、GPT-4の安全性アライメントをバイパスするために、ある暗号がほぼ100%の時間で成功することが示された。
本稿では,ロールプレイのみを使用し,自然言語によるいくつかの実演を行い,これを誘発する新しいSelfCipherを提案する。
- 参考スコア(独自算出の注目度): 89.45365898940896
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Safety lies at the core of the development of Large Language Models (LLMs).
There is ample work on aligning LLMs with human ethics and preferences,
including data filtering in pretraining, supervised fine-tuning, reinforcement
learning from human feedback, and red teaming, etc. In this study, we discover
that chat in cipher can bypass the safety alignment techniques of LLMs, which
are mainly conducted in natural languages. We propose a novel framework
CipherChat to systematically examine the generalizability of safety alignment
to non-natural languages -- ciphers. CipherChat enables humans to chat with
LLMs through cipher prompts topped with system role descriptions and few-shot
enciphered demonstrations. We use CipherChat to assess state-of-the-art LLMs,
including ChatGPT and GPT-4 for different representative human ciphers across
11 safety domains in both English and Chinese. Experimental results show that
certain ciphers succeed almost 100% of the time to bypass the safety alignment
of GPT-4 in several safety domains, demonstrating the necessity of developing
safety alignment for non-natural languages. Notably, we identify that LLMs seem
to have a ''secret cipher'', and propose a novel SelfCipher that uses only role
play and several demonstrations in natural language to evoke this capability.
SelfCipher surprisingly outperforms existing human ciphers in almost all cases.
Our code and data will be released at https://github.com/RobustNLP/CipherChat.
- Abstract(参考訳): 安全性は、LLM(Large Language Models)の開発の中心にある。
プレトレーニングにおけるデータフィルタリング,教師付き微調整,人的フィードバックからの強化学習,レッドチームなど,LLMを人間の倫理や嗜好と整合させる作業が数多く行われている。
本研究では,主に自然言語で行われているllmの安全性アライメント手法を,暗号によるチャットが回避できることを示す。
非自然言語への安全性アライメントの一般化を体系的に検討するために,cipherchat という新しいフレームワークを提案する。
CipherChatは,システムロール記述と数発の暗号化デモを備えた暗号プロンプトを通じて,LLMとチャットすることを可能にする。
我々はCipherChatを用いて、ChatGPTやGPT-4を含む最先端のLCMを、英語と中国語の11の安全領域にわたる異なる代表的人間の暗号に対して評価する。
実験の結果,いくつかの安全領域において,GPT-4の安全性アライメントを回避し,非自然言語に対する安全性アライメントを開発する必要性が示された。
特に,LLMには「秘密暗号」が備わっていると認識し,ロールプレイのみを用いた新しい自己暗号を提案し,自然言語によるいくつかの実演によってこれを誘発する。
SelfCipherは、ほとんどすべてのケースで、既存の人間の暗号よりも驚くほど優れています。
コードとデータはhttps://github.com/RobustNLP/CipherChat.comで公開されます。
関連論文リスト
- CodeAttack: Revealing Safety Generalization Challenges of Large Language Models via Code Completion [117.178835165855]
本稿では,自然言語入力をコード入力に変換するフレームワークであるCodeAttackを紹介する。
我々の研究は、コード入力に対するこれらのモデルの新たな、普遍的な安全性の脆弱性を明らかにした。
CodeAttackと自然言語の分布ギャップが大きくなると、安全性の一般化が弱くなる。
論文 参考訳(メタデータ) (2024-03-12T17:55:38Z) - CodeChameleon: Personalized Encryption Framework for Jailbreaking Large
Language Models [49.60006012946767]
パーソナライズされた暗号化手法に基づく新しいジェイルブレイクフレームワークであるCodeChameleonを提案する。
我々は、7つの大規模言語モデルに関する広範な実験を行い、最先端の平均アタック成功率(ASR)を達成する。
GPT-4-1106上で86.6%のASRを実現する。
論文 参考訳(メタデータ) (2024-02-26T16:35:59Z) - Silent Guardian: Protecting Text from Malicious Exploitation by Large Language Models [63.91178922306669]
大規模言語モデル(LLM)に対するテキスト保護機構であるSilent Guardianを紹介する。
保護されるテキストを慎重に修正することで、TPEはLDMを誘導して最初にエンドトークンをサンプリングし、直接相互作用を終了させることができる。
本研究では,SGがターゲットテキストを種々の構成で効果的に保護し,保護成功率の約100%を達成できることを示す。
論文 参考訳(メタデータ) (2023-12-15T10:30:36Z) - Multilingual Jailbreak Challenges in Large Language Models [96.74878032417054]
本研究では,大規模言語モデル(LLM)における多言語ジェイルブレイク問題の存在を明らかにする。
我々は、意図しないシナリオと意図的なシナリオの2つを考えます。
安全な微調整のための多言語学習データを自動的に生成する新しいtextscSelf-Defense フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-10T09:44:06Z) - All Languages Matter: On the Multilingual Safety of Large Language Models [96.47607891042523]
我々は、大規模言語モデル(LLM)のための最初の多言語安全ベンチマークを構築した。
XSafetyは、複数の言語ファミリーにまたがる10言語にわたる14種類の一般的な安全問題をカバーしている。
本稿では,ChatGPTの多言語安全性向上のための簡易かつ効果的なプロンプト手法を提案する。
論文 参考訳(メタデータ) (2023-10-02T05:23:34Z) - Memorization for Good: Encryption with Autoregressive Language Models [8.645826579841692]
自己回帰言語モデル(SELM)を用いた最初の対称暗号アルゴリズムを提案する。
自己回帰的LMは任意のデータをコンパクトな実数値ベクトル(すなわち暗号化)にエンコードし、ランダムな部分空間最適化とgreedy復号によってベクトルを元のメッセージ(すなわち復号)に無作為に復号できることを示す。
論文 参考訳(メタデータ) (2023-05-15T05:42:34Z) - Enhancing Networking Cipher Algorithms with Natural Language [0.0]
自然言語処理は、ネットワーク暗号化モデルにおける最も弱いリンクと考えられている。
本稿では、脆弱なストリームの暗号化を支援する手段として、言語を対称暗号化に統合する方法を要約する。
論文 参考訳(メタデータ) (2022-06-22T09:05:52Z) - Can Sequence-to-Sequence Models Crack Substitution Ciphers? [15.898270650875158]
最先端の解読法は、ビームサーチとニューラルネットワークモデルを用いて、与えられた暗号に対する候補仮説を評価する。
提案手法は明示的な言語識別を伴わずにテキストを解読でき,雑音に対して頑健であることを示す。
論文 参考訳(メタデータ) (2020-12-30T17:16:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。