論文の概要: Rethinking Jailbreaking through the Lens of Representation Engineering
- arxiv url: http://arxiv.org/abs/2401.06824v3
- Date: Tue, 6 Aug 2024 11:46:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-07 19:31:50.224224
- Title: Rethinking Jailbreaking through the Lens of Representation Engineering
- Title(参考訳): 表現工学のレンズによる脱獄の再考
- Authors: Tianlong Li, Shihan Dou, Wenhao Liu, Muling Wu, Changze Lv, Rui Zheng, Xiaoqing Zheng, Xuanjing Huang,
- Abstract要約: 最近のジェイルブレイク手法の急増により、悪意のある入力に対するLarge Language Models(LLM)の脆弱性が明らかになった。
本研究では, 特定の行動パターンを明らかにすることで, 安全性に配慮したLCMの脆弱性を明らかにする。
- 参考スコア(独自算出の注目度): 45.70565305714579
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recent surge in jailbreaking methods has revealed the vulnerability of Large Language Models (LLMs) to malicious inputs. While earlier research has primarily concentrated on increasing the success rates of jailbreaking attacks, the underlying mechanism for safeguarding LLMs remains underexplored. This study investigates the vulnerability of safety-aligned LLMs by uncovering specific activity patterns within the representation space generated by LLMs. Such ``safety patterns'' can be identified with only a few pairs of contrastive queries in a simple method and function as ``keys'' (used as a metaphor for security defense capability) that can be used to open or lock Pandora's Box of LLMs. Extensive experiments demonstrate that the robustness of LLMs against jailbreaking can be lessened or augmented by attenuating or strengthening the identified safety patterns. These findings deepen our understanding of jailbreaking phenomena and call for the LLM community to address the potential misuse of open-source LLMs.
- Abstract(参考訳): 最近のジェイルブレイク手法の急増により、悪意のある入力に対するLarge Language Models(LLM)の脆弱性が明らかになった。
初期の研究は、主に脱獄攻撃の成功率の向上に重点を置いていたが、LLMを保護するための基盤となるメカニズムは未解明のままである。
本研究では, LLMが生成する表現空間内の特定の活動パターンを明らかにすることにより, 安全性に配慮したLCMの脆弱性を明らかにする。
このような `safety Pattern'' は単純なメソッドで数組のコントラストクエリで識別することができ、Pandora の LLM の Box をオープンまたはロックするために使用可能な '`keys'' (セキュリティ防御能力のメタファーとして使用される) として機能する。
大規模実験により, 脱獄に対するLDMの堅牢性は, 識別された安全性パターンを弱め, 強化することにより低下または強化できることが示された。
これらの知見は, 脱獄現象の理解を深め, LLMコミュニティに対して, オープンソース LLM の誤用に対処するよう求めている。
関連論文リスト
- Look Before You Leap: Enhancing Attention and Vigilance Regarding Harmful Content with GuidelineLLM [53.79753074854936]
大規模言語モデル(LLM)は、出現するジェイルブレイク攻撃に対してますます脆弱である。
この脆弱性は現実世界のアプリケーションに重大なリスクをもたらす。
本稿では,ガイドラインLLMという新しい防御パラダイムを提案する。
論文 参考訳(メタデータ) (2024-12-10T12:42:33Z) - The VLLM Safety Paradox: Dual Ease in Jailbreak Attack and Defense [56.32083100401117]
本稿では,視覚大言語モデル (VLLM) がジェイルブレイク攻撃のリスクが高い理由を考察する。
既存の防御機構は、テキストバウンド・プルーデンスの問題に悩まされる。
ジェイルブレイクの2つの代表的な評価手法は、しばしばチャンス合意を示す。
論文 参考訳(メタデータ) (2024-11-13T07:57:19Z) - Can LLMs be Fooled? Investigating Vulnerabilities in LLMs [4.927763944523323]
LLM(Large Language Models)の出現は、自然言語処理(NLP)内の様々な領域で大きな人気を集め、膨大なパワーを誇っている。
本稿では,各脆弱性部の知見を合成し,新たな研究・開発の方向性を提案する。
現在の脆弱性の焦点を理解することで、将来のリスクを予測し軽減できます。
論文 参考訳(メタデータ) (2024-07-30T04:08:00Z) - Jailbreaking Large Language Models Through Alignment Vulnerabilities in Out-of-Distribution Settings [57.136748215262884]
本稿では,ObscurePrompt for jailbreaking LLMを紹介し,OOD(Out-of-Distribution)データにおける脆弱なアライメントに着想を得た。
まず、脱獄過程における決定境界を定式化し、次にLLMの倫理的決定境界に不明瞭な文章がどう影響するかを考察する。
本手法は,2つの防御機構に対する有効性を保ちながら,攻撃効果の観点から従来の手法を大幅に改善する。
論文 参考訳(メタデータ) (2024-06-19T16:09:58Z) - Defending Large Language Models Against Jailbreak Attacks via Layer-specific Editing [14.094372002702476]
大規模言語モデル(LLM)は、広範囲の現実世界のアプリケーションで採用されつつある。
近年の研究では、LSMは故意に構築された敵のプロンプトに弱いことが示されている。
そこで本研究では,新しい防衛手法である textbfLayer-specific textbfEditing (LED) を提案する。
論文 参考訳(メタデータ) (2024-05-28T13:26:12Z) - Subtoxic Questions: Dive Into Attitude Change of LLM's Response in Jailbreak Attempts [13.176057229119408]
Prompt Jailbreakingの言語モデル(LLM)がますます注目を集めています。
本稿では,ジェイルブレイクのプロンプトに対して本質的により敏感な,対象とする一連の質問に焦点をあてて,新しいアプローチを提案する。
論文 参考訳(メタデータ) (2024-04-12T08:08:44Z) - Fine-Tuning, Quantization, and LLMs: Navigating Unintended Outcomes [0.0]
大規模言語モデル(LLM)は、チャットボットやオートタスク補完エージェントなど、さまざまな領域で広く採用されている。
これらのモデルは、ジェイルブレイク、プロンプトインジェクション、プライバシリーク攻撃などの安全性上の脆弱性の影響を受けやすい。
本研究では,これらの変更がLLMの安全性に与える影響について検討する。
論文 参考訳(メタデータ) (2024-04-05T20:31:45Z) - Coercing LLMs to do and reveal (almost) anything [80.8601180293558]
大規模言語モデル(LLM)に対する敵対的攻撃は、有害なステートメントを作るためにモデルを「ジェイルブレイク」することができることが示されている。
LLMに対する敵対的攻撃のスペクトルは単なるジェイルブレイクよりもはるかに大きいと我々は主張する。
論文 参考訳(メタデータ) (2024-02-21T18:59:13Z) - Jailbreak and Guard Aligned Language Models with Only Few In-Context Demonstrations [38.437893814759086]
大きな言語モデル(LLM)は様々なタスクで顕著に成功しているが、その安全性と有害なコンテンツを生成するリスクは依然として懸念されている。
本研究では, LLM を倒すために有害な実証を行う In-Context Attack (ICA) と, 有害な応答の再現を拒否する事例を通じてモデルレジリエンスを高める In-Context Defense (ICD) を提案する。
論文 参考訳(メタデータ) (2023-10-10T07:50:29Z) - Visual Adversarial Examples Jailbreak Aligned Large Language Models [66.53468356460365]
視覚入力の連続的かつ高次元的な性質は、敵対的攻撃に対する弱いリンクであることを示す。
我々は、視力統合されたLLMの安全ガードレールを回避するために、視覚的敵の例を利用する。
本研究は,マルチモダリティの追求に伴う敵のエスカレーションリスクを浮き彫りにする。
論文 参考訳(メタデータ) (2023-06-22T22:13:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。