論文の概要: Latent Instruction Representation Alignment: defending against jailbreaks, backdoors and undesired knowledge in LLMs
- arxiv url: http://arxiv.org/abs/2604.10403v1
- Date: Sun, 12 Apr 2026 01:37:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:15.995254
- Title: Latent Instruction Representation Alignment: defending against jailbreaks, backdoors and undesired knowledge in LLMs
- Title(参考訳): ラテント・インストラクション・アライメント・アライメント:LLMにおけるジェイルブレイク、バックドア、および望ましくない知識に対する防御
- Authors: Eric Easley, Sebastian Farquhar,
- Abstract要約: 大規模言語モデル(LLM)のジェイルブレイク、バックドア、アンラーニングに対処する。
我々の手法は、PEZのジェイルブレイク攻撃の99%以上をブロックし、難易度の高いコードバックドアを除去し、良識の喪失を無視してWMDPサイバーを最適に忘れることを実現する。
- 参考スコア(独自算出の注目度): 7.456726385625275
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We address jailbreaks, backdoors, and unlearning for large language models (LLMs). Unlike prior work, which trains LLMs based on their actions when given malign instructions, our method specifically trains the model to change how it interprets instructions. Our method, Latent Instruction Representation Alignment (LIRA), greatly improves generalization. We further boost generalization through an internally adversarial training algorithm. Our methods block over 99% of PEZ jailbreak attacks; remove a challenging insecure code backdoor; and achieve optimal forgetting on WMDP cyber with negligible loss of benign capabilities.
- Abstract(参考訳): 大規模言語モデル(LLM)のジェイルブレイク、バックドア、アンラーニングに対処する。
従来の手法とは異なり,本手法では,命令の解釈方法を変えるよう,モデルを特に訓練する。
我々の手法であるLIRA(Latent Instruction Representation Alignment)は、一般化を大幅に改善する。
さらに,内向的学習アルゴリズムにより一般化をさらに促進する。
我々の手法は、PEZのジェイルブレイク攻撃の99%以上をブロックし、難易度の高いコードバックドアを除去し、良識の喪失を無視してWMDPサイバーを最適に忘れることを実現する。
関連論文リスト
- Rewrite to Jailbreak: Discover Learnable and Transferable Implicit Harmfulness Instruction [32.49886313949869]
大規模言語モデル(LLM)を攻撃するための移動可能なブラックボックスジェイルブレイク法を提案する。
この書き換えアプローチは学習可能で、転送可能であることが分かりました。
大規模な実験と分析により、R2Jの有効性が示された。
論文 参考訳(メタデータ) (2025-02-16T11:43:39Z) - Deciphering the Chaos: Enhancing Jailbreak Attacks via Adversarial Prompt Translation [71.92055093709924]
そこで本稿では, ガーブレッドの逆数プロンプトを, 一貫性のある, 可読性のある自然言語の逆数プロンプトに"翻訳"する手法を提案する。
また、jailbreakプロンプトの効果的な設計を発見し、jailbreak攻撃の理解を深めるための新しいアプローチも提供する。
本稿では,AdvBench上でのLlama-2-Chatモデルに対する攻撃成功率は90%以上である。
論文 参考訳(メタデータ) (2024-10-15T06:31:04Z) - Weak-to-Strong Jailbreaking on Large Language Models [92.52448762164926]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
既存のジェイルブレイク法は計算コストがかかる。
我々は、弱々しく強固な脱獄攻撃を提案する。
論文 参考訳(メタデータ) (2024-01-30T18:48:37Z) - Analyzing the Inherent Response Tendency of LLMs: Real-World
Instructions-Driven Jailbreak [26.741029482196534]
大規模言語モデル(LLM)が悪意ある指示に直面すると有害な応答を発生させる現象である。
本稿では,LDMのポテンシャルを増幅することでセキュリティ機構をバイパスし,肯定応答を生成する新しい自動ジェイルブレイク手法RADIALを提案する。
提案手法は,5つのオープンソースのLLMを用いて,英語の悪意のある命令に対する攻撃性能を良好に向上すると同時に,中国語の悪意のある命令に対するクロス言語攻撃の実行において,堅牢な攻撃性能を維持する。
論文 参考訳(メタデータ) (2023-12-07T08:29:58Z) - A Wolf in Sheep's Clothing: Generalized Nested Jailbreak Prompts can Fool Large Language Models Easily [51.63085197162279]
大きな言語モデル(LLM)は有用で安全な応答を提供するように設計されている。
ジェイルブレイク」と呼ばれる 敵のプロンプトは 保護を回避できる
有効なジェイルブレイクプロンプトを生成するためにLLM自体を活用する自動フレームワークであるReNeLLMを提案する。
論文 参考訳(メタデータ) (2023-11-14T16:02:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。