論文の概要: NLP Methods for Detecting Novel LLM Jailbreaks and Keyword Analysis with BERT
- arxiv url: http://arxiv.org/abs/2510.01644v1
- Date: Thu, 02 Oct 2025 03:55:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.97816
- Title: NLP Methods for Detecting Novel LLM Jailbreaks and Keyword Analysis with BERT
- Title(参考訳): 新規LLMジェイルブレーク検出のためのNLP法とBERTによるキーワード解析
- Authors: John Hawkins, Aditya Pramar, Rodney Beard, Rohitash Chandra,
- Abstract要約: 大きな言語モデル(LLM)は、悪意のあるユーザが入力テキストの操作を通じて望ましくない応答を要求できるような、さまざまな脆弱性に悩まされる。
いわゆるジェイルブレイクプロンプトは、LLMを騙して安全ガードレールの設置を回避し、開発者のポリシーに受け入れられる応答を維持するように設計されている。
本研究では,異なる機械学習モデルを用いて,jailbreakプロンプトを真の用途と区別する能力について分析する。
- 参考スコア(独自算出の注目度): 3.2654923574107357
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) suffer from a range of vulnerabilities that allow malicious users to solicit undesirable responses through manipulation of the input text. These so-called jailbreak prompts are designed to trick the LLM into circumventing the safety guardrails put in place to keep responses acceptable to the developer's policies. In this study, we analyse the ability of different machine learning models to distinguish jailbreak prompts from genuine uses, including looking at our ability to identify jailbreaks that use previously unseen strategies. Our results indicate that using current datasets the best performance is achieved by fine tuning a Bidirectional Encoder Representations from Transformers (BERT) model end-to-end for identifying jailbreaks. We visualise the keywords that distinguish jailbreak from genuine prompts and conclude that explicit reflexivity in prompt structure could be a signal of jailbreak intention.
- Abstract(参考訳): 大きな言語モデル(LLM)は、悪意のあるユーザが入力テキストの操作を通じて望ましくない応答を要求できるような、さまざまな脆弱性に悩まされる。
いわゆるジェイルブレイクプロンプトは、LLMを騙して安全ガードレールの設置を回避し、開発者のポリシーに受け入れられる応答を維持するように設計されている。
本研究では、これまで見つからなかった戦略を用いたジェイルブレイクを識別する能力など、さまざまな機械学習モデルを用いて、本物の利用とジェイルブレイクプロンプトを区別する能力について分析する。
我々の結果は、現在のデータセットを使うことで、双方向エンコーダ表現を変換器(BERT)モデルに微調整し、ジェイルブレイクを特定することで、最高のパフォーマンスが得られることを示唆している。
我々は、jailbreakを本物のプロンプトと区別するキーワードを可視化し、プロンプト構造における明示的な反射性は、jailbreak意図のシグナルである可能性があると結論づける。
関連論文リスト
- Formalization Driven LLM Prompt Jailbreaking via Reinforcement Learning [48.100552417137656]
PASSは、初期のジェイルブレイクプロンプトを形式化された記述に変換するために強化学習を使用している。
我々は、共通のオープンソースモデルに関する広範な実験を行い、攻撃の有効性を実証した。
論文 参考訳(メタデータ) (2025-09-28T01:38:00Z) - LLM Jailbreak Detection for (Almost) Free! [62.466970731998714]
大規模言語モデル(LLM)は、広く使用されている場合、アライメントを通じてセキュリティを高めるが、ジェイルブレイク攻撃の影響を受けない。
ジェイルブレイク検出方法は、他のモデルや複数のモデル推論の助けを借りて、ジェイルブレイク攻撃を緩和する。
本稿では,入力に対する肯定的な指示を前提としたフリージェイルブレイク検出(FJD)を提案する。
論文 参考訳(メタデータ) (2025-09-18T02:42:52Z) - Rewrite to Jailbreak: Discover Learnable and Transferable Implicit Harmfulness Instruction [32.49886313949869]
大規模言語モデル(LLM)を攻撃するための移動可能なブラックボックスジェイルブレイク法を提案する。
この書き換えアプローチは学習可能で、転送可能であることが分かりました。
大規模な実験と分析により、R2Jの有効性が示された。
論文 参考訳(メタデータ) (2025-02-16T11:43:39Z) - JailbreakLens: Interpreting Jailbreak Mechanism in the Lens of Representation and Circuit [12.392258585661446]
大規模言語モデル(LLM)はジェイルブレイク攻撃に対して脆弱であり、敵のプロンプトはセキュリティメカニズムをバイパスし、予期せぬ応答を誘発する。
本稿では,Jailbreak機構を表現と回路の両方の観点から解析する解釈フレームワークであるJailbreakLensを提案する。
論文 参考訳(メタデータ) (2024-11-17T16:08:34Z) - EnJa: Ensemble Jailbreak on Large Language Models [69.13666224876408]
大きな言語モデル(LLM)は、安全クリティカルなアプリケーションにますますデプロイされている。
LLMは、悪質なプロンプトを慎重に作り、ポリシーに違反するコンテンツを生成することで、まだジェイルブレイクされる可能性がある。
本稿では,プロンプトレベルのジェイルブレイクを用いて有害な命令を隠蔽し,グラデーションベースの攻撃で攻撃成功率を高め,テンプレートベースのコネクタを介して2種類のジェイルブレイク攻撃を接続する新しいEnJa攻撃を提案する。
論文 参考訳(メタデータ) (2024-08-07T07:46:08Z) - A Wolf in Sheep's Clothing: Generalized Nested Jailbreak Prompts can Fool Large Language Models Easily [51.63085197162279]
大きな言語モデル(LLM)は有用で安全な応答を提供するように設計されている。
ジェイルブレイク」と呼ばれる 敵のプロンプトは 保護を回避できる
有効なジェイルブレイクプロンプトを生成するためにLLM自体を活用する自動フレームワークであるReNeLLMを提案する。
論文 参考訳(メタデータ) (2023-11-14T16:02:16Z) - AutoDAN: Generating Stealthy Jailbreak Prompts on Aligned Large Language Models [54.95912006700379]
本稿では,大規模言語モデルに対する新たなジェイルブレイク攻撃であるAutoDANを紹介する。
AutoDANは、慎重に設計された階層型遺伝的アルゴリズムによって、ステルスなジェイルブレイクプロンプトを自動的に生成できる。
論文 参考訳(メタデータ) (2023-10-03T19:44:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。