論文の概要: Logic Jailbreak: Efficiently Unlocking LLM Safety Restrictions Through Formal Logical Expression
- arxiv url: http://arxiv.org/abs/2505.13527v1
- Date: Sun, 18 May 2025 04:23:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:52.368945
- Title: Logic Jailbreak: Efficiently Unlocking LLM Safety Restrictions Through Formal Logical Expression
- Title(参考訳): Logic Jailbreak: 形式論理式によるLLMの安全性制限を効果的に解除する
- Authors: Jingyu Peng, Maolin Wang, Nan Wang, Xiangyu Zhao, Jiatong Li, Kai Zhang, Qi Liu,
- Abstract要約: 新規で普遍的なブラックボックスジェイルブレイク法であるLogiBreakを紹介する。
有害な自然言語プロンプトを形式的な論理式に変換することで、LogiBreakはアライメントデータと論理ベースの入力の間の分散ギャップを利用する。
3つの言語にまたがる多言語ジェイルブレイクデータセット上でLogiBreakを評価する。
- 参考スコア(独自算出の注目度): 30.74168465536794
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite substantial advancements in aligning large language models (LLMs) with human values, current safety mechanisms remain susceptible to jailbreak attacks. We hypothesize that this vulnerability stems from distributional discrepancies between alignment-oriented prompts and malicious prompts. To investigate this, we introduce LogiBreak, a novel and universal black-box jailbreak method that leverages logical expression translation to circumvent LLM safety systems. By converting harmful natural language prompts into formal logical expressions, LogiBreak exploits the distributional gap between alignment data and logic-based inputs, preserving the underlying semantic intent and readability while evading safety constraints. We evaluate LogiBreak on a multilingual jailbreak dataset spanning three languages, demonstrating its effectiveness across various evaluation settings and linguistic contexts.
- Abstract(参考訳): 大規模な言語モデル(LLM)と人間の価値の整合性は著しく進歩しているが、現在の安全メカニズムはジェイルブレイク攻撃の影響を受けやすいままである。
この脆弱性は、アライメント指向のプロンプトと悪意のあるプロンプトの分布上の相違に起因すると仮定する。
そこで本研究では,論理式変換を利用した新しいブラックボックスジェイルブレイク手法であるLogiBreakを導入し,LCMの安全性を回避した。
有害な自然言語プロンプトを形式論理式に変換することで、LogiBreakはアライメントデータとロジックベースの入力の間の分散ギャップを利用して、安全性の制約を回避しつつ、基盤となる意味的意図と可読性を保存する。
我々は3つの言語にまたがる多言語ジェイルブレイクデータセット上でLogiBreakを評価し、その効果を様々な評価設定と言語コンテキストにわたって示す。
関連論文リスト
- Jailbreak Detection in Clinical Training LLMs Using Feature-Based Predictive Models [0.995531157345459]
大規模言語モデル(LLMs)における脱獄は、教育のようなセンシティブなドメインで安全な使用を脅かす。
本研究は,臨床教育プラットフォームである2-Sigmaにおけるジェイルブレイクの検出に焦点を当てた。
ジェイルブレイク行動と強く相関する4つの言語変数を用いて、158の会話に2,300以上のプロンプトを注釈付けした。
論文 参考訳(メタデータ) (2025-04-21T16:54:35Z) - A Domain-Based Taxonomy of Jailbreak Vulnerabilities in Large Language Models [6.946931840176725]
この研究は特に、jailbreakの脆弱性の課題に焦点を当てている。
大規模な言語モデルの訓練領域に根ざした新しいジェイルブレイク攻撃の分類を導入している。
論文 参考訳(メタデータ) (2025-04-07T12:05:16Z) - Playing the Fool: Jailbreaking LLMs and Multimodal LLMs with Out-of-Distribution Strategy [31.03584769307822]
安全アライメントを超越した入力のOOD化による新しいジェイルブレイクフレームワークJOODを提案する。
多様なジェイルブレイクシナリオに対する実験では、JOODが最近のプロプライエタリなLDMとMLLMを効果的にジェイルブレイクすることを示した。
論文 参考訳(メタデータ) (2025-03-26T01:25:24Z) - Improving LLM Safety Alignment with Dual-Objective Optimization [65.41451412400609]
大規模言語モデル(LLM)の既存のトレーニング時間安全アライメント技術は、ジェイルブレイク攻撃に対して脆弱なままである。
本研究では,DPOの目的を2つの構成要素にまとめる安全アライメントの改善について提案する。(1) 安全でない世代が部分的に発生しても拒否を促す頑健な拒絶訓練,(2) 有害な知識の未学習。
論文 参考訳(メタデータ) (2025-03-05T18:01:05Z) - Steering Dialogue Dynamics for Robustness against Multi-turn Jailbreaking Attacks [55.29301192316118]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して非常に脆弱である。
安全制御理論に基づく安全ステアリングフレームワークを提案する。
本手法は,安全予測器を学習することにより,対話の各方向における不変安全性を実現する。
論文 参考訳(メタデータ) (2025-02-28T21:10:03Z) - xJailbreak: Representation Space Guided Reinforcement Learning for Interpretable LLM Jailbreaking [32.89084809038529]
ブラックボックス・ジェイルブレイク(Black-box jailbreak)は、大規模な言語モデルの安全メカニズムをバイパスする攻撃である。
強化学習(RL)を利用した新しいブラックボックスジェイルブレイク手法を提案する。
我々は,より厳密で総合的なジェイルブレイク成功評価を提供するために,キーワード,意図マッチング,回答バリデーションを取り入れた総合的ジェイルブレイク評価フレームワークを導入する。
論文 参考訳(メタデータ) (2025-01-28T06:07:58Z) - Benchmarking LLM Guardrails in Handling Multilingual Toxicity [57.296161186129545]
7つのデータセットと10以上の言語にまたがる包括的な多言語テストスイートを導入し、最先端ガードレールのパフォーマンスをベンチマークする。
近年の脱獄技術に対するガードレールの弾力性について検討し,ガードレールの性能に及ぼすコンテキスト内安全ポリシーと言語資源の可利用性の影響について検討した。
以上の結果から, 既存のガードレールは多言語毒性の処理に依然として効果がなく, 脱獄プロンプトに対する堅牢性が欠如していることが示唆された。
論文 参考訳(メタデータ) (2024-10-29T15:51:24Z) - h4rm3l: A language for Composable Jailbreak Attack Synthesis [48.5611060845958]
h4rm3lは、人間が読めるドメイン固有言語とのギャップに対処する新しいアプローチである。
我々は、h4rm3lの合成攻撃は、文献における既存のジェイルブレイク攻撃よりも多様で、より成功していることを示す。
論文 参考訳(メタデータ) (2024-08-09T01:45:39Z) - Jailbreaking Large Language Models Through Alignment Vulnerabilities in Out-of-Distribution Settings [57.136748215262884]
本稿では,ObscurePrompt for jailbreaking LLMを紹介し,OOD(Out-of-Distribution)データにおける脆弱なアライメントに着想を得た。
まず、脱獄過程における決定境界を定式化し、次にLLMの倫理的決定境界に不明瞭な文章がどう影響するかを考察する。
本手法は,2つの防御機構に対する有効性を保ちながら,攻撃効果の観点から従来の手法を大幅に改善する。
論文 参考訳(メタデータ) (2024-06-19T16:09:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。