論文の概要: Exposing LLM Safety Gaps Through Mathematical Encoding:New Attacks and Systematic Analysis
- arxiv url: http://arxiv.org/abs/2605.03441v1
- Date: Tue, 05 May 2026 07:25:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-06 19:35:43.817711
- Title: Exposing LLM Safety Gaps Through Mathematical Encoding:New Attacks and Systematic Analysis
- Title(参考訳): 数学的エンコーディングによるLLM安全ギャップの抽出:新しい攻撃とシステム解析
- Authors: Haoyu Zhang, Mohammad Zandsalimy, Shanu Sushmita,
- Abstract要約: 大規模言語モデル(LLM)は、有害な出力を防ぐための安全メカニズムを採用している。
有害なプロンプトをコヒーレントな数学的問題として符号化することで,これらのフィルタを高速に回避できることを示す。
本稿では,集合論に匹敵する攻撃成功を実現する新しい形式論理符号化法を提案する。
- 参考スコア(独自算出の注目度): 8.82937816029695
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) employ safety mechanisms to prevent harmful outputs, yet these defenses primarily rely on semantic pattern matching. We show that encoding harmful prompts as coherent mathematical problems -- using formalisms such as set theory, formal logic, and quantum mechanics -- bypasses these filters at high rates, achieving 46%--56% average attack success across eight target models and two established benchmarks. Crucially, the effectiveness depends not on mathematical notation itself, but on whether a helper LLM deeply reformulates the harmful content into a genuine mathematical problem: rule-based encodings that apply mathematical formatting without such reformulation perform no better than unencoded baselines. We introduce a novel Formal Logic encoding that achieves attack success comparable to Set Theory, demonstrating that this vulnerability generalizes across mathematical formalisms. Additional experiments with repeat post-processing confirm that these attacks are robust to simple prompt augmentation. Notably, newer models (GPT-5, GPT-5-Mini) show substantially greater robustness than older models, though they remain vulnerable. Our findings highlight fundamental gaps in current safety frameworks and motivate defenses that reason about mathematical structure rather than surface-level semantics.
- Abstract(参考訳): 大規模言語モデル(LLM)は有害な出力を防ぐために安全メカニズムを採用しているが、これらの防御は主にセマンティックパターンマッチングに依存している。
集合論、形式論理、量子力学などの形式的手法を用いて、有害なプロンプトをコヒーレントな数学的問題として符号化することで、これらのフィルタを高速に回避し、8つのターゲットモデルと2つの確立されたベンチマークで平均46%から56%の攻撃成功を達成することを示す。
重要なことに、この効果は数学的表記そのものに依らず、ヘルパーLLMが有害な内容を真に数学的な問題に深く書き換えるかどうかにかかっている。
本稿では,この脆弱性が数学的形式主義にまたがって一般化されることを実証し,集合論に匹敵する攻撃成功を実現する新しい形式論理符号化法を提案する。
繰り返し処理による追加実験では、これらの攻撃が単純なプロンプト拡張に対して堅牢であることが確認されている。
特に、新しいモデル(GPT-5, GPT-5-Mini)は古いモデルよりもかなり頑丈である。
本研究は, 表面レベルの意味論よりも数学的構造を理由とする, 現行の安全性フレームワークとモチベート防御の基本的なギャップを浮き彫りにしている。
関連論文リスト
- SymCode: A Neurosymbolic Approach to Mathematical Reasoning via Verifiable Code Generation [5.88623604115872]
検証可能なコード生成のタスクとして数学的問題解決を再構築する,ニューロシンボリックなフレームワークであるSymCodeを紹介する。
我々は、MATH-500やOlympiadBenchなど、挑戦的なベンチマークでSymCodeを評価し、大幅な精度向上を示した。
論文 参考訳(メタデータ) (2025-10-29T21:17:57Z) - BrokenMath: A Benchmark for Sycophancy in Theorem Proving with LLMs [5.347237827669862]
大規模言語モデル(LLM)におけるサイコファンティック行動を評価するための最初のベンチマークであるBrokenMathを紹介する。
我々は最先端のLCMとエージェントシステムの評価を行い、最も優れたモデルであるGPT-5を用いて、梅毒の29%の回答が得られた。
論文 参考訳(メタデータ) (2025-10-06T11:41:46Z) - One Token to Fool LLM-as-a-Judge [52.45386385722788]
大規模言語モデル(LLM)は、自動化された審査員としてますます信頼され、評価を支援し、他のモデルを訓練するための報酬信号を提供する。
生成的報酬モデルは、ハッキングに対して体系的に影響を受けやすい。
論文 参考訳(メタデータ) (2025-07-11T17:55:22Z) - Chain-of-Code Collapse: Reasoning Failures in LLMs via Adversarial Prompting in Code Generation [0.3495246564946556]
大規模言語モデル(LLM)は複雑な推論を必要とするタスクにおいて顕著な成功を収めた。
これらのモデルは本当に理由があるのか、それとも浅い統計パターンを利用するだけなのか?
ここでは、意味論的に忠実だが逆向きに構造化された急激な摂動のスイートを導入することで、LCMの推論の堅牢性について検討する。
論文 参考訳(メタデータ) (2025-06-08T02:43:46Z) - FormalMATH: Benchmarking Formal Mathematical Reasoning of Large Language Models [17.919212265668783]
本稿では,高校のオリンピアード問題から学部レベルの定理まで,5,560の公証問題からなる大規模Lean4ベンチマークであるFormalMATHを提案する。
本稿では,文の自動形式化,セマンティック検証,否定に基づく無防備なフィルタリング戦略を統合した,新たなオートフォーマル化パイプラインを提案する。
現状のLSMに基づく定理証明器の評価は, 重大な限界を呈する。
論文 参考訳(メタデータ) (2025-05-05T15:37:00Z) - Turning Logic Against Itself : Probing Model Defenses Through Contrastive Questions [50.40122190627256]
非倫理的反応を引き起こすために、対照的な推論を利用する新しいジェイルブレイク手法であるPOATEを導入する。
PoATEは意味論的に意図に反し、敵のテンプレートと統合し、有害なアウトプットを驚くほど微妙に操る。
これに対応するために、悪意のある意図と理性を検出するためにクエリを分解して、有害な応答を評価し、拒否するIntent-Aware CoTとReverse Thinking CoTを提案する。
論文 参考訳(メタデータ) (2025-01-03T15:40:03Z) - An Interpretable N-gram Perplexity Threat Model for Large Language Model Jailbreaks [87.64278063236847]
本研究では,ジェイルブレイク攻撃の原理的比較のための統一的脅威モデルを提案する。
私たちの脅威モデルは、あるジェイルブレイクがテキストの配布で起こりそうなかどうかをチェックします。
私たちはこの脅威モデルに人気のある攻撃を適応させ、これらの攻撃を同等の足場でベンチマークしました。
論文 参考訳(メタデータ) (2024-10-21T17:27:01Z) - Doubly Robust Instance-Reweighted Adversarial Training [107.40683655362285]
本稿では,2重のインスタンス再重み付き対向フレームワークを提案する。
KL偏差正規化損失関数の最適化により重みを求める。
提案手法は, 平均ロバスト性能において, 最先端のベースライン法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-08-01T06:16:18Z) - Versatile Weight Attack via Flipping Limited Bits [68.45224286690932]
本研究では,展開段階におけるモデルパラメータを変更する新たな攻撃パラダイムについて検討する。
有効性とステルスネスの目標を考慮し、ビットフリップに基づく重み攻撃を行うための一般的な定式化を提供する。
SSA(Single sample attack)とTSA(Singr sample attack)の2例を報告した。
論文 参考訳(メタデータ) (2022-07-25T03:24:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。