論文の概要: When Harmless Words Harm: A New Threat to LLM Safety via Conceptual Triggers
- arxiv url: http://arxiv.org/abs/2511.21718v1
- Date: Wed, 19 Nov 2025 14:34:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-07 19:06:32.361738
- Title: When Harmless Words Harm: A New Threat to LLM Safety via Conceptual Triggers
- Title(参考訳): Harmless Words Harm:概念的トリガーによるLLMの安全性への新たな脅威
- Authors: Zhaoxin Zhang, Borui Chen, Yiming Hu, Youyang Qu, Tianqing Zhu, Longxiang Gao,
- Abstract要約: モデル応答に反映された集合値構造を対象とするモデル非依存のジェイルブレイク手法MICMを紹介する。
GPT-4o, Deepseek-R1, Qwen3-8B を含む 5 つの先進的大規模言語モデル (LLM) ジェイルブレイクに対する MICM の評価を行った。
- 参考スコア(独自算出の注目度): 24.094815313911297
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent research on large language model (LLM) jailbreaks has primarily focused on techniques that bypass safety mechanisms to elicit overtly harmful outputs. However, such efforts often overlook attacks that exploit the model's capacity for abstract generalization, creating a critical blind spot in current alignment strategies. This gap enables adversaries to induce objectionable content by subtly manipulating the implicit social values embedded in model outputs. In this paper, we introduce MICM, a novel, model-agnostic jailbreak method that targets the aggregate value structure reflected in LLM responses. Drawing on conceptual morphology theory, MICM encodes specific configurations of nuanced concepts into a fixed prompt template through a predefined set of phrases. These phrases act as conceptual triggers, steering model outputs toward a specific value stance without triggering conventional safety filters. We evaluate MICM across five advanced LLMs, including GPT-4o, Deepseek-R1, and Qwen3-8B. Experimental results show that MICM consistently outperforms state-of-the-art jailbreak techniques, achieving high success rates with minimal rejection. Our findings reveal a critical vulnerability in commercial LLMs: their safety mechanisms remain susceptible to covert manipulation of underlying value alignment.
- Abstract(参考訳): 大規模言語モデル(LLM)のジェイルブレイクに関する最近の研究は主に、過度に有害な出力を誘発する安全メカニズムをバイパスする技術に焦点を当てている。
しかしながら、そのような取り組みは、抽象的な一般化のためにモデルの能力を利用する攻撃を見落とし、現在のアライメント戦略において重要な盲点を生み出します。
このギャップは、モデル出力に埋め込まれた暗黙の社会的価値を微妙に操作することで、敵が反対するコンテンツを誘導することを可能にする。
本稿では, LLM応答に反映される集合値構造を対象とする, モデルに依存しない新しいジェイルブレイク手法MICMを紹介する。
概念形態学理論に基づいて、MICMは、あらかじめ定義されたフレーズの集合を通して、ニュアンスされた概念の特定の構成を固定されたプロンプトテンプレートにエンコードする。
これらのフレーズは概念的なトリガーとして機能し、従来の安全フィルタをトリガーすることなく、特定の値スタンスに向けて出力をステアリングする。
我々は、GPT-4o、Deepseek-R1、Qwen3-8Bを含む5つの先進LLMのMICMを評価した。
実験の結果、MICMは最先端のジェイルブレイク技術より一貫して優れており、最小限の拒絶で高い成功率を達成した。
本研究は商業用LCMに重大な脆弱性があることを示し,その安全性メカニズムは根底にある価値アライメントの隠蔽操作の影響を受けないままである。
関連論文リスト
- Harmful Prompt Laundering: Jailbreaking LLMs with Abductive Styles and Symbolic Encoding [19.92751862281067]
大きな言語モデル(LLM)は、様々なタスクにまたがる顕著な能力を示しているが、有害な目的に対する潜在的な誤用は、依然として重大な懸念である。
textbfHarmful textbfPrompt textbfLaundering (HaPLa)を提案する。
論文 参考訳(メタデータ) (2025-09-13T18:07:56Z) - Cannot See the Forest for the Trees: Invoking Heuristics and Biases to Elicit Irrational Choices of LLMs [83.11815479874447]
本研究では,人間の認知における認知的分解と偏見に触発された新しいジェイルブレイク攻撃フレームワークを提案する。
我々は、悪意のあるプロンプトの複雑さと関連バイアスを減らし、認知的分解を用いて、プロンプトを再編成する。
また、従来の二分的成功または失敗のパラダイムを超越したランキングベースの有害度評価指標も導入する。
論文 参考訳(メタデータ) (2025-05-03T05:28:11Z) - GraphAttack: Exploiting Representational Blindspots in LLM Safety Mechanisms [1.48325651280105]
本稿では,jailbreakプロンプトを生成する新しいグラフベースのアプローチを提案する。
我々は、異なる変換を示すエッジを持つグラフ構造において、悪意のあるプロンプトをノードとして表現する。
目的を実現するコードを生成するために LLM を指示することで,特に効果的なエクスプロイトベクトルを実証する。
論文 参考訳(メタデータ) (2025-04-17T16:09:12Z) - Sugar-Coated Poison: Benign Generation Unlocks LLM Jailbreaking [14.541887120849687]
緊急エンジニアリングによる ジェイルブレイク攻撃は 重大な脅威になっています
本研究では,防衛閾値決定(DTD)の概念を導入し,LCMの良質な世代による潜在的安全性への影響を明らかにした。
本稿では,悪質な意図とは逆の意味の良質なインプットを構築するために,「セマンティック・リバーサル」戦略を用いたSugar-Coated Poison攻撃パラダイムを提案する。
論文 参考訳(メタデータ) (2025-04-08T03:57:09Z) - MIRAGE: Multimodal Immersive Reasoning and Guided Exploration for Red-Team Jailbreak Attacks [85.3303135160762]
MIRAGEは、物語駆動型コンテキストとロール没入を利用して、マルチモーダル大規模言語モデルにおける安全性メカニズムを回避する新しいフレームワークである。
最先端のパフォーマンスを達成し、最高のベースラインよりも攻撃成功率を最大17.5%向上させる。
役割の浸漬と構造的セマンティック再構築は、モデル固有のバイアスを活性化し、モデルが倫理的保護に自発的に違反することを実証する。
論文 参考訳(メタデータ) (2025-03-24T20:38:42Z) - Jailbreaking as a Reward Misspecification Problem [80.52431374743998]
本稿では,この脆弱性をアライメントプロセス中に不特定性に対処する新たな視点を提案する。
本稿では,報酬の相違の程度を定量化し,その有効性を実証する指標ReGapを紹介する。
ReMissは、報酬ミスの空間で敵のプロンプトを生成する自動レッドチームリングシステムである。
論文 参考訳(メタデータ) (2024-06-20T15:12:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。