論文の概要: Adversarial versification in portuguese as a jailbreak operator in LLMs
- arxiv url: http://arxiv.org/abs/2512.15353v1
- Date: Wed, 17 Dec 2025 11:55:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 17:06:26.971026
- Title: Adversarial versification in portuguese as a jailbreak operator in LLMs
- Title(参考訳): LLMにおけるジェイルブレイクオペレーターとしてのポルトガルにおける敵対的会話
- Authors: Joao Queiroz,
- Abstract要約: 近年の証拠は、プロンプトの可逆化が、アライメントLDMに対する非常に効果的な対向メカニズムを構成することを示している。
ポルトガル語における評価の欠如は、形態素合成の複雑さが高い言語であり、重大なギャップを形成している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent evidence shows that the versification of prompts constitutes a highly effective adversarial mechanism against aligned LLMs. The study 'Adversarial poetry as a universal single-turn jailbreak mechanism in large language models' demonstrates that instructions routinely refused in prose become executable when rewritten as verse, producing up to 18 x more safety failures in benchmarks derived from MLCommons AILuminate. Manually written poems reach approximately 62% ASR, and automated versions 43%, with some models surpassing 90% success in single-turn interactions. The effect is structural: systems trained with RLHF, constitutional AI, and hybrid pipelines exhibit consistent degradation under minimal semiotic formal variation. Versification displaces the prompt into sparsely supervised latent regions, revealing guardrails that are excessively dependent on surface patterns. This dissociation between apparent robustness and real vulnerability exposes deep limitations in current alignment regimes. The absence of evaluations in Portuguese, a language with high morphosyntactic complexity, a rich metric-prosodic tradition, and over 250 million speakers, constitutes a critical gap. Experimental protocols must parameterise scansion, metre, and prosodic variation to test vulnerabilities specific to Lusophone patterns, which are currently ignored.
- Abstract(参考訳): 近年の証拠は、プロンプトの可逆化が、アライメントLDMに対する非常に効果的な対向メカニズムを構成することを示している。
MLCommons AILuminateのベンチマークでは、「大言語モデルにおける普遍的な単一旋回ジェイルブレイク機構としての逆詩」研究は、詩として書き直されたとき、散文で日常的に拒否される命令が実行可能となり、最大18倍の安全性障害が生じることを示した。
手書きの詩はおよそ62%のASRに達し、自動化版は43%に達し、一部のモデルはシングルターンインタラクションで90%以上の成功を収めた。
RLHF、コンスティチューションAI、ハイブリッドパイプラインでトレーニングされたシステムは、最小限のセミオティックな形式変化の下で一貫した劣化を示す。
バーシフィケーションはプロンプトをわずかに監督された潜伏領域に置き換え、表面パターンに過度に依存するガードレールを明らかにする。
明らかなロバスト性と真の脆弱性の間のこの解離は、現在のアライメント体制における深い制限を露呈する。
ポルトガル語による評価の欠如は、高い形態素合成の複雑さ、豊かなメートル法・韻律の伝統、および2億5000万人以上の話者による重要なギャップを形成している。
実験的プロトコルは、現在無視されているLusophoneパターン固有の脆弱性をテストするために、スキャン、メートル、韻律的なバリエーションをパラメータ化しなければならない。
関連論文リスト
- Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models [1.5401871453629499]
本稿では,Large Language Models (LLMs) の汎用的単一ターンジェイルブレイク手法として,敵対詩が機能することを示す。
25のプロプライエタリでオープンウェイトなモデルで、キュレートされた詩的なプロンプトによって高いアタック・サクセス・レート(ASR)が得られ、一部のプロバイダは90%を超えた。
論文 参考訳(メタデータ) (2025-11-19T10:14:08Z) - Sentra-Guard: A Multilingual Human-AI Framework for Real-Time Defense Against Adversarial LLM Jailbreaks [0.31984926651189866]
Sentra-Guardは、大規模言語モデル(LLM)のためのリアルタイムモジュールディフェンスシステムである。
このフレームワークは、FAISSにインデックスされたSBERT埋め込み表現とハイブリッドアーキテクチャを使用して、プロンプトの意味をキャプチャする。
直接攻撃ベクトルと難解攻撃ベクトルの両方において、敵のプロンプトを識別する。
論文 参考訳(メタデータ) (2025-10-26T11:19:47Z) - Behind the Mask: Benchmarking Camouflaged Jailbreaks in Large Language Models [0.0]
カモフラージュされたジェイルブレイクは 明らかに良心的な言語の中に 悪意のある意図を埋め込んで 既存の安全メカニズムを回避している
本稿では, 従来のキーワードベース検出手法の誤り特性と限界に着目し, カモフラージュされたジェイルブレイクプロンプトの構築と影響について検討する。
論文 参考訳(メタデータ) (2025-09-05T19:57:38Z) - HAMSA: Hijacking Aligned Compact Models via Stealthy Automation [3.7898376145698744]
大規模言語モデル(LLM)は、広範囲なアライメントの努力にもかかわらず有害なアウトプットを誘発できるジェイルブレイク攻撃の影響を受けやすい。
セマンティックに意味があり、ステルス的なジェイルブレイクプロンプトを進化させ、協調したコンパクトなLDMのための自動赤チームフレームワークを提案する。
本手法は,LLM における In-The-Wild Jailbreak Prompts と LLM における In-The-Wild Jailbreak Prompts から派生したアラビア語で,ネイティブアラビア語の言語学者によって注釈付けされた新たなキュレーションを行った。
論文 参考訳(メタデータ) (2025-08-22T15:57:57Z) - Con Instruction: Universal Jailbreaking of Multimodal Large Language Models via Non-Textual Modalities [76.9327488986162]
既存のマルチモーダル言語モデル(MLLM)に対する攻撃は、主に敵対的な画像を伴うテキストを通して指示を伝える。
我々はMLLMの能力を利用して、非テキスト命令、具体的には、我々の新しい手法であるCon Instructionによって生成された逆画像やオーディオを解釈する。
LLaVA-v1.5 (13B)で81.3%,86.6%の攻撃成功率を達成した。
論文 参考訳(メタデータ) (2025-05-31T13:11:14Z) - MIRAGE: Multimodal Immersive Reasoning and Guided Exploration for Red-Team Jailbreak Attacks [85.3303135160762]
MIRAGEは、物語駆動型コンテキストとロール没入を利用して、マルチモーダル大規模言語モデルにおける安全性メカニズムを回避する新しいフレームワークである。
最先端のパフォーマンスを達成し、最高のベースラインよりも攻撃成功率を最大17.5%向上させる。
役割の浸漬と構造的セマンティック再構築は、モデル固有のバイアスを活性化し、モデルが倫理的保護に自発的に違反することを実証する。
論文 参考訳(メタデータ) (2025-03-24T20:38:42Z) - Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models [53.580928907886324]
Reasoning-Augmented Conversationは、新しいマルチターンジェイルブレイクフレームワークである。
有害なクエリを良心的な推論タスクに再構成する。
RACEは,複雑な会話シナリオにおいて,最先端攻撃の有効性を実現する。
論文 参考訳(メタデータ) (2025-02-16T09:27:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。