論文の概要: Furina: Fragmented Uncertainty-Driven Refusal Instability Attack
- arxiv url: http://arxiv.org/abs/2605.26158v1
- Date: Sun, 24 May 2026 11:35:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.204424
- Title: Furina: Fragmented Uncertainty-Driven Refusal Instability Attack
- Title(参考訳): Furina: 不安定な不確実性駆動の障害攻撃
- Authors: Tongxi Wu, Jian Zhang, Yang Gao,
- Abstract要約: 大規模言語モデル (LLM) とマルチモーダル・大規模言語モデル (MLLM) の安全性の整合性は、概ね2つのしきい値のメカニズムとして機能すると考えられている。
我々は、安全行動は、小さな摂動が決定論的結果よりも拒絶決定を引き起こす不安定な領域に支配されていることを明らかにすることによって、この仮定に挑戦する。
この不安定性を特徴付けるために,外部信号と内部信号を組み合わせたマルチメトリック診断フレームワークを開発した。
Furinaは、モデル固有の最適化なしに、断片化されたシーンアンコールプロンプトを通じて意図的にこのシグネチャを誘導するジェイルブレイク攻撃である。
- 参考スコア(独自算出の注目度): 9.678677899786718
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Safety alignment in large language models (LLMs) and multimodal large language models (MLLMs) is commonly assumed to operate as a near-binary threshold mechanism. We challenge this assumption by revealing that safety behavior is governed by an instability region where small perturbations induce stochastic refusal decisions rather than deterministic outcomes. We develop a multi-metric diagnostic framework combining external and internal signals to characterize this instability. Through systematic experiments, we identify a characteristic diagnostic signature: inputs in unstable regimes exhibit elevated output uncertainty yet decreased internal safety activation, a decoupling phenomenon that explains why detection-based defenses fail against sophisticated attacks. Building on this framework, we introduce Furina, a jailbreak attack that deliberately induces this signature through fragmented, scene-anchored prompts without model-specific optimization. Furina outperforms strong single-turn and multi-turn baselines on HarmBench and achieves competitive results on MM-SafetyBench, demonstrating that uncertainty amplification provides a principled and transferable mechanism for understanding safety vulnerabilities. Code is available at: https://github.com/0xCavaliers/Furina_Jailbreak.
- Abstract(参考訳): 大規模言語モデル (LLM) とマルチモーダル・大規模言語モデル (MLLM) の安全性の整合性は、概ね2つのしきい値のメカニズムとして機能すると考えられている。
我々は、安全行動は、小さな摂動が決定論的結果よりも確率論的拒絶決定を引き起こす不安定な領域に支配されていることを明らかにすることによって、この仮定に挑戦する。
この不安定性を特徴付けるために,外部信号と内部信号を組み合わせたマルチメトリック診断フレームワークを開発した。
系統的な実験により、不安定な状態における入力は出力不確実性の増大を示すが、内部安全の活性化は減少する。
このフレームワーク上に構築されたFurinaは、モデル固有の最適化なしに、断片化されたシーンアンコールプロンプトを通じて意図的にこのシグネチャを誘導するジェイルブレイク攻撃である。
FurinaはHarmBench上で強力なシングルターンベースラインとマルチターンベースラインを上回り、MM-SafetyBench上での競争結果を達成する。
コードは、https://github.com/0xCavaliers/Furina_Jailbreak.comで入手できる。
関連論文リスト
- Provable Robustness against Backdoor Attacks via the Primal-Dual Perspective on Differential Privacy [51.758416625168]
ランダムな平滑化は、敵の摂動に対する堅牢性を証明するための強力なツールである。
本稿では,複雑な構成機構の認証のためのフレームワークを提案する。
複雑な脅威モデル下での堅牢性を証明するために複合メカニズムを使用するための原則的で一般的なフレームワークを提供する。
論文 参考訳(メタデータ) (2026-05-20T22:17:29Z) - Quantifiable Uncertainty: A Stochastic Consensus Multi-Agent RAG Framework for Robust Malware Detection [1.2183405753834562]
本稿では,マルウェア解析をセマンティックコード検索と確率的検証に分離するフレームワークMAGMAを提案する。
MAGMAは98.4%の検知率を示し,既存の解よりもかなり高い値を示した。
論文 参考訳(メタデータ) (2026-05-08T18:46:24Z) - Towards Trustworthy Depression Estimation via Disentangled Evidential Learning [50.22167852149165]
EviDepはうつ病の重症度を共同で定量化する明らかな学習フレームワークである。
EviDepは、堅牢な証拠合成を保証するために厳密な情報整合性を強制する。
最先端の予測精度と優れた不確実性校正を実現し、信頼できる臨床スクリーニングのための堅牢なフェールセーフメカニズムを提供する。
論文 参考訳(メタデータ) (2026-04-17T13:27:11Z) - Robust Multimodal Safety via Conditional Decoding [52.92816441364308]
マルチモーダル大規模言語モデル(MLLM)は、有害なクエリが相互モーダル相互作用を悪用した場合、しばしば安全性の低下を経験する。
本稿では,MLLMの内部表現を利用して応答生成前の二項安全トークンを予測する,シンプルな条件付きデコード戦略であるCASAを提案する。
論文 参考訳(メタデータ) (2026-03-31T23:19:50Z) - BarrierSteer: LLM Safety via Learning Barrier Steering [83.12893815611052]
BarrierSteerは、学習した非線形安全性制約を直接モデルの潜在表現空間に埋め込むことで、安全性を形式化する新しいフレームワークである。
BarrierSteerは、敵の成功率を大幅に低下させ、安全でない世代を減少させ、既存の手法より優れていることを示す。
論文 参考訳(メタデータ) (2026-02-23T18:19:46Z) - Fail-Closed Alignment for Large Language Models [4.205036273334146]
本研究では,大規模言語モデルの安全性向上のための設計原則として,フェールクロースアライメントを提案する。
本稿では、事前学習した拒絶方向を反復的に識別し、非難するプログレッシブアライメント・フレームワークを提案する。
メカニスティック解析により,本手法で訓練したモデルでは,プロンプトベースのジェイルブレイクが同時に抑制できない複数の因果的に独立な拒絶方向を符号化することを確認した。
論文 参考訳(メタデータ) (2026-02-19T00:33:35Z) - SafeThinker: Reasoning about Risk to Deepen Safety Beyond Shallow Alignment [43.86865924673546]
軽量なゲートウェイ分類器を介して防御資源を割り当てる適応型フレームワークであるSafeThinkerを提案する。
実験によると、SafeThinkerは、堅牢性を損なうことなく、さまざまなジェイルブレイク戦略における攻撃の成功率を大幅に低下させる。
論文 参考訳(メタデータ) (2026-01-23T07:12:53Z) - Agentic Uncertainty Quantification [76.94013626702183]
本稿では,言語化された不確実性をアクティブな双方向制御信号に変換する統合されたデュアルプロセスエージェントUQ(AUQ)フレームワークを提案する。
システム1(Uncertainty-Aware Memory, UAM)とシステム2(Uncertainty-Aware Reflection, UAR)は、これらの説明を合理的な手段として利用し、必要な時にのみターゲットの推論時間解決をトリガーする。
論文 参考訳(メタデータ) (2026-01-22T07:16:26Z) - DiffuGuard: How Intrinsic Safety is Lost and Found in Diffusion Large Language Models [50.21378052667732]
我々は、ステップ内およびステップ間ダイナミクスという2つの異なる次元にわたるジェイルブレイク攻撃に対して、dLLM脆弱性の詳細な分析を行う。
デュアルステージアプローチによる脆弱性に対処する,トレーニング不要な防御フレームワークであるDiffuGuardを提案する。
論文 参考訳(メタデータ) (2025-09-29T05:17:10Z) - Embedding Poisoning: Bypassing Safety Alignment via Embedding Semantic Shift [23.0914017433021]
この研究は、モデルウェイトや入力テキストを変更することなく、埋め込み層出力に直接知覚不能な摂動を注入することで脆弱性を利用する、新しいデプロイメントフェーズ攻撃のクラスを特定する。
本稿では,リスクトークンに関連付けられた埋め込みに注意深く最適化された摂動を導入する,実用的なモデルに依存しないフレームワークである検索ベースの埋め込みポジショニングを提案する。
論文 参考訳(メタデータ) (2025-09-08T05:00:58Z) - Feature-Aware Malicious Output Detection and Mitigation [8.378272216429954]
有害反応拒絶(FMM)のための特徴認識手法を提案する。
FMMは、モデルの特徴空間内に悪意のある特徴が存在することを検知し、モデルの拒絶機構を適応的に調整する。
実験により,複数の言語モデルと多様な攻撃手法を用いたアプローチの有効性が示された。
論文 参考訳(メタデータ) (2025-04-12T12:12:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。