論文の概要: BAIT: Boundary-Guided Disclosure Escalation via Self-Conditioned Reasoning
- arxiv url: http://arxiv.org/abs/2605.27110v1
- Date: Tue, 26 May 2026 14:51:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:42.270904
- Title: BAIT: Boundary-Guided Disclosure Escalation via Self-Conditioned Reasoning
- Title(参考訳): BAIT:自己定義型推論による境界誘導開示エスカレーション
- Authors: Xuan Luo, Yue Wang, Geng Tu, Jing Li, Ruifeng Xu,
- Abstract要約: BAITは3段階のジェイルブレイクフレームワークで、内部開示を通じて悪意ある目標にアプローチする。
BAITは、トップクラスの大規模言語モデルにおける強力な攻撃成功率を一貫して達成している。
- 参考スコア(独自算出の注目度): 34.412306897787616
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this work, we propose BAIT (Boundary-Aware Iterative Trap), a three-step jailbreak framework that approaches malicious goals through internal disclosure. BAIT first asks the model to identify the protection boundary, then requires it to refine that boundary, and finally requests a detailed example. By expanding each step upon the model's previous responses, BAIT turns the model's own reasoning and consistency tendency into a disclosure pathway. Experiments on AdvBench, JailbreakBench, AIR-Bench, and SORRY-Bench demonstrate that BAIT consistently achieves strong attack success rates across top-tier large language models, significantly advancing conventional jailbreak baselines. Further analysis reveals that: 1) prevention-oriented framing significantly outperforms direct knowledge request; 2) the refinement step plays a critical role in disclosure escalation; and 3) the first two steps have a certain chance of eliciting harmful content while triggering little filtering.
- Abstract(参考訳): 本研究では,3段階のジェイルブレイクフレームワークであるBAIT(Boundary-Aware Iterative Trap)を提案する。
BAITはまずモデルに保護境界を特定するように要求し、次にその境界を洗練させ、最後に詳細な例を要求する。
各ステップをモデルの以前の応答に拡大することで、BAITはモデル自身の推論と一貫性の傾向を開示経路に変換する。
AdvBench、JailbreakBench、AIR-Bench、SORRY-Benchに関する実験は、BAITがトップクラスの大規模言語モデルに対して一貫して強力な攻撃成功率を達成し、従来のジェイルブレイクベースラインを大幅に前進させることを示した。
さらなる分析は、こう明らかにしている。
1) 予防指向フレーミングは,直接的な知識要求を著しく上回る。
2) 開示エスカレーションにおいて、精錬工程が重要な役割を果たす。
3) 最初の2つのステップは、ほとんどフィルタリングを起こさずに有害なコンテンツを引き出す確率が高い。
関連論文リスト
- Jailbreaking Frontier Foundation Models Through Intention Deception [6.119674554651102]
大きな(ビジョン-)モデルは優れた能力を示すが、ジェイルブレイクの影響を受けやすい。
本稿では,この脆弱性を利用した新しいマルチターンジェイルブレイク手法を提案する。
当社のアプローチでは、パラジェイルブレークと呼ばれる新たなモデルの脆弱性も発見しました。
論文 参考訳(メタデータ) (2026-04-27T06:12:43Z) - TraceGuard: Process-Guided Firewall against Reasoning Backdoors in Large Language Models [19.148124494194317]
我々は,小規模モデルを堅牢な推論ファイアウォールに変換するプロセス誘導型セキュリティフレームワークであるTraceGuardを提案する。
提案手法は,推理トレースを信頼できないペイロードとして扱い,詳細な防衛戦略を確立する。
グレーボックス設定における適応的敵に対する堅牢性を実証し、TraceGuardを実用的で低レイテンシなセキュリティプリミティブとして確立する。
論文 参考訳(メタデータ) (2026-03-02T22:19:13Z) - Bag of Tricks for Subverting Reasoning-based Safety Guardrails [62.139297207938036]
推論に基づくガードレールを覆い隠すジェイルブレイク手法の袋を提示する。
攻撃対象は白、グレー、ブラックボックスの設定で、無駄なテンプレート操作から完全に自動化された最適化までさまざまです。
論文 参考訳(メタデータ) (2025-10-13T16:16:44Z) - ASGuard: Activation-Scaling Guard to Mitigate Targeted Jailbreaking Attack [22.48980625853356]
大規模言語モデル(LLM)は、単純な言語的変化によって回避できる脆い拒絶行動を示す。
本研究では、この特定の脆弱性を外科的に軽減する、洞察に富んだ機械的インフォームドフレームワークであるアクティベーション・スケーリングガード(ASGuard)を紹介する。
論文 参考訳(メタデータ) (2025-09-30T06:33:52Z) - Activation-Guided Local Editing for Jailbreaking Attacks [33.13949817155855]
トークンレベルのジェイルブレイク攻撃は、しばしば不整合または読めない入力を生み出す。
即時攻撃はスケーラビリティに欠けており、手作業や人間の創造性に大きく依存している。
本稿では,これらのアプローチの利点を組み合わせた,簡潔で効果的な2段階のフレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-01T11:52:24Z) - Does More Inference-Time Compute Really Help Robustness? [50.47666612618054]
小規模なオープンソースモデルは、推論時間スケーリングの恩恵を受けることができることを示す。
我々は、逆スケーリング法として、直感的に動機付けられ、実証的に検証された重要なセキュリティリスクを特定します。
私たちは、セキュリティに敏感で現実世界のアプリケーションに推論タイムのスケーリングを適用する前に、実践者にこれらの微妙なトレードオフを慎重に検討するよう促します。
論文 参考訳(メタデータ) (2025-07-21T18:08:38Z) - ARMOR: Aligning Secure and Safe Large Language Models via Meticulous Reasoning [64.32925552574115]
ARMORは、jailbreak戦略を分析し、コアインテントを抽出する、大規模な言語モデルである。
ARMORは最先端の安全性能を達成し、平均有害率は0.002であり、高度な最適化ベースのジェイルブレイクに対する攻撃成功率は0.06である。
論文 参考訳(メタデータ) (2025-07-14T09:05:54Z) - Turning Logic Against Itself : Probing Model Defenses Through Contrastive Questions [50.40122190627256]
非倫理的反応を引き起こすために、対照的な推論を利用する新しいジェイルブレイク手法であるPOATEを導入する。
PoATEは意味論的に意図に反し、敵のテンプレートと統合し、有害なアウトプットを驚くほど微妙に操る。
これに対応するために、悪意のある意図と理性を検出するためにクエリを分解して、有害な応答を評価し、拒否するIntent-Aware CoTとReverse Thinking CoTを提案する。
論文 参考訳(メタデータ) (2025-01-03T15:40:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。