論文の概要: Defensive M2S: Training Guardrail Models on Compressed Multi-turn Conversations
- arxiv url: http://arxiv.org/abs/2601.00454v1
- Date: Thu, 01 Jan 2026 19:42:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-05 15:04:33.456647
- Title: Defensive M2S: Training Guardrail Models on Compressed Multi-turn Conversations
- Title(参考訳): ディフェンシブM2S:圧縮マルチターン会話におけるガードレールモデルの訓練
- Authors: Hyunjun Kim,
- Abstract要約: マルチターンからシングルターン会話におけるガードレールの微調整を行う訓練パラダイムであるDefensive M2Sを提案する。
M2Sはトレーニングコストを$O(n2)$から$O(n)$に下げる。
- 参考スコア(独自算出の注目度): 12.969042037563971
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Guardrail models are essential for ensuring the safety of Large Language Model (LLM) deployments, but processing full multi-turn conversation histories incurs significant computational cost. We propose Defensive M2S, a training paradigm that fine-tunes guardrail models on Multi-turn to Single-turn (M2S) compressed conversations rather than complete dialogue histories. We provide a formal complexity analysis showing that M2S reduces training cost from $O(n^2)$ to $O(n)$ for $n$-turn conversations. Empirically, on our training dataset (779 samples, avg. 10.6 turns), M2S requires only 169K tokens compared to 15.7M tokens for the multi-turn baseline -- a 93$\times$ reduction. We evaluate Defensive M2S across three guardrail model families (LlamaGuard, Nemotron, Qwen3Guard) and three compression templates (hyphenize, numberize, pythonize) on SafeDialBench, a comprehensive multi-turn jailbreak benchmark. Our best configuration, Qwen3Guard with hyphenize compression, achieves 93.8% attack detection recall while reducing inference tokens by 94.6% (from 3,231 to 173 tokens per conversation). This represents a 38.9 percentage point improvement over the baseline while dramatically reducing both training and inference costs. Our findings demonstrate that M2S compression can serve as an effective efficiency technique for guardrail deployment, enabling scalable safety screening of long multi-turn conversations.
- Abstract(参考訳): ガードレールモデルは、LLM(Large Language Model)デプロイメントの安全性を保証するために不可欠であるが、完全なマルチターン会話履歴を処理することは、計算コストを大幅に削減する。
完全対話履歴ではなく,M2S(Multi-turn to Single-turn)を圧縮した会話に対して,ガードレールを微調整する訓練パラダイムであるDefensive M2Sを提案する。
我々は、M2Sがトレーニングコストを$O(n^2)$から$O(n)$ for $n$-turnの会話に還元することを示す公式な複雑性分析を提供する。
経験的に、トレーニングデータセット(779サンプル、10.6ターン)では、M2Sは、マルチターンベースライン(93$\times$ reduce)の15.7Mトークンと比較して169Kトークンしか必要としない。
総合的なマルチターンジェイルブレイクベンチマークであるSafeDialBench上で,3つのガードレールモデルファミリ(LlamaGuard,Nemotron,Qwen3Guard)と3つの圧縮テンプレート(ハイフン,数値,ピソンライズ)のDefensive M2Sを評価した。
我々の最高の構成であるハイフン化圧縮のQwen3Guardは、93.8%の攻撃検出リコールを実現し、推論トークンを94.6%削減しました(会話あたり3,231トークンから173トークンまで)。
これはベースラインよりも38.9ポイント改善され、トレーニングと推論の両方のコストが劇的に削減されたことを意味する。
以上の結果から,M2S圧縮がガードレール配置の効率向上に有効であることが示唆された。
関連論文リスト
- SEMA: Simple yet Effective Learning for Multi-Turn Jailbreak Attacks [53.97948802255959]
本稿では,既存の戦略や外部データに頼ることなく,マルチターン攻撃者を訓練するフレームワークを提案する。
準備された自己調整は、非拒否的で、よく構造化された、多ターンの逆のプロンプトを微調整することで、使用可能なロールアウトを可能にする。
私たちは、意図の整合性、コンプライアンスリスク、詳細レベルを組み合わせたインテントドリフト対応の報酬を通じて、多ターンジェイルブレイクにおける有害な意図を保ちます。
論文 参考訳(メタデータ) (2026-02-06T16:44:57Z) - TrapSuffix: Proactive Defense Against Adversarial Suffixes in Jailbreaking [52.72486831074384]
サフィックスベースのジェイルブレイク攻撃は、敵のサフィックス、すなわち短いトークンシーケンスを付加し、LLMを安全でない出力にステアリングする。
提案するTrapSuffixは,推論パイプラインを変更することなく,トラップアラインな動作をベースモデルに注入する,軽量な微調整手法である。
様々なサフィックスベースのジェイルブレイク設定で、TrapSuffixは平均攻撃成功率を0.01%以下に下げ、平均追跡成功率87.9%を達成する。
論文 参考訳(メタデータ) (2026-02-06T11:43:56Z) - Large Reasoning Models Are Autonomous Jailbreak Agents [9.694940903078656]
AIモデルに組み込まれた安全メカニズムをバイパスする脱獄は、伝統的に複雑な技術手順や専門的な人間の専門知識を必要としてきた。
大規模推論モデル (LRM) の説得能力は, ジェイルブレイクを単純化し, スケールすることを示した。
本研究は,LRMが他のモデルの安全ガードレールを系統的に除去できるアライメントレグレッションを明らかにする。
論文 参考訳(メタデータ) (2025-08-04T18:27:26Z) - Improving Large Language Model Safety with Contrastive Representation Learning [92.79965952162298]
大規模言語モデル(LLM)は、社会に深い影響を与える強力なツールである。
多様な制御されていない入力に対する応答を生成する能力は、敵の攻撃に対して脆弱である。
対照的な表現学習問題としてモデルディフェンスを定式化するディフェンスフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-13T16:42:09Z) - Revisiting Backdoor Attacks on LLMs: A Stealthy and Practical Poisoning Framework via Harmless Inputs [54.90315421117162]
完全無害データを用いた新しい毒殺法を提案する。
自己回帰型LPMの因果推論に着想を得て,トリガーと肯定的応答プレフィックスの堅牢な関連性を確立することを目指す。
LLMは最初は同意するように見えるが,その後回答を拒む興味深い抵抗現象を観察する。
論文 参考訳(メタデータ) (2025-05-23T08:13:59Z) - M2S: Multi-turn to Single-turn jailbreak in Red Teaming for LLMs [8.91993614197627]
本稿では,マルチターン対逆ジェイルブレイクのプロンプトを単一ターンクエリに集約する新しいフレームワークを提案する。
マルチターン・ツー・シングルターン(M2S)手法は,多ターン対話を構造化シングルターンプロンプトに体系的に再構成する。
注目すべきは、シングルターンはオリジナルのマルチターン攻撃を最大17.5ポイント上回ったことである。
論文 参考訳(メタデータ) (2025-03-06T07:34:51Z) - Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models [53.580928907886324]
Reasoning-Augmented Conversationは、新しいマルチターンジェイルブレイクフレームワークである。
有害なクエリを良心的な推論タスクに再構成する。
RACEは,複雑な会話シナリオにおいて,最先端攻撃の有効性を実現する。
論文 参考訳(メタデータ) (2025-02-16T09:27:44Z) - A Lightweight Method to Disrupt Memorized Sequences in LLM [7.144800814025392]
言語モデルがスケールするにつれて、そのパフォーマンスは幅広いタスクにわたって劇的に向上するが、トレーニングデータの一部を暗記し、復調する傾向がある。
差分プライバシーやモデルアンラーニングのような既存の緩和技術は、ほとんどのユーザにとって実用的でないように、内部重み付けの再訓練やアクセスを必要とすることが多い。
TokenSwapは、トークンレベルの出力しかアクセスできない現実的な設定のために設計された軽量でポストホックな防御システムである。
論文 参考訳(メタデータ) (2025-02-07T18:41:21Z) - FLRT: Fluent Student-Teacher Redteaming [0.0]
我々は既存のアルゴリズムを改良し、安全に配慮したモデルに対する強力で流動的な攻撃を開発する。
本手法は, 害虫モデルに毒素をエミュレートする新しい蒸留法を中心にした手法である。
Llama-2-7B, Llama-3-8B, Vicuna-7Bの攻撃成功率は93$%であり, モデルによるパープレキシティは33$である。
論文 参考訳(メタデータ) (2024-07-24T17:23:18Z) - $R^2$-Guard: Robust Reasoning Enabled LLM Guardrail via Knowledge-Enhanced Logical Reasoning [8.408258504178718]
既存のガードレールモデルは、様々な安全カテゴリーを独立して扱い、それらの相互関係を明示的に把握することができない。
R2$-Guardは,知識を付加した論理的推論を通した堅牢なLLMガードレールである。
R2$-GuardはSoTAメソッドのLlamaGuardをToxicChatで30.2%、Jailbreak攻撃で59.5%を大きく上回っている。
論文 参考訳(メタデータ) (2024-07-08T02:15:29Z) - Bridging Models to Defend: A Population-Based Strategy for Robust Adversarial Defense [70.39517230717126]
敵の堅牢性(Adrial robustness)は、ニューラルネットワークが推論時に敵の攻撃に耐える能力の重要な尺度である。
本稿では,新しいロバストモード接続性(RMC)指向の対角防御フレームワークを提案する。
提案手法は, $ell_infty$, $ell$, およびハイブリッド攻撃に対するロバスト性を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2023-03-17T19:49:10Z) - Towards Variable-Length Textual Adversarial Attacks [68.27995111870712]
データの離散性のため、自然言語処理タスクに対してテキストによる敵意攻撃を行うことは非自明である。
本稿では,可変長テキスト対比攻撃(VL-Attack)を提案する。
本手法は、iwslt14ドイツ語英訳で3,18$ bleuスコアを達成でき、ベースラインモデルより1.47$改善できる。
論文 参考訳(メタデータ) (2021-04-16T14:37:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。