論文の概要: Defensive M2S: Training Guardrail Models on Compressed Multi-turn Conversations
- arxiv url: http://arxiv.org/abs/2601.00454v1
- Date: Thu, 01 Jan 2026 19:42:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-05 15:04:33.456647
- Title: Defensive M2S: Training Guardrail Models on Compressed Multi-turn Conversations
- Title(参考訳): ディフェンシブM2S:圧縮マルチターン会話におけるガードレールモデルの訓練
- Authors: Hyunjun Kim,
- Abstract要約: マルチターンからシングルターン会話におけるガードレールの微調整を行う訓練パラダイムであるDefensive M2Sを提案する。
M2Sはトレーニングコストを$O(n2)$から$O(n)$に下げる。
- 参考スコア(独自算出の注目度): 12.969042037563971
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Guardrail models are essential for ensuring the safety of Large Language Model (LLM) deployments, but processing full multi-turn conversation histories incurs significant computational cost. We propose Defensive M2S, a training paradigm that fine-tunes guardrail models on Multi-turn to Single-turn (M2S) compressed conversations rather than complete dialogue histories. We provide a formal complexity analysis showing that M2S reduces training cost from $O(n^2)$ to $O(n)$ for $n$-turn conversations. Empirically, on our training dataset (779 samples, avg. 10.6 turns), M2S requires only 169K tokens compared to 15.7M tokens for the multi-turn baseline -- a 93$\times$ reduction. We evaluate Defensive M2S across three guardrail model families (LlamaGuard, Nemotron, Qwen3Guard) and three compression templates (hyphenize, numberize, pythonize) on SafeDialBench, a comprehensive multi-turn jailbreak benchmark. Our best configuration, Qwen3Guard with hyphenize compression, achieves 93.8% attack detection recall while reducing inference tokens by 94.6% (from 3,231 to 173 tokens per conversation). This represents a 38.9 percentage point improvement over the baseline while dramatically reducing both training and inference costs. Our findings demonstrate that M2S compression can serve as an effective efficiency technique for guardrail deployment, enabling scalable safety screening of long multi-turn conversations.
- Abstract(参考訳): ガードレールモデルは、LLM(Large Language Model)デプロイメントの安全性を保証するために不可欠であるが、完全なマルチターン会話履歴を処理することは、計算コストを大幅に削減する。
完全対話履歴ではなく,M2S(Multi-turn to Single-turn)を圧縮した会話に対して,ガードレールを微調整する訓練パラダイムであるDefensive M2Sを提案する。
我々は、M2Sがトレーニングコストを$O(n^2)$から$O(n)$ for $n$-turnの会話に還元することを示す公式な複雑性分析を提供する。
経験的に、トレーニングデータセット(779サンプル、10.6ターン)では、M2Sは、マルチターンベースライン(93$\times$ reduce)の15.7Mトークンと比較して169Kトークンしか必要としない。
総合的なマルチターンジェイルブレイクベンチマークであるSafeDialBench上で,3つのガードレールモデルファミリ(LlamaGuard,Nemotron,Qwen3Guard)と3つの圧縮テンプレート(ハイフン,数値,ピソンライズ)のDefensive M2Sを評価した。
我々の最高の構成であるハイフン化圧縮のQwen3Guardは、93.8%の攻撃検出リコールを実現し、推論トークンを94.6%削減しました(会話あたり3,231トークンから173トークンまで)。
これはベースラインよりも38.9ポイント改善され、トレーニングと推論の両方のコストが劇的に削減されたことを意味する。
以上の結果から,M2S圧縮がガードレール配置の効率向上に有効であることが示唆された。
関連論文リスト
- Improving Large Language Model Safety with Contrastive Representation Learning [92.79965952162298]
大規模言語モデル(LLM)は、社会に深い影響を与える強力なツールである。
多様な制御されていない入力に対する応答を生成する能力は、敵の攻撃に対して脆弱である。
対照的な表現学習問題としてモデルディフェンスを定式化するディフェンスフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-13T16:42:09Z) - Revisiting Backdoor Attacks on LLMs: A Stealthy and Practical Poisoning Framework via Harmless Inputs [54.90315421117162]
完全無害データを用いた新しい毒殺法を提案する。
自己回帰型LPMの因果推論に着想を得て,トリガーと肯定的応答プレフィックスの堅牢な関連性を確立することを目指す。
LLMは最初は同意するように見えるが,その後回答を拒む興味深い抵抗現象を観察する。
論文 参考訳(メタデータ) (2025-05-23T08:13:59Z) - M2S: Multi-turn to Single-turn jailbreak in Red Teaming for LLMs [8.91993614197627]
本稿では,マルチターン対逆ジェイルブレイクのプロンプトを単一ターンクエリに集約する新しいフレームワークを提案する。
マルチターン・ツー・シングルターン(M2S)手法は,多ターン対話を構造化シングルターンプロンプトに体系的に再構成する。
注目すべきは、シングルターンはオリジナルのマルチターン攻撃を最大17.5ポイント上回ったことである。
論文 参考訳(メタデータ) (2025-03-06T07:34:51Z) - FLRT: Fluent Student-Teacher Redteaming [0.0]
我々は既存のアルゴリズムを改良し、安全に配慮したモデルに対する強力で流動的な攻撃を開発する。
本手法は, 害虫モデルに毒素をエミュレートする新しい蒸留法を中心にした手法である。
Llama-2-7B, Llama-3-8B, Vicuna-7Bの攻撃成功率は93$%であり, モデルによるパープレキシティは33$である。
論文 参考訳(メタデータ) (2024-07-24T17:23:18Z) - Bridging Models to Defend: A Population-Based Strategy for Robust Adversarial Defense [70.39517230717126]
敵の堅牢性(Adrial robustness)は、ニューラルネットワークが推論時に敵の攻撃に耐える能力の重要な尺度である。
本稿では,新しいロバストモード接続性(RMC)指向の対角防御フレームワークを提案する。
提案手法は, $ell_infty$, $ell$, およびハイブリッド攻撃に対するロバスト性を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2023-03-17T19:49:10Z) - Towards Variable-Length Textual Adversarial Attacks [68.27995111870712]
データの離散性のため、自然言語処理タスクに対してテキストによる敵意攻撃を行うことは非自明である。
本稿では,可変長テキスト対比攻撃(VL-Attack)を提案する。
本手法は、iwslt14ドイツ語英訳で3,18$ bleuスコアを達成でき、ベースラインモデルより1.47$改善できる。
論文 参考訳(メタデータ) (2021-04-16T14:37:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。