Fugu-MT 論文翻訳(概要): Trojan-Speak: Bypassing Constitutional Classifiers with No Jailbreak Tax via Adversarial Finetuning

論文の概要: Trojan-Speak: Bypassing Constitutional Classifiers with No Jailbreak Tax via Adversarial Finetuning

arxiv url: http://arxiv.org/abs/2603.29038v1
Date: Mon, 30 Mar 2026 22:10:28 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-01 15:25:02.88306
Title: Trojan-Speak: Bypassing Constitutional Classifiers with No Jailbreak Tax via Adversarial Finetuning
Title（参考訳）: トロヤ語話者:反逆的微調整で脱獄税を課さない憲法上の分類を回避
Authors: Bilgehan Sel, Xuanli He, Alwin Peng, Ming Jin, Jerry Wei,
Abstract要約: 本稿では, 対人的微調整法であるTrojanSpeakを紹介する。本手法では,LLMに基づくコンテンツ分類を回避するためのコミュニケーションプロトコルをモデルに教えるために,カリキュラム学習とハイブリッド強化学習を組み合わせる。
参考スコア（独自算出の注目度）: 17.323888294338754
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Fine-tuning APIs offered by major AI providers create new attack surfaces where adversaries can bypass safety measures through targeted fine-tuning. We introduce Trojan-Speak, an adversarial fine-tuning method that bypasses Anthropic's Constitutional Classifiers. Our approach uses curriculum learning combined with GRPO-based hybrid reinforcement learning to teach models a communication protocol that evades LLM-based content classification. Crucially, while prior adversarial fine-tuning approaches report more than 25% capability degradation on reasoning benchmarks, Trojan-Speak incurs less than 5% degradation while achieving 99+% classifier evasion for models with 14B+ parameters. We demonstrate that fine-tuned models can provide detailed responses to expert-level CBRN (Chemical, Biological, Radiological, and Nuclear) queries from Anthropic's Constitutional Classifiers bug-bounty program. Our findings reveal that LLM-based content classifiers alone are insufficient for preventing dangerous information disclosure when adversaries have fine-tuning access, and we show that activation-level probes can substantially improve robustness to such attacks.
Abstract（参考訳）: 主要なAIプロバイダによって提供される微調整APIは、敵がターゲットとする微調整を通じて安全性対策を回避できるような、新たな攻撃面を作成する。本稿では,Trojan-Speakについて紹介する。本手法では,GRPOをベースとしたハイブリッド強化学習と組み合わせたカリキュラム学習を用いて,LLMベースのコンテンツ分類を回避するための通信プロトコルをモデルに教える。重要なことに、先進的な微調整手法は推論ベンチマークで25%以上の能力低下を報告しているが、Trojan-Speakは5%未満の劣化を招き、14B+パラメータを持つモデルに対して99以上の分類器回避を達成する。我々は, 精密調整モデルを用いて, 専門家レベルのCBRNクエリ(化学, 生物, 放射線, 核)に対して, バグ報奨プログラムから詳細な応答を得られることを示した。この結果から,LDMベースのコンテンツ分類器だけでは,敵が微調整アクセスを行う場合の危険情報開示を防止するには不十分であることが判明し,アクティベーションレベルプローブは攻撃に対する堅牢性を大幅に向上させることができることを示した。

論文の概要: Trojan-Speak: Bypassing Constitutional Classifiers with No Jailbreak Tax via Adversarial Finetuning

関連論文リスト