論文の概要: Trojan-Speak: Bypassing Constitutional Classifiers with No Jailbreak Tax via Adversarial Finetuning
- arxiv url: http://arxiv.org/abs/2603.29038v1
- Date: Mon, 30 Mar 2026 22:10:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-01 15:25:02.88306
- Title: Trojan-Speak: Bypassing Constitutional Classifiers with No Jailbreak Tax via Adversarial Finetuning
- Title(参考訳): トロヤ語話者:反逆的微調整で脱獄税を課さない憲法上の分類を回避
- Authors: Bilgehan Sel, Xuanli He, Alwin Peng, Ming Jin, Jerry Wei,
- Abstract要約: 本稿では, 対人的微調整法であるTrojanSpeakを紹介する。
本手法では,LLMに基づくコンテンツ分類を回避するためのコミュニケーションプロトコルをモデルに教えるために,カリキュラム学習とハイブリッド強化学習を組み合わせる。
- 参考スコア(独自算出の注目度): 17.323888294338754
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fine-tuning APIs offered by major AI providers create new attack surfaces where adversaries can bypass safety measures through targeted fine-tuning. We introduce Trojan-Speak, an adversarial fine-tuning method that bypasses Anthropic's Constitutional Classifiers. Our approach uses curriculum learning combined with GRPO-based hybrid reinforcement learning to teach models a communication protocol that evades LLM-based content classification. Crucially, while prior adversarial fine-tuning approaches report more than 25% capability degradation on reasoning benchmarks, Trojan-Speak incurs less than 5% degradation while achieving 99+% classifier evasion for models with 14B+ parameters. We demonstrate that fine-tuned models can provide detailed responses to expert-level CBRN (Chemical, Biological, Radiological, and Nuclear) queries from Anthropic's Constitutional Classifiers bug-bounty program. Our findings reveal that LLM-based content classifiers alone are insufficient for preventing dangerous information disclosure when adversaries have fine-tuning access, and we show that activation-level probes can substantially improve robustness to such attacks.
- Abstract(参考訳): 主要なAIプロバイダによって提供される微調整APIは、敵がターゲットとする微調整を通じて安全性対策を回避できるような、新たな攻撃面を作成する。
本稿では,Trojan-Speakについて紹介する。
本手法では,GRPOをベースとしたハイブリッド強化学習と組み合わせたカリキュラム学習を用いて,LLMベースのコンテンツ分類を回避するための通信プロトコルをモデルに教える。
重要なことに、先進的な微調整手法は推論ベンチマークで25%以上の能力低下を報告しているが、Trojan-Speakは5%未満の劣化を招き、14B+パラメータを持つモデルに対して99以上の分類器回避を達成する。
我々は, 精密調整モデルを用いて, 専門家レベルのCBRNクエリ(化学, 生物, 放射線, 核)に対して, バグ報奨プログラムから詳細な応答を得られることを示した。
この結果から,LDMベースのコンテンツ分類器だけでは,敵が微調整アクセスを行う場合の危険情報開示を防止するには不十分であることが判明し,アクティベーションレベルプローブは攻撃に対する堅牢性を大幅に向上させることができることを示した。
関連論文リスト
- The Compliance Paradox: Semantic-Instruction Decoupling in Automated Academic Code Evaluation [11.984098021215878]
SPACI(Semantic-Preserving Adrial Code Injection)フレームワークとAST-ASIP(Abstract Syntax Tree-Aware Semantic Injection Protocol)を紹介する。
これらの方法は、抽象構文木(英語版)の構文的に不活性な領域(トリヴィアノード)に逆方向の指示を埋め込むことにより、構文解析ギャップを利用する。
Python、C、C++、Javaの25,000のサブミッションにまたがる9つのSOTAモデルの大規模な評価を通じて、DeepSeek-V3のような高容量オープンウェイトモデルにおいて、破滅的な失敗率(>95%)を明らかにします。
論文 参考訳(メタデータ) (2026-01-29T07:40:58Z) - TrojanStego: Your Language Model Can Secretly Be A Steganographic Privacy Leaking Agent [22.364938679083053]
本稿では,言語ステガノグラフィーによる自然界のアウトプットにセンシティブな文脈情報を埋め込む,新たな脅威モデルであるTrojanStegoを提案する。
本稿では, LLMのリスク要因を概説した分類法を導入し, 脅威のリスクプロファイルを評価する。
実験の結果,妥協されたモデルでは,32ビットのシークレットを87%の精度で確実に送信し,97%以上の精度で3世代にわたる過半数投票を行った。
論文 参考訳(メタデータ) (2025-05-26T15:20:51Z) - Revisiting Backdoor Attacks on LLMs: A Stealthy and Practical Poisoning Framework via Harmless Inputs [54.90315421117162]
完全無害データを用いた新しい毒殺法を提案する。
自己回帰型LPMの因果推論に着想を得て,トリガーと肯定的応答プレフィックスの堅牢な関連性を確立することを目指す。
LLMは最初は同意するように見えるが,その後回答を拒む興味深い抵抗現象を観察する。
論文 参考訳(メタデータ) (2025-05-23T08:13:59Z) - No Query, No Access [50.18709429731724]
被害者のテキストのみを使用して動作する textbfVictim Data-based Adrial Attack (VDBA) を導入する。
被害者モデルへのアクセスを防止するため、公開されている事前トレーニングモデルとクラスタリングメソッドを備えたシャドウデータセットを作成します。
EmotionとSST5データセットの実験によると、VDBAは最先端の手法より優れており、ASRの改善は52.08%である。
論文 参考訳(メタデータ) (2025-05-12T06:19:59Z) - Robust Safety Classifier for Large Language Models: Adversarial Prompt
Shield [7.5520641322945785]
大規模言語モデルの安全性は、敵の攻撃に対する脆弱性のため、依然として重要な懸念事項である。
本稿では,検出精度を向上し,対向プロンプトに対するレジリエンスを示す軽量モデルであるAdversarial Prompt Shield(APS)を紹介する。
また、対戦型トレーニングデータセットを自律的に生成するための新しい戦略を提案する。
論文 参考訳(メタデータ) (2023-10-31T22:22:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。