論文の概要: NExT-Guard: Training-Free Streaming Safeguard without Token-Level Labels
- arxiv url: http://arxiv.org/abs/2603.02219v1
- Date: Tue, 10 Feb 2026 08:54:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 01:20:08.081561
- Title: NExT-Guard: Training-Free Streaming Safeguard without Token-Level Labels
- Title(参考訳): NExT-Guard:Token-Levelラベルなしでのトレーニングフリーストリーミングセーフガード
- Authors: Junfeng Fang, Nachuan Chen, Houcheng Jiang, Dan Zhang, Fei Shen, Xiang Wang, Xiangnan He, Tat-Seng Chua,
- Abstract要約: NExT-Guardは、スパースオートエンコーダ(SAE)の解釈可能な潜在機能を監視することで、ストリーミングセーフガードを実現するトレーニング不要フレームワークである。
利用可能なLLMから事前訓練されたSAEを使用しており、トークンレベルの監視なしに柔軟な低コストなデプロイを可能にする。
実験の結果, NExT-Guardは, 教師付きトレーニングに基づいて, ポストホックとストリーミングの保護の両方に優れていた。
- 参考スコア(独自算出の注目度): 66.70287556682105
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models are increasingly deployed in streaming scenarios, rendering conventional post-hoc safeguards ineffective as they fail to interdict unsafe content in real-time. While streaming safeguards based on token-level supervised training could address this, they necessitate expensive annotations and suffer from severe overfitting. In this work, we challenge the paradigm that streaming safety must rely on token-level supervised training. Instead, it is an inherent capability of well-trained post-hoc safeguards, as they already encode token-level risk signals in hidden representations. Hence, we introduce NExT-Guard, a training-free framework that achieves streaming safeguards by monitoring interpretable latent features from Sparse Autoencoders (SAEs). It uses pretrained SAEs from publicly available base LLMs, enabling flexible, low-cost deployment without token-level supervision. Experimental results show that NExT-Guard outperforms both post-hoc and streaming safeguards based on supervised training, with superior robustness across models, SAE variants, and risk scenarios. These results make NExT-Guard a universal and scalable paradigm for real-time safety, accelerating the practical deployment of streaming safeguards.
- Abstract(参考訳): 大規模言語モデルはストリーミングのシナリオにますます多くデプロイされており、安全でないコンテンツをリアルタイムに解釈できないため、従来のポストホックセーフガードは効果がない。
トークンレベルの教師付きトレーニングに基づくストリーミングセーフガードはこれに対処できるが、高価なアノテーションが必要であり、過度なオーバーフィッティングに悩まされる。
本研究では,ストリーミングの安全性はトークンレベルの教師付きトレーニングに頼らなければならないというパラダイムに挑戦する。
代わりに、トークンレベルのリスク信号を隠された表現にエンコードしているため、十分にトレーニングされたポストホックセーフガードの本質的にの能力である。
そこで我々は,Sparse Autoencoders (SAEs) の解釈可能な潜在機能を監視することで,ストリーミングセーフガードを実現するトレーニングフリーフレームワークである NExT-Guard を紹介した。
利用可能なLLMから事前訓練されたSAEを使用しており、トークンレベルの監視なしに柔軟な低コストなデプロイを可能にする。
実験の結果, NExT-Guardは, 教師付きトレーニングに基づいて, ポストホックとストリーミングの安全ガードの両方に優れており, モデル間の堅牢性, SAE 変種, リスクシナリオに優れていた。
これらの結果から、NExT-Guardはリアルタイム安全のための普遍的でスケーラブルなパラダイムとなり、ストリーミングセーフガードの実践的展開が加速される。
関連論文リスト
- Steering Externalities: Benign Activation Steering Unintentionally Increases Jailbreak Risk for Large Language Models [62.16655896700062]
活性化ステアリングは大規模言語モデル(LLM)の有用性を高める技術である
重要かつ過度に調査された安全リスクを無意識に導入することを示します。
実験によると、これらの介入は強制乗算器として機能し、ジェイルブレイクに新たな脆弱性を発生させ、標準ベンチマークで攻撃成功率を80%以上向上させる。
論文 参考訳(メタデータ) (2026-02-03T12:32:35Z) - One Leak Away: How Pretrained Model Exposure Amplifies Jailbreak Risks in Finetuned LLMs [8.493938164845249]
高度に訓練された大規模言語モデル(LLM)は、下流アプリケーションを開発するための標準パラダイムとなっている。
LLMが予め訓練されたソースからジェイルブレイクの脆弱性を継承するかどうかを検討する。
本稿では、転送可能性関連方向に向けて最適化を行うPGP(Probe-Guided Projection)攻撃を提案する。
論文 参考訳(メタデータ) (2025-12-14T07:48:44Z) - Efficient Switchable Safety Control in LLMs via Magic-Token-Guided Co-Training [1.5349686675266894]
LLM(Large Language Models)におけるコンテンツ安全性の現在の手法は、マルチステージトレーニングパイプラインに依存している。
複数の安全性挙動を効率的に統合する統合協調学習フレームワークを提案する。
我々は,SFT+DPOの安全アライメント品質に一致し,安全性能においてDeepSeek-R1 (671B) を上回る8Bモデルを示した。
論文 参考訳(メタデータ) (2025-08-12T02:39:33Z) - Secure Tug-of-War (SecTOW): Iterative Defense-Attack Training with Reinforcement Learning for Multimodal Model Security [63.41350337821108]
マルチモーダル大規模言語モデル(MLLM)のセキュリティを高めるために,Secure Tug-of-War(SecTOW)を提案する。
SecTOWは2つのモジュールで構成される:ディフェンダーと補助攻撃者。どちらも強化学習(GRPO)を使用して反復的に訓練される。
SecTOWは、一般的な性能を維持しながら、セキュリティを大幅に改善することを示す。
論文 参考訳(メタデータ) (2025-07-29T17:39:48Z) - SafeSwitch: Steering Unsafe LLM Behavior via Internal Activation Signals [51.49737867797442]
大規模言語モデル(LLM)は、様々なタスクにまたがる例外的な能力を示すが、有害なコンテンツを生成することでリスクを引き起こす。
LLMは、内部状態の安全性に関する内部評価を同様に行うことができることを示す。
本稿では,プロバーをベースとした内部状態モニタを用いて,安全でない出力を規制するSafeSwitchを提案する。
論文 参考訳(メタデータ) (2025-02-03T04:23:33Z) - CoreGuard: Safeguarding Foundational Capabilities of LLMs Against Model Stealing in Edge Deployment [66.72332011814183]
CoreGuardは、エッジデバイスにデプロイされるプロプライエタリな大規模言語モデル(LLM)の計算と通信効率の保護方法である。
CoreGuardは効率的な保護プロトコルを使用して、計算オーバーヘッドを削減し、伝搬プロトコルによる通信オーバーヘッドを最小限にする。
論文 参考訳(メタデータ) (2024-10-16T08:14:24Z) - LLMs know their vulnerabilities: Uncover Safety Gaps through Natural Distribution Shifts [88.96201324719205]
大規模言語モデル(LLM)の安全性に関する懸念は、事前訓練中に潜在的に有害なデータに曝されることにより、大きな注目を集めている。
我々は、有害なコンテンツに意味的に関連していると思われる良心的なプロンプトが、安全性のメカニズムを回避できる新しい安全性脆弱性をLSMで特定する。
我々は,事前学習における有害なプロンプトに関連するアクターを識別する新しい攻撃手法,textitActorBreakerを導入する。
論文 参考訳(メタデータ) (2024-10-14T16:41:49Z) - Evaluating Defences against Unsafe Feedback in RLHF [26.872318173182414]
本稿では、強化学習による安全でないフィードバックからの学習について考察する。
安全に配慮したLLMは有害なテキストを生成することで、安全でない行動空間を容易に探索できることがわかった。
この脆弱性から保護するために、我々は、有害な微調整の防御を「単純」と「明示」の両方に適応させる。
論文 参考訳(メタデータ) (2024-09-19T17:10:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。