論文の概要: SentGuard: Sentence-Level Streaming Guardrails for Large Language Models
- arxiv url: http://arxiv.org/abs/2606.02041v1
- Date: Mon, 01 Jun 2026 10:30:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:31.795809
- Title: SentGuard: Sentence-Level Streaming Guardrails for Large Language Models
- Title(参考訳): SentGuard: 大規模言語モデルのための文レベルストリーミングガードレール
- Authors: Jiaqi Yu, Xin Wang, Yixu Wang, Jie Li, Yan Teng, Xingjun Ma, Yingchun Wang,
- Abstract要約: 本稿では,文レベルのストリーミングガードレールであるSentGuardを提案する。
構造化された文毎アノテーションによるベンチマークは、推論と応答セグメントの両方にわたる安全性リスクの進化をキャプチャする。
実験の結果、SentGuardは既存のベースラインを上回り、2文以内に90.5%の安全でないケースを検出し、低ストリーミングの偽陽性率7.41%を維持した。
- 参考スコア(独自算出の注目度): 40.00517152303363
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models increasingly stream long, reasoning-intensive responses in real time, making when to moderate as critical as whether to moderate. Existing guardrails fall into two unsatisfactory extremes: response-level methods delay intervention until the full output is generated, whereas token-level methods act on incomplete semantics, often producing unstable decisions and excessive guard invocations. To address this challenge, we propose SentGuard, a sentence-level streaming guardrail that operates in parallel with generation. A lightweight waiting buffer groups streamed tokens into sentence chunks and releases only verified chunks to the user, introducing a small offset that enables SentGuard to assess the current prefix while the target LLM decodes subsequent content. To support this, we construct StreamSafe, a benchmark with structured per-sentence annotations across 8 harm categories, capturing the evolution of safety risks across both reasoning and response segments. We further train SentGuard with a coarse-to-fine objective to detect unsafe intent as soon as it emerges at sentence boundaries. Experiments on 5 safety benchmarks show that SentGuard outperforms existing baselines, detecting 90.5% of unsafe cases within two sentences while maintaining a low streaming false-positive rate of 7.41%.
- Abstract(参考訳): 大規模言語モデルは、より長く、推論集約的なレスポンスをリアルタイムでストリームするようになり、適度なタイミングが重要になる。
既存のガードレールは、完全な出力が生成されるまで応答レベルのメソッドの介入を遅らせる一方、トークンレベルのメソッドは不完全なセマンティクスに作用し、不安定な決定と過剰なガード呼び出しを引き起こす。
この課題に対処するために、生成と並行して動作する文レベルのストリーミングガードレールであるSentGuardを提案する。
軽量の待ちバッファグループはトークンを文チャンクにストリームし、検証済みのチャンクのみをユーザにリリースし、SentGuardが現在のプレフィックスを評価し、ターゲットのLLMが後続のコンテンツをデコードすることを可能にする小さなオフセットを導入した。
これをサポートするために,8つの有害カテゴリにまたがって構造化された文毎アノテーションを備えたベンチマークStreamSafeを構築し,推論と応答セグメントの両方で安全性リスクの進化を捉えた。
さらに、文境界に現れると、安全でない意図を検出するために、粗い目的でSentGuardを訓練します。
5つの安全性ベンチマークの実験では、SentGuardは既存のベースラインを上回り、2文以内に90.5%の安全でないケースを検出し、低ストリーミングの偽陽性率7.41%を維持している。
関連論文リスト
- Prompt Overflow: What the Guardrail Inspects Is Not What the Model Infers [22.77036856603702]
Guardrailモデルは、大きな言語モデル(LLM)に到達する前に、ユーザ入力をスクリーニングするために広くデプロイされます。
本稿では,ガードレールモデルの限られた検査窓と下流LLMのかなり大きなコンテキスト推論窓とのミスマッチを利用した,プロンプトオーバーフロー攻撃を提案する。
ショートコンテクスト設定で確実に検出されたプロンプトは、オーバーロング入力に逆向きに操作するとガードレールモデルを回避することができることを示す。
論文 参考訳(メタデータ) (2026-05-22T03:27:18Z) - GLiGuard: Schema-Conditioned Classification for LLM Safeguard [5.918280835312565]
LLMコンテンツのモデレーションにGLiNER2を応用した双方向エンコーダである textbfGLiGuard を導入する。
キーとなるアイデアは、タスク定義とラベルのセマンティクスを直接、構造化トークンスキーマとして入力シーケンスにエンコードすることだ。
GLiGuardは、23-90$times$小さながら、7B--27Bデコーダベースのガードと競合するF1スコアを達成した。
論文 参考訳(メタデータ) (2026-05-08T16:44:07Z) - DeepGuard: Secure Code Generation via Multi-Layer Semantic Aggregation [22.14448091276763]
セキュリティ強化のための一般的な戦略は、最終変圧器層から派生した監督を用いてモデルを微調整することである。
この設計は最終レイヤのボトルネックに悩まされる可能性がある。脆弱性を識別するキューは層に分散することができ、次のトーケン予測に最適化された出力表現の近くでは検出されにくくなる。
DeepGuardは、アテンションベースのモジュールを通じて複数の上位層から表現を集約することで、分散セキュリティ関連キューを活用するフレームワークである。
論文 参考訳(メタデータ) (2026-04-10T08:19:48Z) - TrajGuard: Streaming Hidden-state Trajectory Detection for Decoding-time Jailbreak Defense [22.678364306206493]
既存のジェイルブレイク防御パラダイムは、プロンプト、出力、内部状態の静的検出に依存している。
復号時に重要な層に隠された状態は、入力されたジェイルブレイクのプロンプトよりも強く、より安定したリスク信号を持っていることを示す。
トレーニング不要でデコード可能なディフェンスフレームワークであるTrajGuardを提案する。
論文 参考訳(メタデータ) (2026-04-09T02:22:44Z) - Bag of Tricks for Subverting Reasoning-based Safety Guardrails [62.139297207938036]
推論に基づくガードレールを覆い隠すジェイルブレイク手法の袋を提示する。
攻撃対象は白、グレー、ブラックボックスの設定で、無駄なテンプレート操作から完全に自動化された最適化までさまざまです。
論文 参考訳(メタデータ) (2025-10-13T16:16:44Z) - DiffuGuard: How Intrinsic Safety is Lost and Found in Diffusion Large Language Models [50.21378052667732]
我々は、ステップ内およびステップ間ダイナミクスという2つの異なる次元にわたるジェイルブレイク攻撃に対して、dLLM脆弱性の詳細な分析を行う。
デュアルステージアプローチによる脆弱性に対処する,トレーニング不要な防御フレームワークであるDiffuGuardを提案する。
論文 参考訳(メタデータ) (2025-09-29T05:17:10Z) - AdaptiveGuard: Towards Adaptive Runtime Safety for LLM-Powered Software [11.606665113249298]
ガードレールは、LLM(Large Language Models)ベースのソフトウェアを安全にデプロイするために重要である。
本稿では,新しい脱獄攻撃をアウト・オブ・ディストリビューション(OOD)入力として検出する適応ガードレールであるAdaptiveGuardを提案する。
我々は、AdaptiveGuardがOOD検出精度96%を達成し、2回の更新ステップで新たな攻撃に適応し、85%以上のF1スコアを分散後のデータに保持していることを示す。
論文 参考訳(メタデータ) (2025-09-21T01:22:42Z) - Revisiting Backdoor Attacks on LLMs: A Stealthy and Practical Poisoning Framework via Harmless Inputs [54.90315421117162]
完全無害データを用いた新しい毒殺法を提案する。
自己回帰型LPMの因果推論に着想を得て,トリガーと肯定的応答プレフィックスの堅牢な関連性を確立することを目指す。
LLMは最初は同意するように見えるが,その後回答を拒む興味深い抵抗現象を観察する。
論文 参考訳(メタデータ) (2025-05-23T08:13:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。