論文の概要: Predict, Don't React: Value-Based Safety Forecasting for LLM Streaming
- arxiv url: http://arxiv.org/abs/2604.03962v1
- Date: Sun, 05 Apr 2026 04:48:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:18.851424
- Title: Predict, Don't React: Value-Based Safety Forecasting for LLM Streaming
- Title(参考訳): Predict, Don't React: LLMストリーミングのバリューベースの安全性予測
- Authors: Pride Kavumba, Koki Wataoka, Huy H. Nguyen, Jiaxuan Li, Masaya Ohagi,
- Abstract要約: StreamGuardは、予測問題としてモデレーションを定式化する、モデルに依存しないストリーミングガードレールである。
StreamGuardは入力モデレーションとストリーミング出力モデレーションの両方に強く作用することを示す。
また、予測に基づく監督は、トークン化者やモデルファミリー間で効果的に伝達されることを示す。
- 参考スコア(独自算出の注目度): 6.747476403446967
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In many practical LLM deployments, a single guardrail is used for both prompt and response moderation. Prompt moderation operates on fully observed text, whereas streaming response moderation requires safety decisions to be made over partial generations. Existing text-based streaming guardrails commonly frame this output-side problem as boundary detection, training models to identify the earliest prefix at which a response has already become unsafe. In this work, we introduce StreamGuard, a unified model-agnostic streaming guardrail that instead formulates moderation as a forecasting problem: given a partial prefix, the model predicts the expected harmfulness of likely future continuations. We supervise this prediction using Monte Carlo rollouts, which enables early intervention without requiring exact token-level boundary annotations. Across standard safety benchmarks, StreamGuard performs strongly both for input moderation and for streaming output moderation. At the 8B scale, StreamGuard improves aggregated input-moderation F1 from 86.7 to 88.2 and aggregated streaming output-moderation F1 from 80.4 to 81.9 relative to Qwen3Guard-Stream-8B-strict. On the QWENGUARDTEST response_loc streaming benchmark, StreamGuard reaches 97.5 F1, 95.1 recall, and 92.6% on-time intervention, compared to 95.9 F1, 92.1 recall, and 89.9% for Qwen3Guard-Stream-8B-stric, while reducing the miss rate from 7.9% to 4.9%. We further show that forecasting-based supervision transfers effectively across tokenizers and model families: with transferred targets, Gemma3-StreamGuard-1B reaches 81.3 response-moderation F1, 98.2 streaming F1, and a 3.5% miss rate. These results show that strong end-to-end streaming moderation can be obtained without exact boundary labels, and that forecasting future risk is an effective supervision strategy for low-latency safety intervention.
- Abstract(参考訳): 多くの実用的なLLMデプロイメントでは、プロンプトとレスポンスのモデレーションの両方に単一のガードレールが使用される。
プロンプトのモデレーションは、完全に観察されたテキストで動作するが、ストリーミング応答のモデレーションは、一部世代にわたって安全決定を行う必要がある。
既存のテキストベースのストリーミングガードレールは、この出力側の問題をバウンダリ検出として、応答がすでに安全でない初期接頭辞を識別するためのトレーニングモデルとして一般的に定義している。
本稿では,モデルに依存しない統一型ストリーミングガードレールであるStreamGuardを紹介し,その代わりにモデレーションを予測問題として定式化する。
正確なトークンレベルの境界アノテーションを必要としない早期介入を可能にするモンテカルロロールアウトを用いて,この予測を監督する。
標準安全ベンチマークでは、StreamGuardは入力モデレーションとストリーミング出力モデレーションの両方に強く機能する。
8Bスケールでは、StreamGuardは、Qwen3Guard-Stream-8B-strictと比較して、集約入力変調F1を86.7から88.2に改善し、集約ストリーミング出力変調F1を80.4から81.9に改善した。
QWENGUARDTEST response_locストリーミングベンチマークでは、StreamGuardは95.9 F1、95.1リコール、92.6%オンタイム介入に到達し、Qwen3Guard-Stream-8B-stricは89.9%、ミスレートは7.9%から4.9%に低下した。
さらに, トークンマイザとモデルファミリ間で, 予測ベースの監視転送が効果的に行われることを示し, 転送対象のGemma3-StreamGuard-1Bは81.3応答変調F1, 98.2ストリーミングF1, ミスレート3.5%を示した。
これらの結果から, 厳密な境界ラベルを使わずに, エンドツーエンドのストリーミング・モデレーションが実現可能であること, 今後のリスク予測が低レイテンシ安全介入の効果的な監視戦略であることを示唆した。
関連論文リスト
- Early Rug Pull Warning for BSC Meme Tokens via Multi-Granularity Wash-Trading Pattern Profiling [3.1262100364392205]
分散型金融(DeFi)におけるミームトークンの高頻度発行と短サイクル投機は、ルーグプルリスクを著しく増幅した。
既存のアプローチは、わずかな異常、不完全なラベル、限定的な解釈可能性の下で安定した早期警告を提供するのに依然として苦労している。
この問題に対処するために、データセットの構築とラベル付け、ハッシュトレーディングパターンの特徴モデリング、リスク予測、エラー解析の4段階からなるBSCミームトークンに対して、エンドツーエンドの警告フレームワークが提案されている。
論文 参考訳(メタデータ) (2026-03-14T08:25:42Z) - Towards Anytime-Valid Statistical Watermarking [63.02116925616554]
我々は、任意の時間価推論で最適なサンプリングを統一する、最初のe-value-based watermarking frameworkであるAnchored E-Watermarkingを開発した。
本フレームワークはサンプル効率を大幅に向上させ,最先端のベースラインに対して,検出に必要な平均トークン予算を13~15%削減する。
論文 参考訳(メタデータ) (2026-02-19T18:32:26Z) - NExT-Guard: Training-Free Streaming Safeguard without Token-Level Labels [66.70287556682105]
NExT-Guardは、スパースオートエンコーダ(SAE)の解釈可能な潜在機能を監視することで、ストリーミングセーフガードを実現するトレーニング不要フレームワークである。
利用可能なLLMから事前訓練されたSAEを使用しており、トークンレベルの監視なしに柔軟な低コストなデプロイを可能にする。
実験の結果, NExT-Guardは, 教師付きトレーニングに基づいて, ポストホックとストリーミングの保護の両方に優れていた。
論文 参考訳(メタデータ) (2026-02-10T08:54:10Z) - Safe Urban Traffic Control via Uncertainty-Aware Conformal Prediction and World-Model Reinforcement Learning [43.06827300023392]
STREAM-RLは、不確実性誘導型適応型コンフォーマルフォアキャスター、コンフォーマル残留流ネットワーク、不確実性誘導型セーフワールドモデルRLエージェントである。
複数の実世界の交通軌跡データの実験では、STREAM-RLは91.4%のカバレッジ効率を達成し、FDRを4.1%の信頼性で制御し、標準のPPOの69%に比べて安全性を95.2%向上している。
論文 参考訳(メタデータ) (2026-02-04T18:10:59Z) - Distillability of LLM Security Logic: Predicting Attack Success Rate of Outline Filling Attack via Ranking Regression [10.64873345204336]
敵のプロンプトの攻撃成功率(ASR)を予測するために設計された軽量モデルはまだ未定である。
本稿では,モデルのセキュリティ境界の厳密なサンプリングを実現するために,改良されたアウトラインフィリング攻撃を組み込んだ新しいフレームワークを提案する。
実験結果から,提案手法は平均長値の相対的ランク付けにおいて,91.1%の精度が得られることがわかった。
論文 参考訳(メタデータ) (2025-11-27T02:55:31Z) - Kelp: A Streaming Safeguard for Large Models via Latent Dynamics-Guided Risk Detection [29.51645496888383]
Kelpは、LM生成パイプライン内でのストリーミングリスク検出を可能にする、新しいプラグインフレームワークである。
Kelpは、最先端のポストホックガードレールと以前のプラグインプローブを一貫して上回っている。
論文 参考訳(メタデータ) (2025-10-09T14:42:50Z) - PSRT: Accelerating LRM-based Guard Models via Prefilled Safe Reasoning Traces [81.70980843006681]
提案手法では,PSRT をモデル推論プロセスから Prefilled Safe Reasoning Trace に置き換える手法を紹介する。
PSRTは構築されたデータセットから“仮想トークンの安全な推論”をプリフィルし、継続的な埋め込みについて学習する。
我々は,PSRTを7つのモデル,13のデータセット,8つのジェイルブレイク法で評価した。
論文 参考訳(メタデータ) (2025-09-26T02:14:31Z) - Lazy Layers to Make Fine-Tuned Diffusion Models More Traceable [70.77600345240867]
新たな任意の任意配置(AIAO)戦略は、微調整による除去に耐性を持たせる。
拡散モデルの入力/出力空間のバックドアを設計する既存の手法とは異なり,本手法では,サンプルサブパスの特徴空間にバックドアを埋め込む方法を提案する。
MS-COCO,AFHQ,LSUN,CUB-200,DreamBoothの各データセットに関する実証研究により,AIAOの堅牢性が確認された。
論文 参考訳(メタデータ) (2024-05-01T12:03:39Z) - Predicting Overtakes in Trucks Using CAN Data [51.28632782308621]
CANデータからトラックの積載量の検出について検討する。
私たちの分析では、オーバーテイクイベントの最大10秒前をカバーしています。
我々は、オーバーテイク・トリガーに近づくと、オーバーテイク・クラスの予測スコアが増加する傾向にあることを観察する。
論文 参考訳(メタデータ) (2024-04-08T17:58:22Z) - Streaming Motion Forecasting for Autonomous Driving [71.7468645504988]
ストリーミングデータにおける将来の軌跡を問うベンチマークを導入し,これを「ストリーミング予測」と呼ぶ。
我々のベンチマークは本質的に、スナップショットベースのベンチマークでは見過ごされていない安全上の問題であるエージェントの消失と再出現を捉えている。
我々は,任意のスナップショットベースの予測器をストリーミング予測器に適応させることのできる,"Predictive Streamer"と呼ばれるプラグアンドプレイメタアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-02T17:13:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。