論文の概要: From Judgment to Interference: Early Stopping LLM Harmful Outputs via Streaming Content Monitoring
- arxiv url: http://arxiv.org/abs/2506.09996v1
- Date: Wed, 11 Jun 2025 17:59:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:03.198262
- Title: From Judgment to Interference: Early Stopping LLM Harmful Outputs via Streaming Content Monitoring
- Title(参考訳): 判断から干渉へ:ストリーミングコンテンツ監視によるLDM有害なアウトプットの早期停止
- Authors: Yang Li, Qiang Sheng, Yehan Yang, Xueyao Zhang, Juan Cao,
- Abstract要約: 既存のモデレータは主に従来のフル検出を実践し、完全なLLM出力に基づいて有害性を決定する。
近年の研究では、モデレーターが生成途中を監督し、有害性が検出された場合に出力を早期に停止する部分検出に注意が向けられている。
本稿では,レスポンスレベルのラベルとトークンレベルのラベルを二重に管理するストリーミングコンテンツモニタを提案する。
- 参考スコア(独自算出の注目度): 17.110388909771626
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Though safety alignment has been applied to most large language models (LLMs), LLM service providers generally deploy a subsequent moderation as the external safety guardrail in real-world products. Existing moderators mainly practice a conventional full detection, which determines the harmfulness based on the complete LLM output, causing high service latency. Recent works pay more attention to partial detection where moderators oversee the generation midway and early stop the output if harmfulness is detected, but they directly apply moderators trained with the full detection paradigm to incomplete outputs, introducing a training-inference gap that lowers the performance. In this paper, we explore how to form a data-and-model solution that natively supports partial detection. For the data, we construct FineHarm, a dataset consisting of 29K prompt-response pairs with fine-grained annotations to provide reasonable supervision for token-level training. Then, we propose the streaming content monitor, which is trained with dual supervision of response- and token-level labels and can follow the output stream of LLM to make a timely judgment of harmfulness. Experiments show that SCM gains 0.95+ in macro F1 score that is comparable to full detection, by only seeing the first 18% of tokens in responses on average. Moreover, the SCM can serve as a pseudo-harmfulness annotator for improving safety alignment and lead to a higher harmlessness score than DPO.
- Abstract(参考訳): ほとんどの大規模言語モデル(LLM)に安全性アライメントが適用されているが、LLMサービスプロバイダは通常、実際の製品における外部安全ガードレールとして後続のモデレーションを展開している。
既存のモデレータは主に従来のフル検出を実践しており、完全なLLM出力に基づいて有害性を判定し、高いサービス遅延を引き起こす。
最近の研究は、モデレーターが生成途中を監督し、有害が検出されたら出力を早期に停止する部分検出に注意を払っているが、フル検出パラダイムで訓練されたモデレーターを不完全な出力に適用し、性能を低下させるトレーニング-推論ギャップを導入する。
本稿では,部分検出をネイティブにサポートするデータ・アンド・モデル・ソリューションの構築方法について検討する。
このデータに対してFineHarmは,トークンレベルのトレーニングを合理的に管理するために,粒度の細かいアノテーションを備えた29Kのプロンプト応答ペアからなるデータセットである。
そこで本研究では,応答レベルラベルとトークンレベルのラベルを二重に管理するストリーミングコンテンツモニタを提案し,LCMの出力ストリームに追従して有害性をタイムリーに判断する。
実験の結果、SCMのマクロF1スコアは0.95以上になり、これは完全な検出に匹敵する。
さらに、SCMは、安全アライメントを改善するための擬似調和アノテータとして機能し、DPOよりも高い無害スコアを得ることができる。
関連論文リスト
- The First Few Tokens Are All You Need: An Efficient and Effective Unsupervised Prefix Fine-Tuning Method for Reasoning Models [69.798277882245]
大規模言語モデルの推論効率を向上させるために,Unsupervised Prefix Fine-Tuning (UPFT)を導入した。
UPFTはラベル付きデータや徹底的なサンプリングの必要性を取り除く。
実験の結果,UPFTは教師付き手法の性能と一致していることがわかった。
論文 参考訳(メタデータ) (2025-03-04T18:56:03Z) - Bridging the Safety Gap: A Guardrail Pipeline for Trustworthy LLM Inferences [18.36319991890607]
本稿では,Large Language Model(LLM)推論の安全性と信頼性を高めるために設計されたガードレールパイプラインであるWildflare GuardRailを紹介する。
Wildflare GuardRailは、セーフティインプットを識別し、モデルアウトプットの幻覚を検出するSafety Detectorなど、いくつかのコア機能モジュールを統合している。
軽量なラッパーは、コストのかかるモデルコールなしで、クエリ毎に1.06sのモデル出力で悪意のあるURLに100%の精度で対処できる。
論文 参考訳(メタデータ) (2025-02-12T05:48:57Z) - SOUL: A Semi-supervised Open-world continUal Learning method for Network Intrusion Detection [2.8148957592979427]
本研究では,ラベル不足とオープンワールド学習(OWL)の設定に着目し,連続学習に基づくネットワーク侵入検出(NID)の攻撃クラス検出を改善する。
我々は,NID のOWLを SOUL と呼ばれる半教師付き連続学習法として定式化し,限定的な注釈付きデータを用いて,完全教師付きモデルと同等の分類性能を実現する。
提案手法は,4つの標準ネットワーク侵入検出データセットを用いて評価する。
論文 参考訳(メタデータ) (2024-12-01T17:57:34Z) - Get my drift? Catching LLM Task Drift with Activation Deltas [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。
そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。
このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文 参考訳(メタデータ) (2024-06-02T16:53:21Z) - Weakly Supervised Detection of Hallucinations in LLM Activations [4.017261947780098]
本研究では,大規模言語モデルが内部状態の幻覚を符号化するかどうかを監査する手法を提案する。
本稿では,異常パターンを検出するために,サブセットスキャンを用いた弱教師付き監査手法を提案する。
OPTは内部で幻覚情報を符号化できるが, BERTでは幻覚を符号化する能力が限られていたことが確認された。
論文 参考訳(メタデータ) (2023-12-05T14:35:11Z) - WSSOD: A New Pipeline for Weakly- and Semi-Supervised Object Detection [75.80075054706079]
弱機能および半教師付きオブジェクト検出フレームワーク(WSSOD)を提案する。
エージェント検出器は、まず関節データセット上でトレーニングされ、弱注釈画像上で擬似境界ボックスを予測するために使用される。
提案フレームワークはPASCAL-VOC と MSCOCO のベンチマークで顕著な性能を示し,完全教師付き環境で得られたものと同等の性能を達成している。
論文 参考訳(メタデータ) (2021-05-21T11:58:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。