論文の概要: From Judgment to Interference: Early Stopping LLM Harmful Outputs via Streaming Content Monitoring
- arxiv url: http://arxiv.org/abs/2506.09996v1
- Date: Wed, 11 Jun 2025 17:59:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:03.198262
- Title: From Judgment to Interference: Early Stopping LLM Harmful Outputs via Streaming Content Monitoring
- Title(参考訳): 判断から干渉へ:ストリーミングコンテンツ監視によるLDM有害なアウトプットの早期停止
- Authors: Yang Li, Qiang Sheng, Yehan Yang, Xueyao Zhang, Juan Cao,
- Abstract要約: 既存のモデレータは主に従来のフル検出を実践し、完全なLLM出力に基づいて有害性を決定する。
近年の研究では、モデレーターが生成途中を監督し、有害性が検出された場合に出力を早期に停止する部分検出に注意が向けられている。
本稿では,レスポンスレベルのラベルとトークンレベルのラベルを二重に管理するストリーミングコンテンツモニタを提案する。
- 参考スコア(独自算出の注目度): 17.110388909771626
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Though safety alignment has been applied to most large language models (LLMs), LLM service providers generally deploy a subsequent moderation as the external safety guardrail in real-world products. Existing moderators mainly practice a conventional full detection, which determines the harmfulness based on the complete LLM output, causing high service latency. Recent works pay more attention to partial detection where moderators oversee the generation midway and early stop the output if harmfulness is detected, but they directly apply moderators trained with the full detection paradigm to incomplete outputs, introducing a training-inference gap that lowers the performance. In this paper, we explore how to form a data-and-model solution that natively supports partial detection. For the data, we construct FineHarm, a dataset consisting of 29K prompt-response pairs with fine-grained annotations to provide reasonable supervision for token-level training. Then, we propose the streaming content monitor, which is trained with dual supervision of response- and token-level labels and can follow the output stream of LLM to make a timely judgment of harmfulness. Experiments show that SCM gains 0.95+ in macro F1 score that is comparable to full detection, by only seeing the first 18% of tokens in responses on average. Moreover, the SCM can serve as a pseudo-harmfulness annotator for improving safety alignment and lead to a higher harmlessness score than DPO.
- Abstract(参考訳): ほとんどの大規模言語モデル(LLM)に安全性アライメントが適用されているが、LLMサービスプロバイダは通常、実際の製品における外部安全ガードレールとして後続のモデレーションを展開している。
既存のモデレータは主に従来のフル検出を実践しており、完全なLLM出力に基づいて有害性を判定し、高いサービス遅延を引き起こす。
最近の研究は、モデレーターが生成途中を監督し、有害が検出されたら出力を早期に停止する部分検出に注意を払っているが、フル検出パラダイムで訓練されたモデレーターを不完全な出力に適用し、性能を低下させるトレーニング-推論ギャップを導入する。
本稿では,部分検出をネイティブにサポートするデータ・アンド・モデル・ソリューションの構築方法について検討する。
このデータに対してFineHarmは,トークンレベルのトレーニングを合理的に管理するために,粒度の細かいアノテーションを備えた29Kのプロンプト応答ペアからなるデータセットである。
そこで本研究では,応答レベルラベルとトークンレベルのラベルを二重に管理するストリーミングコンテンツモニタを提案し,LCMの出力ストリームに追従して有害性をタイムリーに判断する。
実験の結果、SCMのマクロF1スコアは0.95以上になり、これは完全な検出に匹敵する。
さらに、SCMは、安全アライメントを改善するための擬似調和アノテータとして機能し、DPOよりも高い無害スコアを得ることができる。
関連論文リスト
- Let's Think in Two Steps: Mitigating Agreement Bias in MLLMs with Self-Grounded Verification [17.67273082468732]
検証 -- エージェントの振る舞いに報酬を割り当てる関数 -- は、数学やボードゲームのような分野におけるAIの進歩の鍵となっている。
我々は,Multimodal Large Language Models (MLLM) を,Webナビゲーション,コンピュータ利用,ロボット操作におけるエージェントトラジェクトリの検証手段として評価した。
本稿では,MLLMの知識と推論をより効果的に活用する軽量な手法である自己検証(SGV)を提案する。
論文 参考訳(メタデータ) (2025-07-15T18:50:29Z) - GPT, But Backwards: Exactly Inverting Language Model Outputs [10.759904571495845]
我々は、一意のグローバル最小値を持つ離散問題として、正確な入力再構成を定式化する。
入力探索空間を連続的に緩和する,効率的な勾配に基づくアルゴリズムであるSODAを導入する。
我々は,1つの偽陽性を伴わずに,次から次までのロジットから,より短いアウト・オブ・ディストリビューション入力の79.5%を完全回復することに成功した。
これは、標準のデプロイメントプラクティスが、現在、我々のメソッドの悪意ある使用に対して適切な保護を提供する可能性があることを示唆している。
論文 参考訳(メタデータ) (2025-07-02T13:20:30Z) - The First Few Tokens Are All You Need: An Efficient and Effective Unsupervised Prefix Fine-Tuning Method for Reasoning Models [69.798277882245]
大規模言語モデルの推論効率を向上させるために,Unsupervised Prefix Fine-Tuning (UPFT)を導入した。
UPFTはラベル付きデータや徹底的なサンプリングの必要性を取り除く。
実験の結果,UPFTは教師付き手法の性能と一致していることがわかった。
論文 参考訳(メタデータ) (2025-03-04T18:56:03Z) - END: Early Noise Dropping for Efficient and Effective Context Denoising [60.24648712022382]
大規模言語モデル(LLM)は、幅広い自然言語処理タスクにおいて顕著な性能を示している。
彼らはしばしば、出力品質を低下させる入力シーケンスにおける無関係またはノイズの文脈に気を散らされる。
我々は,LLMの微調整を必要とせず,この問題を緩和するための新しい手法であるEarly Noise Dropping (textscEND)を紹介した。
論文 参考訳(メタデータ) (2025-02-26T08:07:17Z) - Bridging the Safety Gap: A Guardrail Pipeline for Trustworthy LLM Inferences [18.36319991890607]
本稿では,Large Language Model(LLM)推論の安全性と信頼性を高めるために設計されたガードレールパイプラインであるWildflare GuardRailを紹介する。
Wildflare GuardRailは、セーフティインプットを識別し、モデルアウトプットの幻覚を検出するSafety Detectorなど、いくつかのコア機能モジュールを統合している。
軽量なラッパーは、コストのかかるモデルコールなしで、クエリ毎に1.06sのモデル出力で悪意のあるURLに100%の精度で対処できる。
論文 参考訳(メタデータ) (2025-02-12T05:48:57Z) - SOUL: A Semi-supervised Open-world continUal Learning method for Network Intrusion Detection [2.8148957592979427]
本研究では,ラベル不足とオープンワールド学習(OWL)の設定に着目し,連続学習に基づくネットワーク侵入検出(NID)の攻撃クラス検出を改善する。
我々は,NID のOWLを SOUL と呼ばれる半教師付き連続学習法として定式化し,限定的な注釈付きデータを用いて,完全教師付きモデルと同等の分類性能を実現する。
提案手法は,4つの標準ネットワーク侵入検出データセットを用いて評価する。
論文 参考訳(メタデータ) (2024-12-01T17:57:34Z) - Provenance: A Light-weight Fact-checker for Retrieval Augmented LLM Generation Output [49.893971654861424]
検索強化生成(RAG)から非実効出力を検出する軽量な手法を提案する。
私たちは、二項決定を下すためにしきい値にできる事実性スコアを計算します。
実験の結果, ROC曲線 (AUC) の下では, 関連するオープンソースデータセットの広範囲にわたって高い面積を示すことができた。
論文 参考訳(メタデータ) (2024-11-01T20:44:59Z) - Get my drift? Catching LLM Task Drift with Activation Deltas [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。
そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。
このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文 参考訳(メタデータ) (2024-06-02T16:53:21Z) - Unsupervised Continual Anomaly Detection with Contrastively-learned
Prompt [80.43623986759691]
UCADと呼ばれる新しい非教師付き連続異常検出フレームワークを提案する。
このフレームワークは、対照的に学習したプロンプトを通じて、UDAに継続的な学習能力を持たせる。
我々は総合的な実験を行い、教師なし連続異常検出とセグメンテーションのベンチマークを設定した。
論文 参考訳(メタデータ) (2024-01-02T03:37:11Z) - Weakly Supervised Detection of Hallucinations in LLM Activations [4.017261947780098]
本研究では,大規模言語モデルが内部状態の幻覚を符号化するかどうかを監査する手法を提案する。
本稿では,異常パターンを検出するために,サブセットスキャンを用いた弱教師付き監査手法を提案する。
OPTは内部で幻覚情報を符号化できるが, BERTでは幻覚を符号化する能力が限られていたことが確認された。
論文 参考訳(メタデータ) (2023-12-05T14:35:11Z) - WSSOD: A New Pipeline for Weakly- and Semi-Supervised Object Detection [75.80075054706079]
弱機能および半教師付きオブジェクト検出フレームワーク(WSSOD)を提案する。
エージェント検出器は、まず関節データセット上でトレーニングされ、弱注釈画像上で擬似境界ボックスを予測するために使用される。
提案フレームワークはPASCAL-VOC と MSCOCO のベンチマークで顕著な性能を示し,完全教師付き環境で得られたものと同等の性能を達成している。
論文 参考訳(メタデータ) (2021-05-21T11:58:50Z) - Self-supervised Video Object Segmentation [76.83567326586162]
本研究の目的は、半教師付きビデオオブジェクトセグメンテーション(高密度トラッキング)の解決を目的とした自己教師付き表現学習である。
i) 従来の自己教師型アプローチを改善すること、(ii) オンライン適応モジュールによる自己教師型アプローチの強化により、空間的時間的不連続性によるトラッカーのドリフトを緩和すること、(iv) DAVIS-2017とYouTubeの自己教師型アプローチで最先端の結果を示すこと、などが提案されている。
論文 参考訳(メタデータ) (2020-06-22T17:55:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。