論文の概要: Prefix Probing: Lightweight Harmful Content Detection for Large Language Models
- arxiv url: http://arxiv.org/abs/2512.16650v1
- Date: Thu, 18 Dec 2025 15:22:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:32.121989
- Title: Prefix Probing: Lightweight Harmful Content Detection for Large Language Models
- Title(参考訳): Prefix Probing:大規模言語モデルのための軽量ハーモフルコンテンツ検出
- Authors: Jirui Yang, Hengqi Guo, Zhihui Lu, Yi Zhao, Yuansen Zhang, Shijing Hu, Qiang Duan, Yinggui Wang, Tao Wei,
- Abstract要約: 本稿では,ブラックボックスによる有害コンテンツ検出手法であるPrefix Probingを紹介する。
これは、"agreement/execution"の条件付きログ確率と"refusal/safety"オープニングプレフィックスの比較である。
推論中、この方法は、有害度スコアを生成するために、プローブプレフィックスに1つのログ確率トークンしか必要としない。
- 参考スコア(独自算出の注目度): 10.598851162129987
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models often face a three-way trade-off among detection accuracy, inference latency, and deployment cost when used in real-world safety-sensitive applications. This paper introduces Prefix Probing, a black-box harmful content detection method that compares the conditional log-probabilities of "agreement/execution" versus "refusal/safety" opening prefixes and leverages prefix caching to reduce detection overhead to near first-token latency. During inference, the method requires only a single log-probability computation over the probe prefixes to produce a harmfulness score and apply a threshold, without invoking any additional models or multi-stage inference. To further enhance the discriminative power of the prefixes, we design an efficient prefix construction algorithm that automatically discovers highly informative prefixes, substantially improving detection performance. Extensive experiments demonstrate that Prefix Probing achieves detection effectiveness comparable to mainstream external safety models while incurring only minimal computational cost and requiring no extra model deployment, highlighting its strong practicality and efficiency.
- Abstract(参考訳): 大規模な言語モデルは、実世界の安全に敏感なアプリケーションで使用される場合、検出精度、推論遅延、デプロイメントコストの3方向のトレードオフに直面します。
本稿では,前置詞の「アグリメント/実行」と「拒否/安全」の条件付きログ確率を比較するブラックボックス有害コンテンツ検出手法であるPrefix Probingを紹介する。
推論中、プローブプレフィックス上で1つのログ確率計算しか必要とせず、有害度スコアを生成し、しきい値を適用し、追加のモデルやマルチステージ推論を呼び出しない。
そこで我々は, 精度の高い接頭辞を自動検出し, 検出性能を大幅に向上する効率的な接頭辞構築アルゴリズムを設計した。
大規模な実験では、Prefix Probingは主要な外部安全モデルに匹敵する検出効率を達成し、最小限の計算コストと余分なモデル展開を必要としないことを示し、その強力な実用性と効率性を強調している。
関連論文リスト
- Cost-Sensitive Uncertainty-Based Failure Recognition for Object Detection [1.8990839669542954]
本稿では,ユーザ定義予算に合わせて,オブジェクト検出のためのコスト感受性フレームワークを提案する。
性能劣化を防ぐために最低限の閾値設定要件を導出する。
エラー認識率を最大化するために、しきい値処理の自動化と最適化を行う。
論文 参考訳(メタデータ) (2024-04-26T14:03:55Z) - Token-Level Adversarial Prompt Detection Based on Perplexity Measures
and Contextual Information [67.78183175605761]
大規模言語モデルは、敵の迅速な攻撃に影響を受けやすい。
この脆弱性は、LLMの堅牢性と信頼性に関する重要な懸念を浮き彫りにしている。
トークンレベルで敵のプロンプトを検出するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-20T03:17:21Z) - Fast-DetectGPT: Efficient Zero-Shot Detection of Machine-Generated Text via Conditional Probability Curvature [33.84718903572477]
大規模言語モデル(LLM)は、流動的でコジェントなコンテンツを生成する能力を示している。
信頼できるAIシステムを構築するためには、マシン生成コンテンツと人間によるコンテンツとを区別することが不可欠である。
Fast-DetectGPTは、ディテクターGPTの摂動ステップを、より効率的なサンプリングステップで置き換える最適化されたゼロショット検出器である。
論文 参考訳(メタデータ) (2023-10-08T11:41:28Z) - On the Universal Adversarial Perturbations for Efficient Data-free
Adversarial Detection [55.73320979733527]
本稿では,UAPに対して正常サンプルと逆サンプルの異なる応答を誘導する,データに依存しない逆検出フレームワークを提案する。
実験結果から,本手法は様々なテキスト分類タスクにおいて,競合検出性能を実現することが示された。
論文 参考訳(メタデータ) (2023-06-27T02:54:07Z) - Efficient Detection of LLM-generated Texts with a Bayesian Surrogate Model [14.98695074168234]
本稿では,特に大規模言語モデル(LLM)から機械生成テキストを検出する新しい手法を提案する。
ベイジアンサロゲートモデルを用いて、ベイジアン不確実性に基づいて典型的なサンプルを選択し、典型的なサンプルから他のサンプルへのスコアを補間し、クエリ効率を向上させる。
実験の結果,提案手法はクエリコストの低い既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2023-05-26T04:23:10Z) - TextShield: Beyond Successfully Detecting Adversarial Sentences in Text
Classification [6.781100829062443]
敵攻撃は、安全クリティカルなアプリケーションへのモデルのデプロイを妨げる、NLPのニューラルネットワークモデルにとって大きな課題となる。
従来の検出方法は、相手文に対して正しい予測を与えることができない。
本稿では,入力文が逆であるか否かを効果的に検出できる唾液度に基づく検出器を提案する。
論文 参考訳(メタデータ) (2023-02-03T22:58:07Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z) - Bandit Quickest Changepoint Detection [55.855465482260165]
すべてのセンサの継続的な監視は、リソースの制約のためにコストがかかる可能性がある。
有限パラメータ化確率分布の一般クラスに対する検出遅延に基づく情報理論の下界を導出する。
本稿では,異なる検知オプションの探索と質問行動の活用をシームレスに両立させる,計算効率のよいオンラインセンシング手法を提案する。
論文 参考訳(メタデータ) (2021-07-22T07:25:35Z) - SADet: Learning An Efficient and Accurate Pedestrian Detector [68.66857832440897]
本稿では,一段検出器の検出パイプラインに対する一連の最適化手法を提案する。
効率的な歩行者検出のための単発アンカーベース検出器(SADet)を形成する。
構造的には単純だが、VGA解像度の画像に対して最先端の結果と20ドルFPSのリアルタイム速度を示す。
論文 参考訳(メタデータ) (2020-07-26T12:32:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。