論文の概要: Prefix Probing: Lightweight Harmful Content Detection for Large Language Models
- arxiv url: http://arxiv.org/abs/2512.16650v1
- Date: Thu, 18 Dec 2025 15:22:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:32.121989
- Title: Prefix Probing: Lightweight Harmful Content Detection for Large Language Models
- Title(参考訳): Prefix Probing:大規模言語モデルのための軽量ハーモフルコンテンツ検出
- Authors: Jirui Yang, Hengqi Guo, Zhihui Lu, Yi Zhao, Yuansen Zhang, Shijing Hu, Qiang Duan, Yinggui Wang, Tao Wei,
- Abstract要約: 本稿では,ブラックボックスによる有害コンテンツ検出手法であるPrefix Probingを紹介する。
これは、"agreement/execution"の条件付きログ確率と"refusal/safety"オープニングプレフィックスの比較である。
推論中、この方法は、有害度スコアを生成するために、プローブプレフィックスに1つのログ確率トークンしか必要としない。
- 参考スコア(独自算出の注目度): 10.598851162129987
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models often face a three-way trade-off among detection accuracy, inference latency, and deployment cost when used in real-world safety-sensitive applications. This paper introduces Prefix Probing, a black-box harmful content detection method that compares the conditional log-probabilities of "agreement/execution" versus "refusal/safety" opening prefixes and leverages prefix caching to reduce detection overhead to near first-token latency. During inference, the method requires only a single log-probability computation over the probe prefixes to produce a harmfulness score and apply a threshold, without invoking any additional models or multi-stage inference. To further enhance the discriminative power of the prefixes, we design an efficient prefix construction algorithm that automatically discovers highly informative prefixes, substantially improving detection performance. Extensive experiments demonstrate that Prefix Probing achieves detection effectiveness comparable to mainstream external safety models while incurring only minimal computational cost and requiring no extra model deployment, highlighting its strong practicality and efficiency.
- Abstract(参考訳): 大規模な言語モデルは、実世界の安全に敏感なアプリケーションで使用される場合、検出精度、推論遅延、デプロイメントコストの3方向のトレードオフに直面します。
本稿では,前置詞の「アグリメント/実行」と「拒否/安全」の条件付きログ確率を比較するブラックボックス有害コンテンツ検出手法であるPrefix Probingを紹介する。
推論中、プローブプレフィックス上で1つのログ確率計算しか必要とせず、有害度スコアを生成し、しきい値を適用し、追加のモデルやマルチステージ推論を呼び出しない。
そこで我々は, 精度の高い接頭辞を自動検出し, 検出性能を大幅に向上する効率的な接頭辞構築アルゴリズムを設計した。
大規模な実験では、Prefix Probingは主要な外部安全モデルに匹敵する検出効率を達成し、最小限の計算コストと余分なモデル展開を必要としないことを示し、その強力な実用性と効率性を強調している。
関連論文リスト
- Towards Anytime-Valid Statistical Watermarking [63.02116925616554]
我々は、任意の時間価推論で最適なサンプリングを統一する、最初のe-value-based watermarking frameworkであるAnchored E-Watermarkingを開発した。
本フレームワークはサンプル効率を大幅に向上させ,最先端のベースラインに対して,検出に必要な平均トークン予算を13~15%削減する。
論文 参考訳(メタデータ) (2026-02-19T18:32:26Z) - Forward Consistency Learning with Gated Context Aggregation for Video Anomaly Detection [17.79982215633934]
ビデオ異常検出(VAD)は、リアルタイム監視システムにおける各種イベントの正常パターンからの偏差を測定することを目的としている。
既存のVAD手法の多くは、リソース制限されたエッジデバイスへの実現可能性を制限するため、極端な精度を追求するために大規模なモデルに依存している。
本稿では,Gatedコンテキストアグリゲーションを用いたフォワード整合学習を実現する軽量なVADモデルFoGAを紹介する。
論文 参考訳(メタデータ) (2026-01-26T04:35:31Z) - Scalable, Explainable and Provably Robust Anomaly Detection with One-Step Flow Matching [14.503330877000758]
Time-Conditioned Contraction Matching is a novel method for semi-supervised anomaly detection in tabular data。
これは、確率分布間の速度場を学習する最近の生成モデリングフレームワークであるフローマッチングにインスパイアされている。
ADBenchベンチマークの大規模な実験により、TCCMは検出精度と推論コストのバランスが良好であることが示されている。
論文 参考訳(メタデータ) (2025-10-21T06:26:38Z) - Generative Edge Detection with Stable Diffusion [52.870631376660924]
エッジ検出は一般的に、主に識別法によって対処されるピクセルレベルの分類問題と見なされる。
本稿では、事前学習した安定拡散モデルのポテンシャルを十分に活用して、GED(Generative Edge Detector)という新しい手法を提案する。
複数のデータセットに対して広範な実験を行い、競争性能を達成する。
論文 参考訳(メタデータ) (2024-10-04T01:52:23Z) - Cost-Sensitive Uncertainty-Based Failure Recognition for Object Detection [1.8990839669542954]
本稿では,ユーザ定義予算に合わせて,オブジェクト検出のためのコスト感受性フレームワークを提案する。
性能劣化を防ぐために最低限の閾値設定要件を導出する。
エラー認識率を最大化するために、しきい値処理の自動化と最適化を行う。
論文 参考訳(メタデータ) (2024-04-26T14:03:55Z) - Token-Level Adversarial Prompt Detection Based on Perplexity Measures
and Contextual Information [67.78183175605761]
大規模言語モデルは、敵の迅速な攻撃に影響を受けやすい。
この脆弱性は、LLMの堅牢性と信頼性に関する重要な懸念を浮き彫りにしている。
トークンレベルで敵のプロンプトを検出するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-20T03:17:21Z) - Fast-DetectGPT: Efficient Zero-Shot Detection of Machine-Generated Text via Conditional Probability Curvature [33.84718903572477]
大規模言語モデル(LLM)は、流動的でコジェントなコンテンツを生成する能力を示している。
信頼できるAIシステムを構築するためには、マシン生成コンテンツと人間によるコンテンツとを区別することが不可欠である。
Fast-DetectGPTは、ディテクターGPTの摂動ステップを、より効率的なサンプリングステップで置き換える最適化されたゼロショット検出器である。
論文 参考訳(メタデータ) (2023-10-08T11:41:28Z) - On the Universal Adversarial Perturbations for Efficient Data-free
Adversarial Detection [55.73320979733527]
本稿では,UAPに対して正常サンプルと逆サンプルの異なる応答を誘導する,データに依存しない逆検出フレームワークを提案する。
実験結果から,本手法は様々なテキスト分類タスクにおいて,競合検出性能を実現することが示された。
論文 参考訳(メタデータ) (2023-06-27T02:54:07Z) - Efficient Detection of LLM-generated Texts with a Bayesian Surrogate Model [14.98695074168234]
本稿では,特に大規模言語モデル(LLM)から機械生成テキストを検出する新しい手法を提案する。
ベイジアンサロゲートモデルを用いて、ベイジアン不確実性に基づいて典型的なサンプルを選択し、典型的なサンプルから他のサンプルへのスコアを補間し、クエリ効率を向上させる。
実験の結果,提案手法はクエリコストの低い既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2023-05-26T04:23:10Z) - TextShield: Beyond Successfully Detecting Adversarial Sentences in Text
Classification [6.781100829062443]
敵攻撃は、安全クリティカルなアプリケーションへのモデルのデプロイを妨げる、NLPのニューラルネットワークモデルにとって大きな課題となる。
従来の検出方法は、相手文に対して正しい予測を与えることができない。
本稿では,入力文が逆であるか否かを効果的に検出できる唾液度に基づく検出器を提案する。
論文 参考訳(メタデータ) (2023-02-03T22:58:07Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z) - Bandit Quickest Changepoint Detection [55.855465482260165]
すべてのセンサの継続的な監視は、リソースの制約のためにコストがかかる可能性がある。
有限パラメータ化確率分布の一般クラスに対する検出遅延に基づく情報理論の下界を導出する。
本稿では,異なる検知オプションの探索と質問行動の活用をシームレスに両立させる,計算効率のよいオンラインセンシング手法を提案する。
論文 参考訳(メタデータ) (2021-07-22T07:25:35Z) - SADet: Learning An Efficient and Accurate Pedestrian Detector [68.66857832440897]
本稿では,一段検出器の検出パイプラインに対する一連の最適化手法を提案する。
効率的な歩行者検出のための単発アンカーベース検出器(SADet)を形成する。
構造的には単純だが、VGA解像度の画像に対して最先端の結果と20ドルFPSのリアルタイム速度を示す。
論文 参考訳(メタデータ) (2020-07-26T12:32:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。