論文の概要: Segment-Level Coherence for Robust Harmful Intent Probing in LLMs
- arxiv url: http://arxiv.org/abs/2604.14865v1
- Date: Thu, 16 Apr 2026 10:56:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 21:29:31.851771
- Title: Segment-Level Coherence for Robust Harmful Intent Probing in LLMs
- Title(参考訳): LLMにおけるロバストな不純物探索のためのセグメントレベルコヒーレンス
- Authors: Xuanli He, Bilgehan Sel, Faizan Ali, Jenny Bao, Hoagy Cunningham, Jerry Wei,
- Abstract要約: 予測を一貫してサポートするために複数のエビデンストークンを必要とするストリーミング探索目標を導入する。
定値1%の偽陽性率では、真陽性率を35.55%向上させる。
敵の微調整によって新しい文字レベル暗号が可能であっても、有害な意図は検出可能である。
- 参考スコア(独自算出の注目度): 13.0633878066404
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are increasingly exposed to adaptive jailbreaking, particularly in high-stakes Chemical, Biological, Radiological, and Nuclear (CBRN) domains. Although streaming probes enable real-time monitoring, they still make systematic errors. We identify a core issue: existing methods often rely on a few high-scoring tokens, leading to false alarms when sensitive CBRN terms appear in benign contexts. To address this, we introduce a streaming probing objective that requires multiple evidence tokens to consistently support a prediction, rather than relying on isolated spikes. This encourages more robust detection based on aggregated signals instead of single-token cues. At a fixed 1% false-positive rate, our method improves the true-positive rate by 35.55% relative to strong streaming baselines. We further observe substantial gains in AUROC, even when starting from near-saturated baseline performance (AUROC = 97.40%). We also show that probing Attention or MLP activations consistently outperforms residual-stream features. Finally, even when adversarial fine-tuning enables novel character-level ciphers, harmful intent remains detectable: probes developed for the base LLMs can be applied ``plug-and-play'' to these obfuscated attacks, achieving an AUROC of over 98.85%.
- Abstract(参考訳): 大規模言語モデル(LLM)は、特に化学、生物学、放射線学、核医学(CBRN)の領域において、適応的ジェイルブレイク(adaptive jailbreak)に曝されている。
ストリーミングプローブはリアルタイム監視を可能にするが、体系的なエラーを発生させる。
既存のメソッドは、しばしばいくつかのハイスコアトークンに依存しており、センシティブCBRN用語が良質なコンテキストに現れると、誤ったアラームを引き起こします。
これを解決するために,複数のエビデンストークンを必要とするストリーミング探索目標を導入する。
これにより、シングルトーケンキューの代わりに集約された信号に基づいてより堅牢な検出が促される。
固定された1%の偽陽性率では、強いストリーミングベースラインと比較して真陽性率が35.55%向上する。
ほぼ飽和基線性能(AUROC=97.40%)から始めても,AUROCの顕著な利得が観察された。
また,MLPアクティベーションが残差ストリーム特性より常に優れていることが示唆された。
最後に、敵の微調整によって新しい文字レベルの暗号が実現されたとしても、有害な意図は検出可能である: ベースLSM向けに開発されたプローブは、これらの難解な攻撃に対して 'plug-and-play' を適用でき、98.85%以上のAUROCを達成することができる。
関連論文リスト
- Beyond Raw Detection Scores: Markov-Informed Calibration for Boosting Machine-Generated Text Detection [105.14032334647932]
機械生成テキスト(MGT)は偽情報やフィッシングなどのリスクを生じさせ、信頼性の高い検出の必要性を強調している。
MGTの統計的に区別可能な特徴を抽出するメトリックベース法は、オーバーフィットしがちな複雑なモデルベース法よりも実用的であることが多い。
本稿では,2つのコンテキスト検出スコアの関係をモデル化したマルコフ情報を用いたスコアキャリブレーション手法を提案する。
論文 参考訳(メタデータ) (2026-02-08T16:06:12Z) - CORE: Context-Robust Remasking for Diffusion Language Models [51.59514489363897]
我々は、推論時リビジョンのためのトレーニング不要フレームワークであるContext-Robust Remasking (CORE)を提案する。
静的トークンの確率を信頼するのではなく、COREは、ターゲットとなるマスク付きコンテキストの摂動に対する感受性を示すことによって、コンテキスト不安定なトークンを識別する。
LLaDA-8B-Baseでは、COREは推論とコードベンチマークの間で一貫した改善を行い、計算に適合したベースラインを上回り、MBPPを最大9.2%改善した。
論文 参考訳(メタデータ) (2026-02-04T00:12:30Z) - How Sampling Affects the Detectability of Machine-written texts: A Comprehensive Study [39.866323800060066]
大きな言語モデル(LLM)はますます一般的になってきており、人間による内容とは区別がつかないことが多い。
最近の多くの検出器は精度がほぼ完璧であると報告しており、AUROCのスコアは99%を超えている。
本研究では,サンプリングに基づく復号化が検出可能性に与える影響について検討する。
論文 参考訳(メタデータ) (2025-10-15T15:36:45Z) - Reliable Active Learning from Unreliable Labels via Neural Collapse Geometry [5.1511135538176]
アクティブラーニング(AL)は、情報的なサンプルを優先順位付けすることでアノテーションのコストを削減することを約束するが、ラベルがうるさい場合やデータ分散がシフトした場合、その信頼性は低下する。
本稿では,深層ネットワークの創発的幾何学的規則性を活用し,信頼できない監視に対処するフレームワークである能動学習(NCAL-R)を提案する。
論文 参考訳(メタデータ) (2025-10-10T17:50:31Z) - Federated Spatiotemporal Graph Learning for Passive Attack Detection in Smart Grids [2.721477719641864]
本稿では,時間的ウィンドウ上で物理層と行動指標を融合させて受動的攻撃を検出するグラフ中心型マルチモーダル検出器を提案する。
テスト精度は98.32%、シーケンス毎の93.35%を0.15% FPRで達成している。
論文 参考訳(メタデータ) (2025-09-29T08:52:30Z) - An Ensemble Framework for Unbiased Language Model Watermarking [60.99969104552168]
本研究では,アンサンブル・フレームワークであるENSを提案する。
ENSは複数の独立した透かしインスタンスを順次構成し、それぞれ異なるキーによって管理され、透かし信号を増幅する。
実験的な評価では、ENSは信頼できる検出に必要なトークンの数を大幅に減らし、平滑化やパラフレージング攻撃に対する耐性を高めている。
論文 参考訳(メタデータ) (2025-09-28T19:37:44Z) - Not all tokens are created equal: Perplexity Attention Weighted Networks for AI generated text detection [49.15148871877941]
大規模言語モデル(LLM)の検出に理論的に魅力的なアプローチを提供する次点分布出力
本稿では,LLMの最後の隠蔽状態を用いて,列長の次トーケン分布のメトリクスに基づく一連の特徴量の重み付けを行うパープレキシティ注意重み付けネットワーク(PAWN)を提案する。
PAWNは、トレーニング可能なパラメータのごく一部を持つ最強のベースラインよりも、競争力があり、より優れた分散性能を示している。
論文 参考訳(メタデータ) (2025-01-07T17:00:49Z) - Typicalness-Aware Learning for Failure Detection [26.23185979968123]
ディープニューラルネットワーク(DNN)は、しばしば自信過剰な問題に悩まされる。
そこで本研究では,本問題に対処し,故障検出性能を向上させるために,S typicalness-Aware Learning (TAL) と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2024-11-04T11:09:47Z) - Lazy Layers to Make Fine-Tuned Diffusion Models More Traceable [70.77600345240867]
新たな任意の任意配置(AIAO)戦略は、微調整による除去に耐性を持たせる。
拡散モデルの入力/出力空間のバックドアを設計する既存の手法とは異なり,本手法では,サンプルサブパスの特徴空間にバックドアを埋め込む方法を提案する。
MS-COCO,AFHQ,LSUN,CUB-200,DreamBoothの各データセットに関する実証研究により,AIAOの堅牢性が確認された。
論文 参考訳(メタデータ) (2024-05-01T12:03:39Z) - Token-Level Adversarial Prompt Detection Based on Perplexity Measures
and Contextual Information [67.78183175605761]
大規模言語モデルは、敵の迅速な攻撃に影響を受けやすい。
この脆弱性は、LLMの堅牢性と信頼性に関する重要な懸念を浮き彫りにしている。
トークンレベルで敵のプロンプトを検出するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-20T03:17:21Z) - FLTracer: Accurate Poisoning Attack Provenance in Federated Learning [38.47921452675418]
Federated Learning(FL)は、複数のクライアントが共同で共有グローバルモデルをトレーニングできる、有望な分散学習アプローチである。
近年の研究では、FLは様々な毒殺攻撃に弱いことが示されており、グローバルモデルの性能を低下させるか、バックドアを導入することができる。
FLTracerは、様々な攻撃を正確に検出し、攻撃時間、目的、タイプ、および更新の有毒な位置を追跡できる最初のFL攻撃フレームワークである。
論文 参考訳(メタデータ) (2023-10-20T11:24:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。