論文の概要: Towards mitigating information leakage when evaluating safety monitors
- arxiv url: http://arxiv.org/abs/2509.21344v1
- Date: Tue, 16 Sep 2025 19:09:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 05:29:07.760226
- Title: Towards mitigating information leakage when evaluating safety monitors
- Title(参考訳): 安全モニター評価における情報漏洩軽減に向けて
- Authors: Gerard Boxo, Aman Neelappa, Shivam Raval,
- Abstract要約: 本稿では,実際のモデル動作を検出する能力の観点から,モニタの性能を評価するためのフレームワークを提案する。
本報告では,本モニタの評価方法として, コンテントろ過, スコアろ過, 微調整モデル生物の蒸留促進の3つの方法を提案する。
- 参考スコア(独自算出の注目度): 0.11069528768209996
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: White box monitors that analyze model internals offer promising advantages for detecting potentially harmful behaviors in large language models, including lower computational costs and integration into layered defense systems.However, training and evaluating these monitors requires response exemplars that exhibit the target behaviors, typically elicited through prompting or fine-tuning. This presents a challenge when the information used to elicit behaviors inevitably leaks into the data that monitors ingest, inflating their effectiveness. We present a systematic framework for evaluating a monitor's performance in terms of its ability to detect genuine model behavior rather than superficial elicitation artifacts. Furthermore, we propose three novel strategies to evaluate the monitor: content filtering (removing deception-related text from inputs), score filtering (aggregating only over task-relevant tokens), and prompt distilled fine-tuned model organisms (models trained to exhibit deceptive behavior without explicit prompting). Using deception detection as a representative case study, we identify two forms of leakage that inflate monitor performance: elicitation leakage from prompts that explicitly request harmful behavior, and reasoning leakage from models that verbalize their deceptive actions. Through experiments on multiple deception benchmarks, we apply our proposed mitigation strategies and measure performance retention. Our evaluation of the monitors reveal three crucial findings: (1) Content filtering is a good mitigation strategy that allows for a smooth removal of elicitation signal and can decrease probe AUROC by 30\% (2) Score filtering was found to reduce AUROC by 15\% but is not as straightforward to attribute to (3) A finetuned model organism improves monitor evaluations but reduces their performance by upto 40\%, even when re-trained.
- Abstract(参考訳): モデル内部を分析するホワイトボックスモニターは、計算コストの低減や層状防衛システムへの統合など、大規模言語モデルにおける潜在的有害な振る舞いを検出するための有望な利点を提供する。
これは、振る舞いを誘発するために使用される情報が、必然的に摂取を監視し、その効果を膨らませるデータに漏れ込むときの課題である。
本稿では,表層人工物ではなく,実際のモデル行動を検出する能力の観点から,モニタの性能を評価するための体系的な枠組みを提案する。
さらに,本モニタの評価方法として,コンテンツフィルタリング(入力から偽装関連テキストを除去する),スコアフィルタリング(タスク関連トークンのみを集約する),微調整モデル生物(明示的なプロンプトを伴わずに偽装行動を示すよう訓練されたモデル)の3つの新しい手法を提案する。
代表的な事例として, 有害行為を明示的に要求するプロンプトからの漏出を誘発する2種類の漏出と, 誤動作を弁別するモデルからの漏出を推論する2種類の漏出を同定した。
複数の偽装ベンチマークの実験を通じて、提案手法を適用し、性能維持を計測する。
2) スコアフィルタはAUROCを15倍に削減するが, 微調整されたモデル生物はモニター評価を改善するが, 再訓練しても最大40倍まで性能を低下させる。
関連論文リスト
- Contrastive Self-Supervised Network Intrusion Detection using Augmented Negative Pairs [0.8749675983608171]
本研究は,拡張負対 (Augmented Negative pairs, CLAN) を用いたコントラスト学習を導入する。
CLANはネットワーク侵入検知のための新しいパラダイムであり、拡張されたサンプルを負のビューとして扱う。
このアプローチは、良性交通に対する事前訓練後の分類精度と推論効率を両立させる。
論文 参考訳(メタデータ) (2025-09-08T11:04:10Z) - Backdoor Cleaning without External Guidance in MLLM Fine-tuning [76.82121084745785]
Believe Your Eyes (BYE)は、アテンションエントロピーパターンを自己教師信号として活用して、バックドアサンプルを特定してフィルタリングするデータフィルタリングフレームワークである。
クリーンタスクのパフォーマンスを維持しながら、ほぼゼロの攻撃成功率を達成する。
論文 参考訳(メタデータ) (2025-05-22T17:11:58Z) - SafetyNet: Detecting Harmful Outputs in LLMs by Modeling and Monitoring Deceptive Behaviors [2.07180164747172]
原子力や航空などのリスクの高い産業は、危険なシステム状態を検出するためにリアルタイムモニタリングを使用している。
教師なしアプローチを用いることで、有害なAI出力が発生する前に予測するリアルタイムフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-20T12:49:58Z) - ACTRESS: Active Retraining for Semi-supervised Visual Grounding [52.08834188447851]
前回の研究であるRefTeacherは、疑似自信と注意に基づく監督を提供するために教師学生の枠組みを採用することで、この課題に取り組むための最初の試みである。
このアプローチは、Transformerベースのパイプラインに従う現在の最先端のビジュアルグラウンドモデルと互換性がない。
本稿では, ACTRESS を略したセミスーパービジョン視覚グラウンドのためのアクティブ・リトレーニング手法を提案する。
論文 参考訳(メタデータ) (2024-07-03T16:33:31Z) - Can we Defend Against the Unknown? An Empirical Study About Threshold Selection for Neural Network Monitoring [6.8734954619801885]
実行時モニタリングは、推論中に安全でない予測を拒否するために必須である。
安全と安全でない予測の分布の分離性を最大化する拒絶スコアを確立するために様々な技術が出現している。
実世界のアプリケーションでは、効果的なモニターは、これらのスコアを意味のあるバイナリ決定に変換するための適切なしきい値を特定する必要がある。
論文 参考訳(メタデータ) (2024-05-14T14:32:58Z) - ODDR: Outlier Detection & Dimension Reduction Based Defense Against Adversarial Patches [4.4100683691177816]
敵対的攻撃は、機械学習モデルの信頼性の高いデプロイに重大な課題をもたらす。
パッチベースの敵攻撃に対処するための総合的な防御戦略である外乱検出・次元削減(ODDR)を提案する。
提案手法は,逆パッチに対応する入力特徴を外れ値として同定できるという観測に基づいている。
論文 参考訳(メタデータ) (2023-11-20T11:08:06Z) - Augment and Criticize: Exploring Informative Samples for Semi-Supervised
Monocular 3D Object Detection [64.65563422852568]
我々は、一般的な半教師付きフレームワークを用いて、難解な単分子3次元物体検出問題を改善する。
我々は、ラベルのないデータから豊富な情報的サンプルを探索する、新しい、シンプルで効果的なAugment and Criticize'フレームワークを紹介します。
3DSeMo_DLEと3DSeMo_FLEXと呼ばれる2つの新しい検出器は、KITTIのAP_3D/BEV(Easy)を3.5%以上改善した。
論文 参考訳(メタデータ) (2023-03-20T16:28:15Z) - No Need to Know Physics: Resilience of Process-based Model-free Anomaly
Detection for Industrial Control Systems [95.54151664013011]
本稿では,システムの物理的特性に反する逆スプーフ信号を生成するための新しい枠組みを提案する。
トップセキュリティカンファレンスで公表された4つの異常検知器を分析した。
論文 参考訳(メタデータ) (2020-12-07T11:02:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。