論文の概要: SafetyNet: Detecting Harmful Outputs in LLMs by Modeling and Monitoring Deceptive Behaviors
- arxiv url: http://arxiv.org/abs/2505.14300v1
- Date: Tue, 20 May 2025 12:49:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:53.18123
- Title: SafetyNet: Detecting Harmful Outputs in LLMs by Modeling and Monitoring Deceptive Behaviors
- Title(参考訳): SafetyNet:知覚行動のモデル化とモニタリングによるLLMの有害な出力の検出
- Authors: Maheep Chaudhary, Fazl Barez,
- Abstract要約: 原子力や航空などのリスクの高い産業は、危険なシステム状態を検出するためにリアルタイムモニタリングを使用している。
教師なしアプローチを用いることで、有害なAI出力が発生する前に予測するリアルタイムフレームワークを提案する。
- 参考スコア(独自算出の注目度): 2.07180164747172
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: High-risk industries like nuclear and aviation use real-time monitoring to detect dangerous system conditions. Similarly, Large Language Models (LLMs) need monitoring safeguards. We propose a real-time framework to predict harmful AI outputs before they occur by using an unsupervised approach that treats normal behavior as the baseline and harmful outputs as outliers. Our study focuses specifically on backdoor-triggered responses -- where specific input phrases activate hidden vulnerabilities causing the model to generate unsafe content like violence, pornography, or hate speech. We address two key challenges: (1) identifying true causal indicators rather than surface correlations, and (2) preventing advanced models from deception -- deliberately evading monitoring systems. Hence, we approach this problem from an unsupervised lens by drawing parallels to human deception: just as humans exhibit physical indicators while lying, we investigate whether LLMs display distinct internal behavioral signatures when generating harmful content. Our study addresses two critical challenges: 1) designing monitoring systems that capture true causal indicators rather than superficial correlations; and 2)preventing intentional evasion by increasingly capable "Future models''. Our findings show that models can produce harmful content through causal mechanisms and can become deceptive by: (a) alternating between linear and non-linear representations, and (b) modifying feature relationships. To counter this, we developed Safety-Net -- a multi-detector framework that monitors different representation dimensions, successfully detecting harmful behavior even when information is shifted across representational spaces to evade individual monitors. Our evaluation shows 96% accuracy in detecting harmful cases using our unsupervised ensemble approach.
- Abstract(参考訳): 原子力や航空などのリスクの高い産業は、危険なシステム状態を検出するためにリアルタイムモニタリングを使用している。
同様に、LLM(Large Language Models)も監視セーフガードを必要とする。
本稿では,正常な動作をベースラインとして扱い,有害な出力をアウトリーチとして扱う教師なしアプローチを用いて,有害なAI出力を発生前に予測するリアルタイムフレームワークを提案する。
本研究は、特定の入力フレーズが隠れた脆弱性を活性化し、モデルが暴力、ポルノグラフィー、ヘイトスピーチなどの安全でないコンテンツを発生させる、バックドアトリガーされた応答に特化している。(1)表面相関ではなく真の因果的指標を識別すること、(2)先進的なモデルが詐欺から逸脱するのを意図的に回避すること、の2つの課題に対処する。
そこで我々は,人間が嘘をついている間に物理的指標を示すのと同じように,LLMが有害なコンテンツを生成する際に,内的行動の異なるシグネチャを表示するかどうかを調査する。
我々の研究は2つの重要な課題に対処している。
1) 表面的相関ではなく真の因果的指標を捉えるモニタリングシステムの設計, 2) より有能な「未来モデル」による意図的回避の防止。
以上の結果から, モデルが因果的メカニズムによって有害なコンテンツを生成できることが示唆された。
a) 線形表現と非線形表現の交互化,及び
b) 特徴関係を変更すること。
これに対応するために,さまざまな表現次元を監視するマルチ検出器フレームワークであるSafety-Netを開発した。
アンサンブル・アンサンブル・アンサンブル・アンサンブル・アンサンブル・アンサンブル・アンサンブル・アンサンブル・アンサンブル・アンサンブル・アンサンブル・アンサンブル・アンサンブル・アンサンブル・アンサンブル・アンサン
関連論文リスト
- Anomalous Decision Discovery using Inverse Reinforcement Learning [3.3675535571071746]
異常検出は、知覚システムを通じて異常な行動を特定することによって、自律走行車(AV)において重要な役割を果たす。
現在のアプローチは、しばしば定義済みのしきい値や教師付き学習パラダイムに依存するが、目に見えないシナリオに直面すると効果が低下する。
異常検出のための新しいIRLフレームワークである Trajectory-Reward Guided Adaptive Pre-training (TRAP) を提案する。
論文 参考訳(メタデータ) (2025-07-06T17:01:02Z) - SentinelAgent: Graph-based Anomaly Detection in Multi-Agent Systems [11.497269773189254]
大規模言語モデル(LLM)に基づくマルチエージェントシステム(MAS)に適したシステムレベルの異常検出フレームワークを提案する。
本稿では,エージェント間相互作用を動的実行グラフとしてモデル化し,ノード,エッジ,パスレベルでの意味的異常検出を可能にするグラフベースのフレームワークを提案する。
第2に,セキュリティポリシとコンテキスト推論に基づくMAS実行の監視,解析,介入を行うLLMによる監視エージェントである,プラグイン可能なSentinelAgentを導入する。
論文 参考訳(メタデータ) (2025-05-30T04:25:19Z) - Backdoor Cleaning without External Guidance in MLLM Fine-tuning [76.82121084745785]
Believe Your Eyes (BYE)は、アテンションエントロピーパターンを自己教師信号として活用して、バックドアサンプルを特定してフィルタリングするデータフィルタリングフレームワークである。
クリーンタスクのパフォーマンスを維持しながら、ほぼゼロの攻撃成功率を達成する。
論文 参考訳(メタデータ) (2025-05-22T17:11:58Z) - Linear Control of Test Awareness Reveals Differential Compliance in Reasoning Models [13.379003220832825]
推論にフォーカスした大規模言語モデル(LLM)は、評価されていることを検知すると、その振る舞いを変えることがある。
このような「テスト意識」がモデル行動、特に安全性のアライメントにどのように影響するかについて、最初の定量的研究を行った。
論文 参考訳(メタデータ) (2025-05-20T17:03:12Z) - OMNISEC: LLM-Driven Provenance-based Intrusion Detection via Retrieval-Augmented Behavior Prompting [4.71781133841068]
Provenance-based Intrusion Detection Systems (PIDS) はエンドポイントの脅威分析に広く利用されている。
攻撃手法の進化により、ルールは攻撃者の全ての特性を動的にモデル化することはできない。
異常検出システムは、通常の行動の変化と実際の攻撃行動とを区別できないため、重大な偽陽性問題に直面している。
論文 参考訳(メタデータ) (2025-03-05T02:08:12Z) - PARIS: A Practical, Adaptive Trace-Fetching and Real-Time Malicious Behavior Detection System [6.068607290592521]
本稿では,適応的トレースフェッチ,軽量かつリアルタイムな悪意ある行動検出システムを提案する。
具体的には、Event Tracing for Windows (ETW)で悪意ある振る舞いを監視し、悪意のあるAPIやコールスタックを選択的に収集することを学ぶ。
その結果、より広い範囲のAPIを監視し、より複雑な攻撃行動を検出することができる。
論文 参考訳(メタデータ) (2024-11-02T14:52:04Z) - Unsupervised Model Diagnosis [49.36194740479798]
本稿では,ユーザガイドを使わずに,意味論的対実的説明を生成するために,Unsupervised Model Diagnosis (UMO)を提案する。
提案手法は意味論における変化を特定し可視化し,その変化を広範囲なテキストソースの属性と照合する。
論文 参考訳(メタデータ) (2024-10-08T17:59:03Z) - Can we Defend Against the Unknown? An Empirical Study About Threshold Selection for Neural Network Monitoring [6.8734954619801885]
実行時モニタリングは、推論中に安全でない予測を拒否するために必須である。
安全と安全でない予測の分布の分離性を最大化する拒絶スコアを確立するために様々な技術が出現している。
実世界のアプリケーションでは、効果的なモニターは、これらのスコアを意味のあるバイナリ決定に変換するための適切なしきい値を特定する必要がある。
論文 参考訳(メタデータ) (2024-05-14T14:32:58Z) - Analyzing Adversarial Inputs in Deep Reinforcement Learning [53.3760591018817]
本稿では, 正当性検証のレンズを用いて, 逆入力の特性を包括的に解析する。
このような摂動に対する感受性に基づいてモデルを分類するために、新しい計量である逆数率(Adversarial Rate)を導入する。
本分析は, 直交入力が所定のDRLシステムの安全性にどのように影響するかを実証的に示す。
論文 参考訳(メタデータ) (2024-02-07T21:58:40Z) - Designing monitoring strategies for deployed machine learning
algorithms: navigating performativity through a causal lens [6.329470650220206]
この研究の目的は、監視戦略を設計する際の比較的過小評価されている複雑さを強調することである。
MLに基づく未計画の読み出し予測のためのリスク予測アルゴリズムについて検討する。
このケーススタディの結果は、すべての監視システムが平等に作成されるわけではないという、一見単純な(そして明らかな)事実を強調します。
論文 参考訳(メタデータ) (2023-11-20T00:15:16Z) - Spatial-Frequency Discriminability for Revealing Adversarial Perturbations [53.279716307171604]
敵の摂動に対するディープニューラルネットワークの脆弱性は、コンピュータビジョンコミュニティで広く認識されている。
現在のアルゴリズムは、通常、自然および敵対的なデータの識別的分解を通じて、敵のパターンを検出する。
空間周波数Krawtchouk分解に基づく識別検出器を提案する。
論文 参考訳(メタデータ) (2023-05-18T10:18:59Z) - Exploring Robustness of Unsupervised Domain Adaptation in Semantic
Segmentation [74.05906222376608]
クリーンな画像とそれらの逆の例との一致を、出力空間における対照的な損失によって最大化する、逆向きの自己スーパービジョンUDA(ASSUDA)を提案する。
i) セマンティックセグメンテーションにおけるUDA手法のロバスト性は未解明のままであり, (ii) 一般的に自己スーパービジョン(回転やジグソーなど) は分類や認識などのイメージタスクに有効であるが, セグメンテーションタスクの識別的表現を学習する重要な監視信号の提供には失敗している。
論文 参考訳(メタデータ) (2021-05-23T01:50:44Z) - No Need to Know Physics: Resilience of Process-based Model-free Anomaly
Detection for Industrial Control Systems [95.54151664013011]
本稿では,システムの物理的特性に反する逆スプーフ信号を生成するための新しい枠組みを提案する。
トップセキュリティカンファレンスで公表された4つの異常検知器を分析した。
論文 参考訳(メタデータ) (2020-12-07T11:02:44Z) - Graph Backdoor [53.70971502299977]
GTAはグラフニューラルネットワーク(GNN)に対する最初のバックドア攻撃である。
GTAは、トポロジカル構造と記述的特徴の両方を含む特定の部分グラフとしてトリガーを定義する。
トランスダクティブ(ノード分類など)とインダクティブ(グラフ分類など)の両方のタスクに対してインスタンス化することができる。
論文 参考訳(メタデータ) (2020-06-21T19:45:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。