論文の概要: Detecting Strategic Deception Using Linear Probes
- arxiv url: http://arxiv.org/abs/2502.03407v1
- Date: Wed, 05 Feb 2025 17:49:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-06 14:26:50.873570
- Title: Detecting Strategic Deception Using Linear Probes
- Title(参考訳): 線形プローブによる戦略的誤認の検出
- Authors: Nicholas Goldowsky-Dill, Bilal Chughtai, Stefan Heimersheim, Marius Hobbhahn,
- Abstract要約: 我々は,線形プローブがモデルアクティベーションをモニタリングすることで,誤動作を確実に検出できるかどうかを評価する。
我々は,AUROCを0.96から0.999の精度で検出した。
全体として、ホワイトボックスプローブは将来の監視システムに期待できるが、現在の性能は詐欺に対する堅牢な防御として不十分である。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: AI models might use deceptive strategies as part of scheming or misaligned behaviour. Monitoring outputs alone is insufficient, since the AI might produce seemingly benign outputs while their internal reasoning is misaligned. We thus evaluate if linear probes can robustly detect deception by monitoring model activations. We test two probe-training datasets, one with contrasting instructions to be honest or deceptive (following Zou et al., 2023) and one of responses to simple roleplaying scenarios. We test whether these probes generalize to realistic settings where Llama-3.3-70B-Instruct behaves deceptively, such as concealing insider trading (Scheurer et al., 2023) and purposely underperforming on safety evaluations (Benton et al., 2024). We find that our probe distinguishes honest and deceptive responses with AUROCs between 0.96 and 0.999 on our evaluation datasets. If we set the decision threshold to have a 1% false positive rate on chat data not related to deception, our probe catches 95-99% of the deceptive responses. Overall we think white-box probes are promising for future monitoring systems, but current performance is insufficient as a robust defence against deception. Our probes' outputs can be viewed at data.apolloresearch.ai/dd and our code at github.com/ApolloResearch/deception-detection.
- Abstract(参考訳): AIモデルは、スキーマや不整合行動の一部として、偽りの戦略を使用する場合もある。
内部の推論が一致していない間、AIは一見良心的なアウトプットを生成する可能性があるため、アウトプットの監視だけでは不十分だ。
そこで我々は,線形プローブがモデルアクティベーションをモニタリングすることで,誤検出を堅牢に検出できるかどうかを検証した。
2つのプローブ学習データセット(Zau et al , 2023)と、単純なロールプレイングシナリオに対する応答の1つを比較検討した。
Llama-3.3-70B-Instructがインサイダー取引を隠蔽したり(Scheurer et al , 2023)、安全性評価を意図的に過小評価している(Benton et al , 2024)。
この結果から,AUROCの正当性および偽造応答は,評価データセットで0.96から0.999に区別できることがわかった。
嘘に関係のないチャットデータに対して、決定しきい値が1%の偽陽性率を持つように設定した場合、我々の調査は、詐欺応答の95-99%をキャッチする。
全体として、ホワイトボックスプローブは将来の監視システムに期待できるが、現在の性能は詐欺に対する堅牢な防御として不十分である。
プローブの出力は data.apolloresearch.ai/dd と github.com/ApolloResearch/deception-detection で見ることができます。
関連論文リスト
- Lazy Layers to Make Fine-Tuned Diffusion Models More Traceable [70.77600345240867]
新たな任意の任意配置(AIAO)戦略は、微調整による除去に耐性を持たせる。
拡散モデルの入力/出力空間のバックドアを設計する既存の手法とは異なり,本手法では,サンプルサブパスの特徴空間にバックドアを埋め込む方法を提案する。
MS-COCO,AFHQ,LSUN,CUB-200,DreamBoothの各データセットに関する実証研究により,AIAOの堅牢性が確認された。
論文 参考訳(メタデータ) (2024-05-01T12:03:39Z) - Eliciting Latent Knowledge from Quirky Language Models [1.8035046415192353]
潜在知識の排除は、世界の本当の状態を確実に追跡する能力のあるニューラルネットワークのアクティベーションのパターンを見つけることを目的としている。
12のデータセットと、質問に答える際の体系的なエラーを微調整した「奇抜な」言語モデル(LM)スイートを導入します。
特に中層では、線形プローブは通常、LMが出力するものとは無関係に、LMの知識を報告する。
論文 参考訳(メタデータ) (2023-12-02T05:47:22Z) - Conservative Prediction via Data-Driven Confidence Minimization [70.93946578046003]
機械学習の安全性クリティカルな応用においては、モデルが保守的であることが望ましいことが多い。
本研究では,不確実性データセットに対する信頼性を最小化するデータ駆動信頼性最小化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:05:36Z) - Out-of-Distribution Detection with Hilbert-Schmidt Independence
Optimization [114.43504951058796]
異常検出タスクはAIの安全性において重要な役割を担っている。
ディープニューラルネットワーク分類器は通常、アウト・オブ・ディストリビューション(OOD)の入力を、信頼性の高いイン・ディストリビューション・クラスに誤って分類する傾向がある。
我々は,OOD検出タスクにおいて実用的かつ理論的に有効な代替確率論的パラダイムを提案する。
論文 参考訳(メタデータ) (2022-09-26T15:59:55Z) - TRUST-LAPSE: An Explainable and Actionable Mistrust Scoring Framework
for Model Monitoring [4.262769931159288]
連続モデル監視のための"ミストラスト"スコアリングフレームワークであるTRUST-LAPSEを提案する。
我々は,各入力サンプルのモデル予測の信頼性を,潜時空間埋め込みのシーケンスを用いて評価する。
AUROCs 84.1 (vision), 73.9 (audio), 77.1 (clinical EEGs)
論文 参考訳(メタデータ) (2022-07-22T18:32:38Z) - DAD: Data-free Adversarial Defense at Test Time [21.741026088202126]
ディープモデルは敵の攻撃に非常に敏感である。
プライバシは、トレーニングデータではなく、トレーニングされたモデルのみへのアクセスを制限する、重要な関心事になっている。
我々は,「訓練データと統計値の欠如によるテスト時敵防衛」という全く新しい問題を提案する。
論文 参考訳(メタデータ) (2022-04-04T15:16:13Z) - A Two-Block RNN-based Trajectory Prediction from Incomplete Trajectory [14.725386295605666]
本稿では,ベイズフィルタフレームワークの推論ステップを近似した2ブロックRNNモデルを提案する。
提案手法は,3つのベースライン計算法と比較して予測精度を向上することを示す。
また,提案手法は誤り検出がない場合の基準値よりも予測精度がよいことを示す。
論文 参考訳(メタデータ) (2022-03-14T13:39:44Z) - Tracking the risk of a deployed model and detecting harmful distribution
shifts [105.27463615756733]
実際には、デプロイされたモデルのパフォーマンスが大幅に低下しないという、良心的なシフトを無視することは理にかなっている。
我々は,警告を発射する有効な方法は,(a)良性な警告を無視しながら有害なシフトを検知し,(b)誤報率を増大させることなく,モデル性能の連続的なモニタリングを可能にすることを論じる。
論文 参考訳(メタデータ) (2021-10-12T17:21:41Z) - Learn what you can't learn: Regularized Ensembles for Transductive
Out-of-distribution Detection [76.39067237772286]
ニューラルネットワークの現在のアウト・オブ・ディストリビューション(OOD)検出アルゴリズムは,様々なOOD検出シナリオにおいて不満足な結果をもたらすことを示す。
本稿では,テストデータのバッチを観察した後に検出方法を調整することで,このような「ハード」なOODシナリオがいかに有用かを検討する。
本稿では,テストデータと正規化に人工ラベリング手法を用いて,テストバッチ内のOODサンプルに対してのみ矛盾予測を生成するモデルのアンサンブルを求める手法を提案する。
論文 参考訳(メタデータ) (2020-12-10T16:55:13Z) - Sequential Anomaly Detection using Inverse Reinforcement Learning [23.554584457413483]
逆強化学習(IRL)を用いた逐次異常検出のためのエンドツーエンドフレームワークを提案する。
我々はニューラルネットワークを用いて報酬関数を表現し、学習された報酬関数を用いて、ターゲットエージェントからの新しい観察が正常なパターンに従うかどうかを評価する。
公開されている実世界のデータに関する実証研究は,本手法が異常の同定に有効であることを示している。
論文 参考訳(メタデータ) (2020-04-22T05:17:36Z) - Probabilistic Regression for Visual Tracking [193.05958682821444]
本稿では,確率論的回帰定式化を提案し,追跡に適用する。
入力画像が与えられたターゲット状態の条件付き確率密度を予測する。
トラッカーは6つのデータセットに新しい最先端のデータをセットし、LaSOTでは59.8%、TrackingNetでは75.8%のAUCを達成した。
論文 参考訳(メタデータ) (2020-03-27T17:58:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。