論文の概要: Benchmarking Deception Probes via Black-to-White Performance Boosts
- arxiv url: http://arxiv.org/abs/2507.12691v2
- Date: Fri, 08 Aug 2025 02:19:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-11 14:17:29.468842
- Title: Benchmarking Deception Probes via Black-to-White Performance Boosts
- Title(参考訳): ブラック・ツー・ホワイトのパフォーマンス向上による偽装調査のベンチマーク
- Authors: Avi Parrack, Carlo Leonardo Attubato, Stefan Heimersheim,
- Abstract要約: 偽装プローブが実際に偽装を検出するのにどれほど効果的かは不明です。
我々は、ホワイトボックスモニタリング(モニターがトークンレベルのプローブアクティベーションにアクセス可能な場所)とブラックボックスモニタリング(そのようなアクセスなしで)を比較した。
既存の騙しプローブから、弱いが奨励される黒と白のパフォーマンスが向上する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI assistants will occasionally respond deceptively to user queries. Recently, linear classifiers (called "deception probes") have been trained to distinguish the internal activations of a language model during deceptive versus honest responses. However, it's unclear how effective these probes are at detecting deception in practice, nor whether such probes are resistant to simple counter strategies from a deceptive assistant who wishes to evade detection. In this paper, we compare white-box monitoring (where the monitor has access to token-level probe activations) to black-box monitoring (without such access). We benchmark deception probes by the extent to which the white box monitor outperforms the black-box monitor, i.e. the black-to-white performance boost. We find weak but encouraging black-to-white performance boosts from existing deception probes.
- Abstract(参考訳): AIアシスタントは、時々ユーザークエリに対して欺意的に応答する。
近年、線形分類器("deception probes"と呼ばれる)は、偽りと正直な応答の間、言語モデルの内部的なアクティベーションを区別するために訓練されている。
しかし、これらのプローブが実際に偽装を検出するのにどれほど効果的かは明らかではないし、そのようなプローブが検出を回避しようとする偽装助手の単純な対策戦略に耐性があるかどうかも不明だ。
本稿では,ホワイトボックスモニタリング(トークンレベルのプローブアクティベーションにアクセス可能な場所)とブラックボックスモニタリング(そのようなアクセスなしで)を比較した。
我々は,ホワイトボックスモニタがブラックボックスモニタ,すなわちブラックボックスとホワイトボックスのパフォーマンス向上に優れる程度に,偽装プローブをベンチマークする。
既存の騙しプローブから、弱いが奨励される黒と白のパフォーマンスが向上する。
関連論文リスト
- Probe before You Talk: Towards Black-box Defense against Backdoor Unalignment for Large Language Models [17.839413035304748]
LLM(Large Language Models)に対するバックドアのアンアライメント攻撃は、隠れたトリガーを使用して、安全アライメントのステルスな妥協を可能にする。
我々は,裏口LDMを不活性化させるために,推論中にトリガサンプルを検出するブラックボックスディフェンスBEATを紹介する。
本手法は, サンプル依存目標の課題を, 反対の観点から解決する。
論文 参考訳(メタデータ) (2025-06-19T16:30:56Z) - Detecting Strategic Deception Using Linear Probes [0.0]
我々は,線形プローブがモデルアクティベーションをモニタリングすることで,誤動作を確実に検出できるかどうかを評価する。
我々は,AUROCを0.96から0.999の精度で検出した。
全体として、ホワイトボックスプローブは将来の監視システムに期待できるが、現在の性能は詐欺に対する堅牢な防御として不十分である。
論文 参考訳(メタデータ) (2025-02-05T17:49:40Z) - Exploring Federated Learning Dynamics for Black-and-White-Box DNN Traitor Tracing [49.1574468325115]
本稿では,フェデレートラーニングにおける白黒裏切り者追跡の適応について検討する。
以上の結果から,情報漏えいを疑うデータ所有者を識別するコラシオン耐性トレプレクターの追跡は,訓練の初期段階においてもFLフレームワークで可能であることが示唆された。
論文 参考訳(メタデータ) (2024-07-02T09:54:35Z) - Do Parameters Reveal More than Loss for Membership Inference? [10.790613359615717]
最適メンバーシップ推論には、ホワイトボックスアクセスが本当に必要であることを示す。
我々の理論的結果は、新しいホワイトボックス推論攻撃、IHA(Inverse Hessian Attack)につながる。
論文 参考訳(メタデータ) (2024-06-17T13:42:28Z) - On the Universal Adversarial Perturbations for Efficient Data-free
Adversarial Detection [55.73320979733527]
本稿では,UAPに対して正常サンプルと逆サンプルの異なる応答を誘導する,データに依存しない逆検出フレームワークを提案する。
実験結果から,本手法は様々なテキスト分類タスクにおいて,競合検出性能を実現することが示された。
論文 参考訳(メタデータ) (2023-06-27T02:54:07Z) - Attack on Unfair ToS Clause Detection: A Case Study using Universal
Adversarial Triggers [0.23624125155742057]
我々は、普遍的な敵の引き金となる不公平な検知器を攻撃する実験を行う。
実験により、テキストのわずかな摂動は検出性能を著しく低下させることが示された。
結果は、トリガーの自然さが読者を騙すための鍵であることを示しています。
論文 参考訳(メタデータ) (2022-11-28T17:01:19Z) - On the Detection of Adaptive Adversarial Attacks in Speaker Verification
Systems [0.0]
FAKEBOBのような敵攻撃は、話者認証システムに対して効果的に機能する。
本研究の目的は,敵対的攻撃によって汚染された音声からオリジナル音声を識別できる検出器を設計することである。
提案する検出器は実装が容易で,入力オーディオを高速に処理でき,FAKEBOB攻撃による音声の破損の有無を判定する上で有効であることを示す。
論文 参考訳(メタデータ) (2022-02-11T16:02:06Z) - DAAIN: Detection of Anomalous and Adversarial Input using Normalizing
Flows [52.31831255787147]
我々は、アウト・オブ・ディストリビューション(OOD)インプットと敵攻撃(AA)を検出する新しい手法であるDAINを導入する。
本手法は,ニューラルネットワークの内部動作を監視し,活性化分布の密度推定器を学習する。
当社のモデルは,特別なアクセラレータを必要とせずに,効率的な計算とデプロイが可能な単一のGPUでトレーニングすることが可能です。
論文 参考訳(メタデータ) (2021-05-30T22:07:13Z) - Object Detection Made Simpler by Eliminating Heuristic NMS [70.93004137521946]
単純なNMSのないエンドツーエンドのオブジェクト検出フレームワークを示す。
検出精度は元の1段検出器と比べて同等か、さらに向上した。
論文 参考訳(メタデータ) (2021-01-28T02:38:29Z) - Learning to Separate Clusters of Adversarial Representations for Robust
Adversarial Detection [50.03939695025513]
本稿では,最近導入された非破壊的特徴を動機とした新しい確率的対向検出器を提案する。
本稿では,非ロバスト特徴を逆例の共通性と考え,その性質に対応する表現空間におけるクラスターの探索が可能であることを推定する。
このアイデアは、別のクラスタ内の逆表現の確率推定分布を導出し、その分布を確率に基づく逆検出器として活用する。
論文 参考訳(メタデータ) (2020-12-07T07:21:18Z) - Improving Query Efficiency of Black-box Adversarial Attack [75.71530208862319]
ニューラルプロセスに基づくブラックボックス対逆攻撃(NP-Attack)を提案する。
NP-Attackはブラックボックス設定でクエリ数を大幅に削減できる。
論文 参考訳(メタデータ) (2020-09-24T06:22:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。