論文の概要: Stress-Testing Alignment Audits With Prompt-Level Strategic Deception
- arxiv url: http://arxiv.org/abs/2602.08877v1
- Date: Mon, 09 Feb 2026 16:38:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.369031
- Title: Stress-Testing Alignment Audits With Prompt-Level Strategic Deception
- Title(参考訳): Prompt-Level Strategic Deception によるストレステストアライメント
- Authors: Oliver Daniels, Perusha Moodley, Ben Marlin, David Lindner,
- Abstract要約: 我々は,ホワイトボックスとブラックボックスの監査手法に適した偽装戦略を生成する自動赤チームパイプラインを実装した。
以上の結果から,現在のブラックボックス法とホワイトボックス法は,十分に整合性のあるモデルでは堅牢ではないことが示唆された。
- 参考スコア(独自算出の注目度): 4.875073100703353
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Alignment audits aim to robustly identify hidden goals from strategic, situationally aware misaligned models. Despite this threat model, existing auditing methods have not been systematically stress-tested against deception strategies. We address this gap, implementing an automatic red-team pipeline that generates deception strategies (in the form of system prompts) tailored to specific white-box and black-box auditing methods. Stress-testing assistant prefills, user persona sampling, sparse autoencoders, and token embedding similarity methods against secret-keeping model organisms, our automatic red-team pipeline finds prompts that deceive both the black-box and white-box methods into confident, incorrect guesses. Our results provide the first documented evidence of activation-based strategic deception, and suggest that current black-box and white-box methods would not be robust to a sufficiently capable misaligned model.
- Abstract(参考訳): 調整監査は、戦略的、状況的に認識された不整合モデルから隠れた目標をしっかりと識別することを目的としている。
この脅威モデルにもかかわらず、既存の監査手法は詐欺対策に対して体系的にストレステストされていない。
このギャップに対処し、特定のホワイトボックスおよびブラックボックス監査手法に合わせて、(システムプロンプトの形で)偽装戦略を生成する自動赤チームパイプラインを実装します。
ストレステストアシスタントのプリフィル,ユーザペルソナサンプリング,スパースオートエンコーダ,および秘密保持モデル生物に対するトークン埋め込み類似性メソッド。
以上の結果から,現在のブラックボックス法とホワイトボックス法は,十分に整合性のあるモデルでは堅牢ではないことが示唆された。
関連論文リスト
- DATABench: Evaluating Dataset Auditing in Deep Learning from an Adversarial Perspective [70.77570343385928]
内的特徴(IF)と外的特徴(EF)(監査のための技術導入)に依存した既存手法の分類を新たに導入する。
回避攻撃(evasion attack)は、データセットの使用を隠蔽するために設計されたもので、偽造攻撃(forgery attack)は、未使用のデータセットを誤って含んでいることを意図している。
さらに,既存手法の理解と攻撃目標に基づいて,回避のための分離・除去・検出,偽造の逆例に基づく攻撃方法など,系統的な攻撃戦略を提案する。
私たちのベンチマークであるData dataBenchは、17の回避攻撃、5の偽攻撃、9の攻撃で構成されています。
論文 参考訳(メタデータ) (2025-07-08T03:07:15Z) - Auditing Black-Box LLM APIs with a Rank-Based Uniformity Test [24.393978712663618]
APIプロバイダは、コスト削減やモデル動作の不正な変更のために、量子化または微調整の亜種を慎重に提供することができる。
そこで我々は,ブラックボックスLLMの挙動等式を局所的に展開した認証モデルに検証できるランクベース均一性試験を提案する。
我々は、量子化、有害な微調整、脱獄プロンプト、完全なモデル置換など、さまざまな脅威シナリオに対するアプローチを評価する。
論文 参考訳(メタデータ) (2025-06-08T03:00:31Z) - AdvQDet: Detecting Query-Based Adversarial Attacks with Adversarial Contrastive Prompt Tuning [93.77763753231338]
CLIP画像エンコーダを微調整し、2つの中間対向クエリに対して同様の埋め込みを抽出するために、ACPT(Adversarial Contrastive Prompt Tuning)を提案する。
我々は,ACPTが7つの最先端クエリベースの攻撃を検出できることを示す。
また,ACPTは3種類のアダプティブアタックに対して堅牢であることを示す。
論文 参考訳(メタデータ) (2024-08-04T09:53:50Z) - Bridging the Gap: Automated Analysis of Sancus [2.045495982086173]
本研究では,サンクスの組込みセキュリティアーキテクチャにおけるこのギャップを減らすための新しい手法を提案する。
我々の手法は、与えられた脅威モデルにおける攻撃を見つけるか、システムのセキュリティに対する確率的保証を与える。
論文 参考訳(メタデータ) (2024-04-15T07:26:36Z) - RamBoAttack: A Robust Query Efficient Deep Neural Network Decision
Exploit [9.93052896330371]
本研究では,局所的な最小値の侵入を回避し,ノイズ勾配からのミスダイレクトを回避できる,堅牢なクエリ効率の高い攻撃法を開発した。
RamBoAttackは、敵クラスとターゲットクラスで利用可能な異なるサンプルインプットに対して、より堅牢である。
論文 参考訳(メタデータ) (2021-12-10T01:25:24Z) - Practical Relative Order Attack in Deep Ranking [99.332629807873]
ディープランキングシステム、すなわちオーダーアタックに対する新しい敵の攻撃を定式化します。
順序攻撃は、攻撃者が特定した順列に応じて、選択された候補群間の相対順序を暗黙的に変更する。
主要なeコマースプラットフォームでうまく実装されている。
論文 参考訳(メタデータ) (2021-03-09T06:41:18Z) - Online Adversarial Attacks [57.448101834579624]
我々は、実世界のユースケースで見られる2つの重要な要素を強調し、オンライン敵攻撃問題を定式化する。
まず、オンライン脅威モデルの決定論的変種を厳格に分析する。
このアルゴリズムは、現在の最良の単一しきい値アルゴリズムよりも、$k=2$の競争率を確実に向上させる。
論文 参考訳(メタデータ) (2021-03-02T20:36:04Z) - Detection of Adversarial Supports in Few-shot Classifiers Using Feature
Preserving Autoencoders and Self-Similarity [89.26308254637702]
敵対的なサポートセットを強調するための検出戦略を提案する。
我々は,特徴保存型オートエンコーダフィルタリングと,この検出を行うサポートセットの自己相似性の概念を利用する。
提案手法は攻撃非依存であり, 最善の知識まで, 数発分類器の検出を探索する最初の方法である。
論文 参考訳(メタデータ) (2020-12-09T14:13:41Z) - Scalable Backdoor Detection in Neural Networks [61.39635364047679]
ディープラーニングモデルは、トロイの木馬攻撃に対して脆弱で、攻撃者はトレーニング中にバックドアをインストールして、結果のモデルが小さなトリガーパッチで汚染されたサンプルを誤識別させる。
本稿では,ラベル数と計算複雑性が一致しない新たなトリガリバースエンジニアリング手法を提案する。
実験では,提案手法が純モデルからトロイの木馬モデルを分離する際の完全なスコアを達成できることが観察された。
論文 参考訳(メタデータ) (2020-06-10T04:12:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。