論文の概要: Adversarial Activation Patching: A Framework for Detecting and Mitigating Emergent Deception in Safety-Aligned Transformers
- arxiv url: http://arxiv.org/abs/2507.09406v1
- Date: Sat, 12 Jul 2025 21:29:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:23.157121
- Title: Adversarial Activation Patching: A Framework for Detecting and Mitigating Emergent Deception in Safety-Aligned Transformers
- Title(参考訳): 対向的アクティベーションパッチング:安全対応型変圧器における創発的偽装の検出と緩和のためのフレームワーク
- Authors: Santhosh Kumar Ravindran,
- Abstract要約: 大規模言語モデル(LLM)は、安全のために整列し、しばしば突発的な騙し行動を示す。
本稿では,新しい機械的解釈可能性フレームワークである逆アクティベーションパッチについて紹介する。
のプロンプトからアクティベーションをソーシングすることで、脆弱性をシミュレートし、偽装率を定量化する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large language models (LLMs) aligned for safety through techniques like reinforcement learning from human feedback (RLHF) often exhibit emergent deceptive behaviors, where outputs appear compliant but subtly mislead or omit critical information. This paper introduces adversarial activation patching, a novel mechanistic interpretability framework that leverages activation patching as an adversarial tool to induce, detect, and mitigate such deception in transformer-based models. By sourcing activations from "deceptive" prompts and patching them into safe forward passes at specific layers, we simulate vulnerabilities and quantify deception rates. Through toy neural network simulations across multiple scenarios (e.g., 1000 trials per setup), we demonstrate that adversarial patching increases deceptive outputs to 23.9% from a 0% baseline, with layer-specific variations supporting our hypotheses. We propose six hypotheses, including transferability across models, exacerbation in multimodal settings, and scaling effects. An expanded literature review synthesizes over 20 key works in interpretability, deception, and adversarial attacks. Mitigation strategies, such as activation anomaly detection and robust fine-tuning, are detailed, alongside ethical considerations and future research directions. This work advances AI safety by highlighting patching's dual-use potential and provides a roadmap for empirical studies on large-scale models.
- Abstract(参考訳): 大規模な言語モデル(LLM)は、人間のフィードバックからの強化学習(RLHF)のような技術を通じて安全のために整合している。
本稿では, アクティベーション・パッチングを逆ツールとして活用し, トランスフォーマーモデルにおけるこのような偽造を誘発し, 検出し, 軽減する, 新たな機械的解釈可能性フレームワークである, 逆向きアクティベーション・パッチングを紹介する。
プロンプトからアクティベーションをソーシングし、特定のレイヤで安全なフォワードパスにパッチすることで、脆弱性をシミュレートし、偽装率を定量化する。
複数のシナリオにまたがるオモチャニューラルネットワークシミュレーション(例えば、セットアップ当たり1000トライアル)を通じて、敵のパッチングが知覚出力を0%のベースラインから23.9%に増加させ、私たちの仮説を支持する層特異的なバリエーションを実証する。
本稿では,モデル間の転送可能性,マルチモーダル設定の悪化,スケーリング効果の6つの仮説を提案する。
拡張された文献レビューは、解釈可能性、騙し、および敵の攻撃に関する20以上の重要な研究を合成する。
アクティベーション異常検出やロバストな微調整といった緩和戦略は、倫理的考察や今後の研究の方向性とともに詳細である。
この研究は、パッチのデュアルユースの可能性を強調することでAIの安全性を向上し、大規模なモデルに関する実証研究のロードマップを提供する。
関連論文リスト
- Exploiting Edge Features for Transferable Adversarial Attacks in Distributed Machine Learning [54.26807397329468]
この研究は、分散ディープラーニングシステムにおいて、これまで見過ごされていた脆弱性を探究する。
中間的特徴をインターセプトする敵は、依然として深刻な脅威となる可能性がある。
本稿では,分散環境に特化して設計されたエクスプロイト戦略を提案する。
論文 参考訳(メタデータ) (2025-07-09T20:09:00Z) - Robust Anti-Backdoor Instruction Tuning in LVLMs [53.766434746801366]
大規模視覚言語モデル(LVLM)のための軽量で認証に依存しない防御フレームワークについて紹介する。
私たちのフレームワークは、命令チューニングの下で、アダプタモジュールとテキスト埋め込み層のみを微調整します。
Flickr30kとMSCOCOに対する7つの攻撃に対する実験は、我々の攻撃の成功率をほぼゼロに低下させることを示した。
論文 参考訳(メタデータ) (2025-06-04T01:23:35Z) - A Knowledge-guided Adversarial Defense for Resisting Malicious Visual Manipulation [93.28532038721816]
視覚的操作の悪意ある応用は、多くの分野でユーザーのセキュリティと評判に深刻な脅威をもたらしている。
本稿では,悪質な操作モデルを積極的に強制し,意味論的に混乱したサンプルを出力するために,知識誘導型敵防衛(KGAD)を提案する。
論文 参考訳(メタデータ) (2025-04-11T10:18:13Z) - NaviDet: Efficient Input-level Backdoor Detection on Text-to-Image Synthesis via Neuron Activation Variation [37.075824084492524]
NaviDetは、さまざまなバックドアターゲットにわたるバックドア入力を特定するための、最初の一般的なインプットレベルのバックドア検出フレームワークである。
我々のアプローチは、拡散生成過程の初期段階において、トリガートークンが大きなニューロン活性化を誘導する傾向があるという新しい観察に基づいている。
論文 参考訳(メタデータ) (2025-03-09T05:27:44Z) - Protego: Detecting Adversarial Examples for Vision Transformers via Intrinsic Capabilities [21.96572543062238]
トランスフォーマーモデルは自然言語処理に優れており、ビジョンコミュニティはコンピュータビジョン問題におけるその実装を探求している。
本稿では、VTモデルの脆弱性を明らかにするために、3つの事前訓練されたViTモデルに対する6つの共通敵攻撃の攻撃能力について検討する。
本稿では,VTモデルが敵攻撃を防ぐために,変圧器固有の機能を利用した検出フレームワークProtegoを提案する。
論文 参考訳(メタデータ) (2025-01-13T03:54:19Z) - Twin Trigger Generative Networks for Backdoor Attacks against Object Detection [14.578800906364414]
オブジェクト検出器は、現実世界のアプリケーションで広く使われているが、バックドア攻撃に弱い。
バックドア攻撃に関するほとんどの研究は画像分類に焦点を合わせており、物体検出について限定的な研究がなされている。
本研究では,トレーニング中のモデルにバックドアを埋め込むための目に見えないトリガと,推論中の安定したアクティベーションのための目に見えるトリガを生成する新しいツイントリガ生成ネットワークを提案する。
論文 参考訳(メタデータ) (2024-11-23T03:46:45Z) - Humanizing Machine-Generated Content: Evading AI-Text Detection through Adversarial Attack [24.954755569786396]
そこで本研究では,機械生成コンテンツの小さな摂動を回避して検出を回避すべく,より広いレベルの敵攻撃のためのフレームワークを提案する。
我々は、ホワイトボックスとブラックボックスの2つの攻撃設定を検討し、現在の検出モデルのロバスト性を高める可能性を評価するために、動的シナリオにおける逆学習を採用する。
実験の結果、現在の検出モデルは10秒で妥協でき、機械が生成したテキストを人間の書き起こしコンテンツとして誤分類する結果となった。
論文 参考訳(メタデータ) (2024-04-02T12:49:22Z) - Towards Robust Semantic Segmentation against Patch-based Attack via Attention Refinement [68.31147013783387]
我々は,アテンション機構がパッチベースの敵攻撃に弱いことを観察した。
本稿では,意味的セグメンテーションモデルの堅牢性を改善するために,ロバスト注意機構(RAM)を提案する。
論文 参考訳(メタデータ) (2024-01-03T13:58:35Z) - MVPatch: More Vivid Patch for Adversarial Camouflaged Attacks on Object Detectors in the Physical World [7.1343035828597685]
我々は、一般化理論を敵対的パッチ(AP)の文脈に導入する。
本稿では、転送性、ステルス性、実用性を向上させるために、DPBF(Dual-Perception-Based Framework)を提案する。
MVPatchは、デジタルドメインと物理ドメインの両方において、優れた転送可能性と自然な外観を実現し、その有効性とステルス性を強調している。
論文 参考訳(メタデータ) (2023-12-29T01:52:22Z) - Token-Level Adversarial Prompt Detection Based on Perplexity Measures
and Contextual Information [67.78183175605761]
大規模言語モデルは、敵の迅速な攻撃に影響を受けやすい。
この脆弱性は、LLMの堅牢性と信頼性に関する重要な懸念を浮き彫りにしている。
トークンレベルで敵のプロンプトを検出するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-20T03:17:21Z) - Adaptive Attack Detection in Text Classification: Leveraging Space Exploration Features for Text Sentiment Classification [44.99833362998488]
敵のサンプル検出は、特に急速に進化する攻撃に直面して、適応的なサイバー防御において重要な役割を果たす。
本稿では,BERT(Bidirectional Representations from Transformers)のパワーを活用し,空間探索機能(Space Exploration Features)の概念を提案する。
論文 参考訳(メタデータ) (2023-08-29T23:02:26Z) - Spatial-Frequency Discriminability for Revealing Adversarial Perturbations [53.279716307171604]
敵の摂動に対するディープニューラルネットワークの脆弱性は、コンピュータビジョンコミュニティで広く認識されている。
現在のアルゴリズムは、通常、自然および敵対的なデータの識別的分解を通じて、敵のパターンを検出する。
空間周波数Krawtchouk分解に基づく識別検出器を提案する。
論文 参考訳(メタデータ) (2023-05-18T10:18:59Z) - Consistent Valid Physically-Realizable Adversarial Attack against
Crowd-flow Prediction Models [4.286570387250455]
ディープラーニング(DL)モデルは、都市全体のクラウドフローパターンを効果的に学習することができる。
DLモデルは、目立たない逆境の摂動に対して不利に作用することが知られている。
論文 参考訳(メタデータ) (2023-03-05T13:30:25Z) - Improving Adversarial Robustness to Sensitivity and Invariance Attacks
with Deep Metric Learning [80.21709045433096]
対向ロバスト性の標準的な方法は、サンプルを最小に摂動させることによって作られたサンプルに対して防御する枠組みを仮定する。
距離学習を用いて、最適輸送問題として逆正則化をフレーム化する。
予備的な結果から, 変分摂動の規則化は, 変分防御と敏感防御の両方を改善することが示唆された。
論文 参考訳(メタデータ) (2022-11-04T13:54:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。