論文の概要: Improving Alignment and Robustness with Circuit Breakers
- arxiv url: http://arxiv.org/abs/2406.04313v4
- Date: Fri, 12 Jul 2024 16:51:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 04:27:56.946074
- Title: Improving Alignment and Robustness with Circuit Breakers
- Title(参考訳): サーキットブレーカによるアライメントとロバスト性の改善
- Authors: Andy Zou, Long Phan, Justin Wang, Derek Duenas, Maxwell Lin, Maksym Andriushchenko, Rowan Wang, Zico Kolter, Matt Fredrikson, Dan Hendrycks,
- Abstract要約: 本稿では,「サーキットブレーカー」による有害な出力に応答するモデルを中断する手法を提案する。
トレーニングの拒絶と敵のトレーニングの代替として、サーキットブレーキングは有害なアウトプットの原因となる表現を直接制御する。
我々は、我々のアプローチをAIエージェントに拡張し、攻撃されているときの有害な行動の率を大幅に低下させることを実証する。
- 参考スコア(独自算出の注目度): 40.4558948850276
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI systems can take harmful actions and are highly vulnerable to adversarial attacks. We present an approach, inspired by recent advances in representation engineering, that interrupts the models as they respond with harmful outputs with "circuit breakers." Existing techniques aimed at improving alignment, such as refusal training, are often bypassed. Techniques such as adversarial training try to plug these holes by countering specific attacks. As an alternative to refusal training and adversarial training, circuit-breaking directly controls the representations that are responsible for harmful outputs in the first place. Our technique can be applied to both text-only and multimodal language models to prevent the generation of harmful outputs without sacrificing utility -- even in the presence of powerful unseen attacks. Notably, while adversarial robustness in standalone image recognition remains an open challenge, circuit breakers allow the larger multimodal system to reliably withstand image "hijacks" that aim to produce harmful content. Finally, we extend our approach to AI agents, demonstrating considerable reductions in the rate of harmful actions when they are under attack. Our approach represents a significant step forward in the development of reliable safeguards to harmful behavior and adversarial attacks.
- Abstract(参考訳): AIシステムは有害な行動をとることができ、敵の攻撃に対して非常に脆弱である。
本稿では,近年の表現工学の進歩に触発されて,有害な出力を「回路ブレーカー」で処理することでモデルを中断するアプローチを提案する。
拒否訓練などのアライメント改善を目的とした既存の技術は、しばしばバイパスされる。
敵の訓練のような技術は、特定の攻撃に対抗して穴を塞ごうとする。
拒絶訓練や敵対訓練の代替として、サーキットブレーキングは、そもそも有害なアウトプットの原因となる表現を直接制御する。
我々の手法はテキストのみの言語モデルとマルチモーダル言語モデルの両方に適用でき、強力な目に見えない攻撃があっても、ユーティリティを犠牲にすることなく有害なアウトプットの発生を防げます。
特に、スタンドアロン画像認識における敵対的堅牢性は未解決の課題であるが、回路ブレーカーは、有害なコンテンツを生み出すことを目的とした画像「ヒジャック」に対して、より大きなマルチモーダルシステムを確実に耐えられるようにしている。
最後に、我々のアプローチをAIエージェントに拡張し、攻撃されているときの有害な行動の率を大幅に低下させることを示す。
当社のアプローチは、有害な行動や敵の攻撃に対する信頼性の高い安全対策の開発において、大きな前進を示している。
関連論文リスト
- Steering Away from Harm: An Adaptive Approach to Defending Vision Language Model Against Jailbreaks [16.508109544083496]
視覚言語モデル(VLM)は、敵の攻撃にさらされると意図しない有害なコンテンツを生成できる。
既存の防御(例えば、入力前処理、敵の訓練、応答評価に基づく手法)は、実世界の展開には実用的ではないことが多い。
本稿では,VLM攻撃に対する対向的特徴方向からモデルを誘導し,効果的かつ効果的な防御法であるASTRAを提案する。
論文 参考訳(メタデータ) (2024-11-23T02:17:17Z) - An Adversarial Perspective on Machine Unlearning for AI Safety [22.639683142004372]
この作業は、アンラーニングと従来のトレーニング後の安全性の根本的な違いに挑戦する。
既存のjailbreakメソッドは、これまで未学習に対して効果がないと報告されていたが、慎重に適用した場合に成功できることを実証する。
例えば、アクティベーション空間における10の無関係な例を微調整したり、特定の方向を除去することで、RMUで編集されたモデルに対して最も危険な能力を回復できることを示す。
論文 参考訳(メタデータ) (2024-09-26T16:32:19Z) - A Novel Approach to Guard from Adversarial Attacks using Stable Diffusion [0.0]
我々の提案は、AI Guardianフレームワークに対する別のアプローチを提案する。
トレーニングプロセスに敵対的な例を含める代わりに、AIシステムをトレーニングせずに行うことを提案する。
これは、より広い範囲の攻撃に対して本質的に回復力のあるシステムを構築することを目的としています。
論文 参考訳(メタデータ) (2024-05-03T04:08:15Z) - Multi-granular Adversarial Attacks against Black-box Neural Ranking Models [111.58315434849047]
多粒性摂動を取り入れた高品質な逆数例を作成する。
我々は,多粒体攻撃を逐次的意思決定プロセスに変換する。
本手法は,攻撃の有効性と非受容性の両方において,一般的なベースラインを超えている。
論文 参考訳(メタデータ) (2024-04-02T02:08:29Z) - Pre-trained Trojan Attacks for Visual Recognition [106.13792185398863]
PVM(Pre-trained Vision Model)は、下流タスクを微調整する際、例外的なパフォーマンスのため、主要なコンポーネントとなっている。
本稿では,PVMにバックドアを埋め込んだトロイの木馬攻撃を提案する。
バックドア攻撃の成功において、クロスタスクアクティベーションとショートカット接続がもたらす課題を強調します。
論文 参考訳(メタデータ) (2023-12-23T05:51:40Z) - Mutual-modality Adversarial Attack with Semantic Perturbation [81.66172089175346]
本稿では,相互モダリティ最適化スキームにおける敵攻撃を生成する新しい手法を提案する。
我々の手法は最先端の攻撃方法より優れており、プラグイン・アンド・プレイ・ソリューションとして容易にデプロイできる。
論文 参考訳(メタデータ) (2023-12-20T05:06:01Z) - Robust Safety Classifier for Large Language Models: Adversarial Prompt
Shield [7.5520641322945785]
大規模言語モデルの安全性は、敵の攻撃に対する脆弱性のため、依然として重要な懸念事項である。
本稿では,検出精度を向上し,対向プロンプトに対するレジリエンスを示す軽量モデルであるAdversarial Prompt Shield(APS)を紹介する。
また、対戦型トレーニングデータセットを自律的に生成するための新しい戦略を提案する。
論文 参考訳(メタデータ) (2023-10-31T22:22:10Z) - Adversarial Visual Robustness by Causal Intervention [56.766342028800445]
敵の訓練は、敵の例に対する事実上最も有望な防御である。
しかし、その受動性は必然的に未知の攻撃者への免疫を妨げる。
我々は、敵対的脆弱性の因果的視点を提供する: 原因は、学習に普遍的に存在する共同創設者である。
論文 参考訳(メタデータ) (2021-06-17T14:23:54Z) - A Self-supervised Approach for Adversarial Robustness [105.88250594033053]
敵対的な例は、ディープニューラルネットワーク(DNN)ベースの視覚システムにおいて破滅的な誤りを引き起こす可能性がある。
本稿では,入力空間における自己教師型対向学習機構を提案する。
これは、反逆攻撃に対する強力な堅牢性を提供する。
論文 参考訳(メタデータ) (2020-06-08T20:42:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。