論文の概要: Do not think pink elephant!
- arxiv url: http://arxiv.org/abs/2404.15154v1
- Date: Mon, 22 Apr 2024 08:28:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-24 13:22:34.252405
- Title: Do not think pink elephant!
- Title(参考訳): ピンクの象を考えてはいけません。
- Authors: Kyomin Hwang, Suyoung Kim, JunHoo Lee, Nojun Kwak,
- Abstract要約: 本稿では,近年の安定拡散やDALL-E3のような大規模モデルが,人間の知能の脆弱性を共有していることを示す。
本稿では,LMプロバイダのポリシによって禁止された数字を生成する,シンプルなプロンプトベースの攻撃手法を提案する。
これらの攻撃に対抗するために,認知療法技術に触発された即時防衛戦略を導入する。
- 参考スコア(独自算出の注目度): 25.00246697038434
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Models (LMs) have heightened expectations for the potential of general AI as they are akin to human intelligence. This paper shows that recent large models such as Stable Diffusion and DALL-E3 also share the vulnerability of human intelligence, namely the "white bear phenomenon". We investigate the causes of the white bear phenomenon by analyzing their representation space. Based on this analysis, we propose a simple prompt-based attack method, which generates figures prohibited by the LM provider's policy. To counter these attacks, we introduce prompt-based defense strategies inspired by cognitive therapy techniques, successfully mitigating attacks by up to 48.22\%.
- Abstract(参考訳): 大規模モデル(LM)は、人間の知性に似た一般AIの可能性への期待を高めている。
本稿では、近年の安定拡散やDALL-E3のような大型モデルも、人間の知能の脆弱性、すなわち「ホワイトベア現象」を共有していることを示す。
本研究では,ホワイトベア現象の原因について,その表現空間を解析して検討する。
そこで本研究では,LMプロバイダのポリシによって禁止された数字を生成する,シンプルなプロンプトベースの攻撃手法を提案する。
これらの攻撃に対抗するために,認知療法技術に触発された即時防御戦略を導入し,最大48.22\%の攻撃を軽減した。
関連論文リスト
- Imposter.AI: Adversarial Attacks with Hidden Intentions towards Aligned Large Language Models [13.225041704917905]
本研究では,大規模言語モデルから有害情報を抽出するために,人間の会話戦略を活かした攻撃機構を明らかにする。
明示的な悪意のある応答をターゲットとする従来の手法とは異なり、我々のアプローチは応答で提供される情報の性質を深く掘り下げている。
論文 参考訳(メタデータ) (2024-07-22T06:04:29Z) - Asymmetric Bias in Text-to-Image Generation with Adversarial Attacks [21.914674640285337]
本稿では、攻撃成功率(ASR)に関連する要因の分析に焦点をあてる。
敵接尾辞と2つの勾配に基づく攻撃アルゴリズムを用いた新たな攻撃目標であるエンティティスワップを導入する。
敵の攻撃で成功確率が60%になる状況と、この確率が5%以下に低下する状況を見いだす。
論文 参考訳(メタデータ) (2023-12-22T05:10:32Z) - Cognitive Overload: Jailbreaking Large Language Models with Overloaded
Logical Thinking [60.78524314357671]
本研究では,大規模言語モデル(LLM)の認知的構造とプロセスをターゲットにした新しいジェイルブレイク攻撃のカテゴリについて検討する。
提案する認知的オーバーロードはブラックボックス攻撃であり、モデルアーキテクチャやモデルウェイトへのアクセスの知識は不要である。
AdvBenchとMasterKeyで実施された実験では、人気のあるオープンソースモデルであるLlama 2とプロプライエタリモデルであるChatGPTの両方を含む様々なLLMが、認知的オーバーロードによって妥協可能であることが明らかになった。
論文 参考訳(メタデータ) (2023-11-16T11:52:22Z) - Steganalysis of AI Models LSB Attacks [4.0208298639821525]
悪意ある攻撃者は、共有AIモデルを利用してサイバー攻撃を開始することができる。
この研究は、AIモデルに注入された悪意のあるLast Significant Bit(LSB)ステガノグラフィーのステガナリシスに焦点を当てている。
本研究では,LSB steganography 攻撃の検出・軽減に適したステガナリシス法を提案する。
論文 参考訳(メタデータ) (2023-10-03T11:25:18Z) - Untargeted Backdoor Attack against Object Detection [69.63097724439886]
我々は,タスク特性に基づいて,無目標で毒のみのバックドア攻撃を設計する。
攻撃によって、バックドアがターゲットモデルに埋め込まれると、トリガーパターンでスタンプされたオブジェクトの検出を失う可能性があることを示す。
論文 参考訳(メタデータ) (2022-11-02T17:05:45Z) - Illusory Attacks: Information-Theoretic Detectability Matters in Adversarial Attacks [76.35478518372692]
エプシロン・イリューソリー(epsilon-illusory)は、シーケンシャルな意思決定者に対する敵対的攻撃の新たな形態である。
既存の攻撃と比較して,エプシロン・イリューソリーの自動検出は極めて困難である。
以上の結果から, より優れた異常検知器, 効果的なハードウェアおよびシステムレベルの防御の必要性が示唆された。
論文 参考訳(メタデータ) (2022-07-20T19:49:09Z) - Are socially-aware trajectory prediction models really socially-aware? [75.36961426916639]
我々は,予測モデルの社会的理解を評価するために,社会的に意図された攻撃を導入する。
攻撃は、予測器を失敗させるため、小さなが慎重に構成された摂動である。
我々の攻撃は、最先端モデルの社会的理解を高めるために有効であることを示す。
論文 参考訳(メタデータ) (2021-08-24T17:59:09Z) - BASAR:Black-box Attack on Skeletal Action Recognition [32.88446909707521]
スケルトンベースの活動認識装置は、認識者の完全な知識が攻撃者にアクセスできるときに、敵の攻撃に対して脆弱である。
本稿では,そのような脅威がブラックボックスの設定下でも存在することを示す。
BASARを通じて、敵の攻撃は真の脅威であるだけでなく、極めて偽りであることを示す。
論文 参考訳(メタデータ) (2021-03-09T07:29:35Z) - Perceptual Adversarial Robustness: Defense Against Unseen Threat Models [58.47179090632039]
敵対的堅牢性の鍵となる課題は、人間の知覚を正確に数学的に特徴づけることの欠如である。
ニューラル・パーセプチュアル・脅威モデルの下で、我々は新しいパーセプチュアル・アタックとディフェンスを開発する。
NPTMは非常に広範であるため、知覚的攻撃に対する知覚的適応訓練(PAT)は、他の多くの種類の敵対的攻撃に対して堅牢性を与える。
論文 参考訳(メタデータ) (2020-06-22T22:40:46Z) - Deflecting Adversarial Attacks [94.85315681223702]
我々は、攻撃者が攻撃対象クラスに似た入力を生成することによって、敵攻撃を「防御」するこのサイクルを終わらせる新しいアプローチを提案する。
本稿ではまず,3つの検出機構を組み合わせたカプセルネットワークに基づくより強力な防御手法を提案する。
論文 参考訳(メタデータ) (2020-02-18T06:59:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。