論文の概要: A Jailbroken GenAI Model Can Cause Substantial Harm: GenAI-powered Applications are Vulnerable to PromptWares
- arxiv url: http://arxiv.org/abs/2408.05061v1
- Date: Fri, 9 Aug 2024 13:32:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-12 15:37:31.481442
- Title: A Jailbroken GenAI Model Can Cause Substantial Harm: GenAI-powered Applications are Vulnerable to PromptWares
- Title(参考訳): 脱獄したGenAIモデルが実質的ハームを引き起こす:GenAIを利用したアプリケーションは、PromptWaresに脆弱性がある
- Authors: Stav Cohen, Ron Bitton, Ben Nassi,
- Abstract要約: 我々は、ジェイルブレイクしたGenAIモデルが、GenAIベースのアプリケーションに重大なダメージを与える可能性があることを示す。
PromptWareは、GenAIモデルの振る舞いを、アプリケーションの提供から攻撃へと反転させる新しいタイプの攻撃である。
- 参考スコア(独自算出の注目度): 6.904930679944526
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In this paper we argue that a jailbroken GenAI model can cause substantial harm to GenAI-powered applications and facilitate PromptWare, a new type of attack that flips the GenAI model's behavior from serving an application to attacking it. PromptWare exploits user inputs to jailbreak a GenAI model to force/perform malicious activity within the context of a GenAI-powered application. First, we introduce a naive implementation of PromptWare that behaves as malware that targets Plan & Execute architectures (a.k.a., ReAct, function calling). We show that attackers could force a desired execution flow by creating a user input that produces desired outputs given that the logic of the GenAI-powered application is known to attackers. We demonstrate the application of a DoS attack that triggers the execution of a GenAI-powered assistant to enter an infinite loop that wastes money and computational resources on redundant API calls to a GenAI engine, preventing the application from providing service to a user. Next, we introduce a more sophisticated implementation of PromptWare that we name Advanced PromptWare Threat (APwT) that targets GenAI-powered applications whose logic is unknown to attackers. We show that attackers could create user input that exploits the GenAI engine's advanced AI capabilities to launch a kill chain in inference time consisting of six steps intended to escalate privileges, analyze the application's context, identify valuable assets, reason possible malicious activities, decide on one of them, and execute it. We demonstrate the application of APwT against a GenAI-powered e-commerce chatbot and show that it can trigger the modification of SQL tables, potentially leading to unauthorized discounts on the items sold to the user.
- Abstract(参考訳): 本稿では,JailbreakされたGenAIモデルが,GenAIをベースとしたアプリケーションに重大なダメージを与え,PromptWareを促進することを論じる。
PromptWareはユーザ入力を利用してGenAIモデルをジェイルブレイクし、GenAIベースのアプリケーションのコンテキスト内で悪意あるアクティビティを強制/実行します。
まず、Plan & Executeアーキテクチャ(ReAct、関数呼び出しなど)をターゲットにしたマルウェアとして動作するPromptWareの簡単な実装を紹介します。
攻撃者は、GenAIベースのアプリケーションのロジックが攻撃者に知られていることを考慮し、望ましい出力を生成するユーザ入力を作成することで、望ましい実行フローを強制できることを示す。
我々は、GenAIエンジンへの冗長なAPI呼び出しにお金と計算資源を浪費する無限ループに入るために、GenAIを搭載したアシスタントの実行をトリガーするDoS攻撃の適用を実証する。
次に、攻撃者に対してロジックが不明なGenAIベースのアプリケーションをターゲットにしたAdvanced PromptWare Threat (APwT) という、より洗練されたPromptWareの実装を紹介します。
攻撃者は、GenAIエンジンの高度なAI機能を利用して、特権をエスカレートし、アプリケーションのコンテキストを分析し、貴重な資産を特定し、悪意のあるアクティビティを推論し、そのうちの1つを決定し、実行するための6つのステップからなる、推論時間でキルチェーンを起動するユーザインプットを作成することができる。
我々は、GenAI搭載のeコマースチャットボットに対するAPwTの適用を実証し、SQLテーブルの変更をトリガーできることを示す。
関連論文リスト
- Ethics of Software Programming with Generative AI: Is Programming without Generative AI always radical? [0.32985979395737786]
ソフトウェアコード生成におけるGenAIの変換能力を認めている。
GenAIは代替ではなく、ソフトウェアコードを書くための補完的なツールである、と仮定する。
厳格な倫理的ガイドラインを提唱する論文では、倫理的考慮が最重要である。
論文 参考訳(メタデータ) (2024-08-20T05:35:39Z) - Here Comes The AI Worm: Unleashing Zero-click Worms that Target GenAI-Powered Applications [6.904930679944526]
Morris IIは、敵対的な自己複製プロンプトを用いて、GenAIエコシステムをターゲットにした最初のワームである。
我々は、GenAIを利用した電子メールアシスタントに対するMoris IIの適用を2つのユースケースで実証した。
論文 参考訳(メタデータ) (2024-03-05T09:37:13Z) - Prompt Smells: An Omen for Undesirable Generative AI Outputs [4.105236597768038]
我々は、GenAIモデルの適用に関する制約に対処する上で、研究コミュニティに役立つ2つの新しい概念を提案する。
まず、GenAI出力の「望ましさ」の定義と、それに影響を与える3つの要因について述べる。
第2に、Martin Fowler氏のコードの臭いからインスピレーションを得た上で、我々は「急激な臭い」の概念と、それらがGenAI出力の嫌悪性に与える影響について提案する。
論文 参考訳(メタデータ) (2024-01-23T10:10:01Z) - AutoDAN: Generating Stealthy Jailbreak Prompts on Aligned Large Language Models [54.95912006700379]
本稿では,大規模言語モデルに対する新たなジェイルブレイク攻撃であるAutoDANを紹介する。
AutoDANは、慎重に設計された階層型遺伝的アルゴリズムによって、ステルスなジェイルブレイクプロンプトを自動的に生成できる。
論文 参考訳(メタデータ) (2023-10-03T19:44:37Z) - GenAI Against Humanity: Nefarious Applications of Generative Artificial
Intelligence and Large Language Models [11.323961700172175]
本稿は、GenAIのリスクとLLMの誤用に関する厳密な研究の合成として機能する。
我々は、私たちが目にしているGenAI革命に波及した社会的影響を明らかにする。
仮想世界と現実世界の境界線はぼやけており、GenAIの悪名高いアプリケーションの結果が私たち全員に影響を与えています。
論文 参考訳(メタデータ) (2023-10-01T17:25:56Z) - Identifying and Mitigating the Security Risks of Generative AI [179.2384121957896]
本稿では,GenAIによる双対ジレンマに関するGoogleのワークショップの成果を報告する。
GenAIはまた、攻撃者が新しい攻撃を生成し、既存の攻撃のベロシティと有効性を高めるためにも使用できる。
この話題について,コミュニティの短期的,長期的目標について論じる。
論文 参考訳(メタデータ) (2023-08-28T18:51:09Z) - Seamful XAI: Operationalizing Seamful Design in Explainable AI [59.89011292395202]
AIシステムのミスは必然的であり、技術的制限と社会技術的ギャップの両方から生じる。
本稿では, 社会工学的・インフラ的ミスマッチを明らかにすることにより, シームレスな設計がAIの説明可能性を高めることを提案する。
43人のAI実践者と実際のエンドユーザでこのプロセスを探求します。
論文 参考訳(メタデータ) (2022-11-12T21:54:05Z) - Investigating Explainability of Generative AI for Code through
Scenario-based Design [44.44517254181818]
生成AI(GenAI)技術は成熟し、ソフトウェア工学のようなアプリケーションドメインに適用されています。
私たちは43人のソフトウェアエンジニアと9つのワークショップを開催しました。そこでは、最先端のジェネレーティブAIモデルの実例を使って、ユーザの説明可能性のニーズを導き出しました。
我々の研究は、GenAIのコードに対する説明可能性の必要性を探求し、新しいドメインにおけるXAIの技術開発を人間中心のアプローチがいかに促進するかを実証する。
論文 参考訳(メタデータ) (2022-02-10T08:52:39Z) - Automating Privilege Escalation with Deep Reinforcement Learning [71.87228372303453]
本研究では,エージェントの訓練に深層強化学習を用いることで,悪意あるアクターの潜在的な脅威を実証する。
本稿では,最先端の強化学習アルゴリズムを用いて,局所的な特権エスカレーションを行うエージェントを提案する。
我々のエージェントは、実際の攻撃センサーデータを生成し、侵入検知システムの訓練と評価に利用できる。
論文 参考訳(メタデータ) (2021-10-04T12:20:46Z) - The Feasibility and Inevitability of Stealth Attacks [63.14766152741211]
我々は、攻撃者が汎用人工知能システムにおける決定を制御できる新しい敵の摂動について研究する。
敵対的なデータ修正とは対照的に、ここで考慮する攻撃メカニズムには、AIシステム自体の変更が含まれる。
論文 参考訳(メタデータ) (2021-06-26T10:50:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。