論文の概要: Hallucinating AI Hijacking Attack: Large Language Models and Malicious Code Recommenders
- arxiv url: http://arxiv.org/abs/2410.06462v1
- Date: Wed, 9 Oct 2024 01:36:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-01 05:38:53.409918
- Title: Hallucinating AI Hijacking Attack: Large Language Models and Malicious Code Recommenders
- Title(参考訳): 大規模言語モデルと悪意のあるコードレコメンダによるAIハイジャック攻撃
- Authors: David Noever, Forrest McKee,
- Abstract要約: 研究者は、人気のあるコードリポジトリで悪意のあるコードに対して、コピーコードや幻覚されたAIレコメンデーションを導入するための敵の可能性を構築し、評価する。
OpenAI, Google, Anthropicの基本的な大規模言語モデル(LLM)は、有害な振る舞いと有害な文字列の両方に対して保護する。
我々は、この攻撃を、以前の文脈シフトに関する研究と比較し、マルウェア文学における「土地から逃れる」攻撃の新たなバージョンとして攻撃面を対比した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The research builds and evaluates the adversarial potential to introduce copied code or hallucinated AI recommendations for malicious code in popular code repositories. While foundational large language models (LLMs) from OpenAI, Google, and Anthropic guard against both harmful behaviors and toxic strings, previous work on math solutions that embed harmful prompts demonstrate that the guardrails may differ between expert contexts. These loopholes would appear in mixture of expert's models when the context of the question changes and may offer fewer malicious training examples to filter toxic comments or recommended offensive actions. The present work demonstrates that foundational models may refuse to propose destructive actions correctly when prompted overtly but may unfortunately drop their guard when presented with a sudden change of context, like solving a computer programming challenge. We show empirical examples with trojan-hosting repositories like GitHub, NPM, NuGet, and popular content delivery networks (CDN) like jsDelivr which amplify the attack surface. In the LLM's directives to be helpful, example recommendations propose application programming interface (API) endpoints which a determined domain-squatter could acquire and setup attack mobile infrastructure that triggers from the naively copied code. We compare this attack to previous work on context-shifting and contrast the attack surface as a novel version of "living off the land" attacks in the malware literature. In the latter case, foundational language models can hijack otherwise innocent user prompts to recommend actions that violate their owners' safety policies when posed directly without the accompanying coding support request.
- Abstract(参考訳): この研究は、人気のあるコードリポジトリで悪意のあるコードに対して、コピーされたコードや幻覚されたAIレコメンデーションを導入するための敵の可能性を構築し、評価する。
OpenAI, Google, Anthropicの基本的な大規模言語モデル(LLM)は有害な振る舞いと有害な文字列の両方を保護しているが、有害なプロンプトを埋め込んだ数学ソリューションに関する以前の研究は、ガードレールが専門家のコンテキストによって異なる可能性があることを示している。
これらの抜け穴は、質問の文脈が変わると専門家のモデルが混在し、有害なコメントをフィルタリングしたり、攻撃的行動を推奨する悪質なトレーニング例が少ない可能性がある。
本研究は, 基礎モデルにおいて, 過度に刺激された場合, 破壊行為を正しく提案することは拒否されるが, コンピュータプログラミングの課題の解決など, 突然の状況変化が生じた場合, ガードを外す可能性があることを示す。
私たちは、GitHub、NPM、NuGetのようなトロイの木馬をホストするリポジトリや、攻撃面を増幅するjsDelivrのような人気のあるコンテンツ配信ネットワーク(CDN)で実証的な例を示します。
LLMのディレクティブでは、例えば、決定されたドメインスクワットがネイティブにコピーされたコードからトリガーされる攻撃的なモバイルインフラストラクチャを取得することができるアプリケーションプログラミングインターフェース(API)エンドポイントを提案する。
我々は、この攻撃を、以前の文脈シフトに関する研究と比較し、マルウェア文学における「土地から逃れる」攻撃の新たなバージョンとして攻撃面を対比した。
後者の場合、基礎言語モデルは、伴うコーディングサポート要求なしで直接提示された場合、所有者の安全ポリシーに違反したアクションを推奨するよう、無実のユーザープロンプトをハイジャックすることができる。
関連論文リスト
- DROJ: A Prompt-Driven Attack against Large Language Models [0.0]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにまたがる例外的な機能を示している。
大規模なアライメント努力にもかかわらず、LLMは相変わらず敵の脱獄攻撃を受けやすいままである。
我々はDROJ(Directed Rrepresentation Optimization Jailbreak)という新しいアプローチを導入する。
論文 参考訳(メタデータ) (2024-11-14T01:48:08Z) - Generalized Adversarial Code-Suggestions: Exploiting Contexts of LLM-based Code-Completion [4.940253381814369]
逆のコード提案は、データ中毒によって導入することができ、したがって、モデル作成者が無意識に行うことができる。
本稿では、このような攻撃を一般化した定式化を行い、この領域における関連する研究を創出し、拡張する。
後者は新規でフレキシブルな攻撃戦略を生み出し、敵は特定のユーザーグループに対して最適なトリガーパターンを任意に選択できる。
論文 参考訳(メタデータ) (2024-10-14T14:06:05Z) - BaThe: Defense against the Jailbreak Attack in Multimodal Large Language Models by Treating Harmful Instruction as Backdoor Trigger [47.1955210785169]
本研究では,単純なジェイルブレイク防御機構である$textbfBaTheを提案する。
ジェイルブレイクバックドア攻撃は、手作りの弦と組み合わされた有害な命令をトリガーとして使用し、バックドアモデルが禁止された応答を生成する。
有害な命令がトリガーとして機能し、代わりにリジェクション応答をトリガー応答として設定すれば、バックドアモデルがジェイルブレイク攻撃に対して防御できると仮定する。
論文 参考訳(メタデータ) (2024-08-17T04:43:26Z) - Human-Interpretable Adversarial Prompt Attack on Large Language Models with Situational Context [49.13497493053742]
本研究は,無意味な接尾辞攻撃を状況駆動型文脈書き換えによって意味のあるプロンプトに変換することを検討する。
我々は、独立して意味のある敵の挿入と映画から派生した状況を組み合わせて、LLMを騙せるかどうかを確認します。
当社のアプローチでは,オープンソースとプロプライエタリなLLMの両方で,状況駆動型攻撃を成功させることが実証されている。
論文 参考訳(メタデータ) (2024-07-19T19:47:26Z) - Assessing Cybersecurity Vulnerabilities in Code Large Language Models [18.720986922660543]
EvilInstructCoderは、命令チューニングされたコードLLMのサイバーセキュリティ脆弱性を敵の攻撃に対して評価するように設計されたフレームワークである。
実際の脅威モデルを組み込んで、さまざまな能力を持つ現実世界の敵を反映している。
我々は、3つの最先端のCode LLMモデルを用いて、コーディングタスクのための命令チューニングの活用性について包括的に調査する。
論文 参考訳(メタデータ) (2024-04-29T10:14:58Z) - Query-Based Adversarial Prompt Generation [67.238873588125]
我々は、アライメント言語モデルが有害な文字列を出力する原因となる敵の例を構築します。
GPT-3.5とOpenAIの安全分類器に対する攻撃を検証する。
論文 参考訳(メタデータ) (2024-02-19T18:01:36Z) - AutoDAN: Interpretable Gradient-Based Adversarial Attacks on Large
Language Models [55.748851471119906]
LLM(Large Language Models)の安全性の整合性は、手動のジェイルブレイク攻撃や(自動)敵攻撃によって損なわれる可能性がある。
最近の研究は、これらの攻撃に対する防御が可能であることを示唆している。敵攻撃は無限だが読めないジベリッシュプロンプトを生成し、難易度に基づくフィルタによって検出できる。
両攻撃の強度をマージする,解釈可能な勾配に基づく対向攻撃であるAutoDANを導入する。
論文 参考訳(メタデータ) (2023-10-23T17:46:07Z) - Shadow Alignment: The Ease of Subverting Safely-Aligned Language Models [102.63973600144308]
オープンソースの大規模言語モデルは、有害なコンテンツを生成するために容易に変換できる。
5つの異なる組織がリリースした8つのモデルに対する実験は、シャドーアライメントアタックの有効性を実証している。
この研究は、悪意のある攻撃者に対するオープンソースのLLMの安全性を見直し、強化するための集団的な取り組みの発端となる。
論文 参考訳(メタデータ) (2023-10-04T16:39:31Z) - Backdooring Instruction-Tuned Large Language Models with Virtual Prompt Injection [66.94175259287115]
命令調整型LLMに適した新しいバックドアアタック設定を提案する。
VPI攻撃では、攻撃者が特定した仮想プロンプトがユーザ命令に形式化されたかのように、バックドアモデルが応答することが期待されている。
我々は、モデルの命令チューニングデータに毒を盛ることによって脅威を実証する。
論文 参考訳(メタデータ) (2023-07-31T17:56:00Z) - Universal and Transferable Adversarial Attacks on Aligned Language
Models [118.41733208825278]
本稿では,アライメント言語モデルに反抗的な振る舞いを生じさせる,シンプルで効果的な攻撃手法を提案する。
驚いたことに、我々のアプローチによって生じる敵のプロンプトは、かなり伝達可能である。
論文 参考訳(メタデータ) (2023-07-27T17:49:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。