論文の概要: Intrinsic Model Weaknesses: How Priming Attacks Unveil Vulnerabilities in Large Language Models
- arxiv url: http://arxiv.org/abs/2502.16491v1
- Date: Sun, 23 Feb 2025 08:09:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:55:27.749876
- Title: Intrinsic Model Weaknesses: How Priming Attacks Unveil Vulnerabilities in Large Language Models
- Title(参考訳): 固有のモデル弱さ:大規模言語モデルにおけるプライミング攻撃の脆弱性の解明
- Authors: Yuyi Huang, Runzhe Zhan, Derek F. Wong, Lidia S. Chao, Ailin Tao,
- Abstract要約: 大規模言語モデル(LLM)は、様々な産業に大きな影響を与えているが、重大な欠陥、有害なコンテンツを生成する可能性に悩まされている。
我々は、不適切なコンテンツを生成する際の脆弱性を明らかにするために、LLMの新たな攻撃戦略を開発し、テストした。
- 参考スコア(独自算出の注目度): 40.180771969531456
- License:
- Abstract: Large language models (LLMs) have significantly influenced various industries but suffer from a critical flaw, the potential sensitivity of generating harmful content, which poses severe societal risks. We developed and tested novel attack strategies on popular LLMs to expose their vulnerabilities in generating inappropriate content. These strategies, inspired by psychological phenomena such as the "Priming Effect", "Safe Attention Shift", and "Cognitive Dissonance", effectively attack the models' guarding mechanisms. Our experiments achieved an attack success rate (ASR) of 100% on various open-source models, including Meta's Llama-3.2, Google's Gemma-2, Mistral's Mistral-NeMo, Falcon's Falcon-mamba, Apple's DCLM, Microsoft's Phi3, and Qwen's Qwen2.5, among others. Similarly, for closed-source models such as OpenAI's GPT-4o, Google's Gemini-1.5, and Claude-3.5, we observed an ASR of at least 95% on the AdvBench dataset, which represents the current state-of-the-art. This study underscores the urgent need to reassess the use of generative models in critical applications to mitigate potential adverse societal impacts.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々な産業に大きな影響を与えているが、重大な欠陥、有害なコンテンツを生成する可能性、深刻な社会的リスクに悩まされている。
我々は、不適切なコンテンツを生成する際の脆弱性を明らかにするために、LLMの新たな攻撃戦略を開発し、テストした。
これらの戦略は、"Priming Effect"、"Safe Attention Shift"、"Cognitive Dissonance"といった心理的現象にインスパイアされ、モデルのガード機構を効果的に攻撃する。
私たちの実験は,MetaのLlama-3.2,GoogleのGemma-2,MistralのMistral-NeMo,FalconのFalcon-mamba,AppleのDCLM,MicrosoftのPhi3,QwenのQwen2.5など,さまざまなオープンソースモデル上で100%のアタック成功率(ASR)を達成した。
同様に、OpenAIのGPT-4o、GoogleのGemini-1.5、Claude-3.5といったクローズドソースモデルに対して、私たちはAdvBenchデータセット上で少なくとも95%のASRを観察しました。
本研究は、潜在的社会的影響を軽減するために、重要な応用における生成モデルの使用を再評価する緊急の必要性を浮き彫りにするものである。
関連論文リスト
- Model Tampering Attacks Enable More Rigorous Evaluations of LLM Capabilities [49.09703018511403]
大規模言語モデル(LLM)のリスクと能力は、AIのリスク管理とガバナンスフレームワークにますます取り入れられている。
現在、ほとんどのリスク評価は、システムから有害な振る舞いを誘発する入力を設計することで実施されている。
本稿では,遅延活性化や重みへの修正が可能なモデル改ざん攻撃を用いたLCMの評価を提案する。
論文 参考訳(メタデータ) (2025-02-03T18:59:16Z) - HarmLevelBench: Evaluating Harm-Level Compliance and the Impact of Quantization on Model Alignment [1.8843687952462742]
本稿では,現在の脱獄技術とLLM脆弱性評価のギャップに対処することを目的としている。
私たちの貢献は、複数の害レベルにわたるモデル出力の有害性を評価するために設計された、新しいデータセットの作成を含む。
Vicuna 13B v1.5モデルをターゲットとした、最先端の脱獄攻撃の包括的なベンチマークを提供する。
論文 参考訳(メタデータ) (2024-11-11T10:02:49Z) - Transferable Adversarial Attacks on SAM and Its Downstream Models [87.23908485521439]
本稿では,セグメント・アプライス・モデル(SAM)から微調整した様々な下流モデルに対する敵攻撃の可能性について検討する。
未知のデータセットを微調整したモデルに対する敵攻撃の有効性を高めるために,ユニバーサルメタ初期化(UMI)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-26T15:04:04Z) - Imposter.AI: Adversarial Attacks with Hidden Intentions towards Aligned Large Language Models [13.225041704917905]
本研究では,大規模言語モデルから有害情報を抽出するために,人間の会話戦略を活かした攻撃機構を明らかにする。
明示的な悪意のある応答をターゲットとする従来の手法とは異なり、我々のアプローチは応答で提供される情報の性質を深く掘り下げている。
論文 参考訳(メタデータ) (2024-07-22T06:04:29Z) - Privacy Backdoors: Enhancing Membership Inference through Poisoning Pre-trained Models [112.48136829374741]
本稿では、プライバシーバックドア攻撃という新たな脆弱性を明らかにします。
被害者がバックドアモデルに微調整を行った場合、トレーニングデータは通常のモデルに微調整された場合よりも大幅に高い速度でリークされる。
我々の発見は、機械学習コミュニティにおける重要なプライバシー上の懸念を浮き彫りにし、オープンソースの事前訓練モデルの使用における安全性プロトコルの再評価を求めている。
論文 参考訳(メタデータ) (2024-04-01T16:50:54Z) - A Comprehensive Study of Jailbreak Attack versus Defense for Large Language Models [20.40158210837289]
Vicuna, LLama, GPT-3.5 Turboの3つの異なる言語モデルに適用した9つの攻撃手法と7つの防御手法について検討した。
以上の結果から,既存のホワイトボックス攻撃は普遍的手法に比べて性能が低く,入力に特別なトークンを含むと,攻撃成功の可能性に大きな影響を及ぼすことが明らかとなった。
論文 参考訳(メタデータ) (2024-02-21T01:26:39Z) - Evaluating Efficacy of Model Stealing Attacks and Defenses on Quantum
Neural Networks [2.348041867134616]
量子機械学習(QML)モデルのクラウドホスティングは、さまざまな脆弱性に公開する。
モデル盗難攻撃は、最大$0.9times$と$0.99times$クローンテスト精度を達成するクローンモデルを生成することができる。
これらの攻撃を防御するために、我々は現在のノイズの多いハードウェアのユニークな特性を活用し、犠牲者モデルの出力を摂動させる。
論文 参考訳(メタデータ) (2024-02-18T19:35:30Z) - RelaxLoss: Defending Membership Inference Attacks without Losing Utility [68.48117818874155]
より達成可能な学習目標を持つ緩和された損失に基づく新しい学習フレームワークを提案する。
RelaxLossは、簡単な実装と無視可能なオーバーヘッドのメリットを加えた任意の分類モデルに適用できる。
当社のアプローチはMIAに対するレジリエンスの観点から,常に最先端の防御機構より優れています。
論文 参考訳(メタデータ) (2022-07-12T19:34:47Z) - ML-Doctor: Holistic Risk Assessment of Inference Attacks Against Machine
Learning Models [64.03398193325572]
機械学習(ML)モデルに対する推論攻撃により、敵はトレーニングデータやモデルパラメータなどを学ぶことができる。
私たちは、メンバシップ推論、モデル反転、属性推論、モデル盗難の4つの攻撃に集中しています。
私たちの分析では、MLモデルオーナがモデルをデプロイするリスクを評価することができる、モジュール化された再使用可能なソフトウェアであるML-Doctorに依存しています。
論文 参考訳(メタデータ) (2021-02-04T11:35:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。