論文の概要: Survey of Vulnerabilities in Large Language Models Revealed by
Adversarial Attacks
- arxiv url: http://arxiv.org/abs/2310.10844v1
- Date: Mon, 16 Oct 2023 21:37:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-18 18:45:10.626749
- Title: Survey of Vulnerabilities in Large Language Models Revealed by
Adversarial Attacks
- Title(参考訳): 敵意攻撃による大規模言語モデルの脆弱性調査
- Authors: Erfan Shayegani, Md Abdullah Al Mamun, Yu Fu, Pedram Zaree, Yue Dong,
Nael Abu-Ghazaleh
- Abstract要約: 大規模言語モデル(LLM)はアーキテクチャと能力において急速に進歩しています。
複雑なシステムに深く統合されるにつれて、セキュリティ特性を精査する緊急性が高まっている。
本稿では,LSMに対する対人攻撃の新たな学際的分野について調査する。
- 参考スコア(独自算出の注目度): 5.860289498416911
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are swiftly advancing in architecture and
capability, and as they integrate more deeply into complex systems, the urgency
to scrutinize their security properties grows. This paper surveys research in
the emerging interdisciplinary field of adversarial attacks on LLMs, a subfield
of trustworthy ML, combining the perspectives of Natural Language Processing
and Security. Prior work has shown that even safety-aligned LLMs (via
instruction tuning and reinforcement learning through human feedback) can be
susceptible to adversarial attacks, which exploit weaknesses and mislead AI
systems, as evidenced by the prevalence of `jailbreak' attacks on models like
ChatGPT and Bard. In this survey, we first provide an overview of large
language models, describe their safety alignment, and categorize existing
research based on various learning structures: textual-only attacks,
multi-modal attacks, and additional attack methods specifically targeting
complex systems, such as federated learning or multi-agent systems. We also
offer comprehensive remarks on works that focus on the fundamental sources of
vulnerabilities and potential defenses. To make this field more accessible to
newcomers, we present a systematic review of existing works, a structured
typology of adversarial attack concepts, and additional resources, including
slides for presentations on related topics at the 62nd Annual Meeting of the
Association for Computational Linguistics (ACL'24).
- Abstract(参考訳): 大規模言語モデル(llm)はアーキテクチャと能力において急速に進歩しており、複雑なシステムにより深く統合されるにつれて、セキュリティ特性を精査する緊急性が高まる。
本稿では, 自然言語処理とセキュリティの両面から, 信頼に値するMLのサブフィールドであるLLMに対する, 学際的攻撃の新たな分野について調査する。
以前の研究は、安全に整合したLSMでさえ(人間のフィードバックを通じて指導チューニングと強化学習を通じて)、ChatGPTやBardのようなモデルに対する'jailbreak'攻撃の頻度によって証明されているように、弱点や誤ったAIシステムを悪用する敵攻撃の影響を受けやすいことを示した。
本調査ではまず,大規模言語モデルの概要,安全性の整合性の説明,テキストのみの攻撃,マルチモーダル攻撃,フェデレート学習やマルチエージェントシステムなどの複雑なシステムを対象とした攻撃方法など,さまざまな学習構造に基づく既存研究の分類を行う。
また、脆弱性や潜在的な防御の基本的な源泉に焦点を当てた作業に関する包括的な発言も提供します。
この分野を新参者にとってよりアクセスしやすいものにするため,本論文では,既存の著作物の体系的レビュー,敵の攻撃概念の構造化的タイポロジー,および関連するトピックに関するプレゼンテーションのスライドを含む追加リソースについて紹介する(acl'24)。
関連論文リスト
- Jailbreaking and Mitigation of Vulnerabilities in Large Language Models [4.564507064383306]
大規模言語モデル(LLM)は、自然言語の理解と生成を前進させることで、人工知能を変革した。
これらの進歩にもかかわらず、LSMは、特に注射と脱獄攻撃を急ぐために、かなりの脆弱性を示してきた。
このレビューでは、これらの脆弱性についての研究状況を分析し、利用可能な防衛戦略を提示する。
論文 参考訳(メタデータ) (2024-10-20T00:00:56Z) - Recent advancements in LLM Red-Teaming: Techniques, Defenses, and Ethical Considerations [0.0]
大規模言語モデル(LLM)は自然言語処理タスクにおいて顕著な機能を示しているが、Jailbreak攻撃に対する脆弱性は重大なセキュリティリスクをもたらす。
本稿では,Large Language Model (LLM) のレッドチームにおける攻撃戦略と防御機構の最近の進歩を包括的に分析する。
論文 参考訳(メタデータ) (2024-10-09T01:35:38Z) - A Survey of Attacks on Large Vision-Language Models: Resources, Advances, and Future Trends [78.3201480023907]
LVLM(Large Vision-Language Models)は、多モーダルな理解と推論タスクにまたがる顕著な能力を示す。
LVLMの脆弱性は比較的過小評価されており、日々の使用において潜在的なセキュリティリスクを生じさせる。
本稿では,既存のLVLM攻撃の様々な形態について概説する。
論文 参考訳(メタデータ) (2024-07-10T06:57:58Z) - garak: A Framework for Security Probing Large Language Models [16.305837349514505]
garakは、ターゲットとするLarge Language Models(LLM)の脆弱性を発見し、特定するために使用できるフレームワークである。
フレームワークのアウトプットは、ターゲットモデルの弱点を記述し、ユニークなコンテキストで脆弱性を構成するものについての情報的な議論に寄与する。
論文 参考訳(メタデータ) (2024-06-16T18:18:43Z) - Unique Security and Privacy Threats of Large Language Model: A Comprehensive Survey [46.19229410404056]
大規模言語モデル(LLM)は自然言語処理において顕著な進歩を遂げた。
これらのモデルは、強力な言語理解と生成能力を示すために、広大なデータセットでトレーニングされている。
プライバシーとセキュリティの問題は、そのライフサイクルを通じて明らかになっている。
論文 参考訳(メタデータ) (2024-06-12T07:55:32Z) - A Survey of Backdoor Attacks and Defenses on Large Language Models: Implications for Security Measures [28.604839267949114]
人間の言語理解と複雑な問題解決のギャップを埋める大規模言語モデル(LLM)は、いくつかのNLPタスクで最先端のパフォーマンスを達成する。
研究は、言語モデルは潜在的なセキュリティ上の脆弱性、特にバックドア攻撃の影響を受けやすいことを実証している。
本稿では, 微調整手法に着目し, LLMのバックドア攻撃に対する新たな視点について述べる。
論文 参考訳(メタデータ) (2024-06-10T23:54:21Z) - Data Poisoning for In-context Learning [49.77204165250528]
In-context Learning (ICL)は、新しいタスクに適応する革新的な能力として認識されている。
本論文は、ICLのデータ中毒に対する感受性の重大な問題について述べる。
ICLの学習メカニズムを活用するために考案された特殊攻撃フレームワークであるICLPoisonを紹介する。
論文 参考訳(メタデータ) (2024-02-03T14:20:20Z) - Attack Prompt Generation for Red Teaming and Defending Large Language
Models [70.157691818224]
大規模言語モデル (LLM) は、有害なコンテンツを生成するためにLSMを誘導するレッド・チーム・アタックの影響を受けやすい。
本稿では、手動と自動の手法を組み合わせて、高品質な攻撃プロンプトを経済的に生成する統合的アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-19T06:15:05Z) - Visual Adversarial Examples Jailbreak Aligned Large Language Models [66.53468356460365]
視覚入力の連続的かつ高次元的な性質は、敵対的攻撃に対する弱いリンクであることを示す。
我々は、視力統合されたLLMの安全ガードレールを回避するために、視覚的敵の例を利用する。
本研究は,マルチモダリティの追求に伴う敵のエスカレーションリスクを浮き彫りにする。
論文 参考訳(メタデータ) (2023-06-22T22:13:03Z) - Attacks in Adversarial Machine Learning: A Systematic Survey from the
Life-cycle Perspective [69.25513235556635]
敵対的機械学習(英: Adversarial Machine Learning、AML)は、機械学習の逆行現象を研究する。
機械学習システムの異なる段階で発生するこの敵対現象を探求するために、いくつかのパラダイムが最近開発された。
既存の攻撃パラダイムをカバーするための統一的な数学的枠組みを提案する。
論文 参考訳(メタデータ) (2023-02-19T02:12:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。