Fugu-MT 論文翻訳(概要): Survey of Vulnerabilities in Large Language Models Revealed by Adversarial Attacks

論文の概要: Survey of Vulnerabilities in Large Language Models Revealed by Adversarial Attacks

arxiv url: http://arxiv.org/abs/2310.10844v1
Date: Mon, 16 Oct 2023 21:37:24 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-18 18:45:10.626749
Title: Survey of Vulnerabilities in Large Language Models Revealed by Adversarial Attacks
Title（参考訳）: 敵意攻撃による大規模言語モデルの脆弱性調査
Authors: Erfan Shayegani, Md Abdullah Al Mamun, Yu Fu, Pedram Zaree, Yue Dong, Nael Abu-Ghazaleh
Abstract要約: 大規模言語モデル(LLM)はアーキテクチャと能力において急速に進歩しています。複雑なシステムに深く統合されるにつれて、セキュリティ特性を精査する緊急性が高まっている。本稿では,LSMに対する対人攻撃の新たな学際的分野について調査する。
参考スコア（独自算出の注目度）: 5.860289498416911
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) are swiftly advancing in architecture and capability, and as they integrate more deeply into complex systems, the urgency to scrutinize their security properties grows. This paper surveys research in the emerging interdisciplinary field of adversarial attacks on LLMs, a subfield of trustworthy ML, combining the perspectives of Natural Language Processing and Security. Prior work has shown that even safety-aligned LLMs (via instruction tuning and reinforcement learning through human feedback) can be susceptible to adversarial attacks, which exploit weaknesses and mislead AI systems, as evidenced by the prevalence of `jailbreak' attacks on models like ChatGPT and Bard. In this survey, we first provide an overview of large language models, describe their safety alignment, and categorize existing research based on various learning structures: textual-only attacks, multi-modal attacks, and additional attack methods specifically targeting complex systems, such as federated learning or multi-agent systems. We also offer comprehensive remarks on works that focus on the fundamental sources of vulnerabilities and potential defenses. To make this field more accessible to newcomers, we present a systematic review of existing works, a structured typology of adversarial attack concepts, and additional resources, including slides for presentations on related topics at the 62nd Annual Meeting of the Association for Computational Linguistics (ACL'24).
Abstract（参考訳）: 大規模言語モデル(llm)はアーキテクチャと能力において急速に進歩しており、複雑なシステムにより深く統合されるにつれて、セキュリティ特性を精査する緊急性が高まる。本稿では, 自然言語処理とセキュリティの両面から, 信頼に値するMLのサブフィールドであるLLMに対する, 学際的攻撃の新たな分野について調査する。以前の研究は、安全に整合したLSMでさえ(人間のフィードバックを通じて指導チューニングと強化学習を通じて)、ChatGPTやBardのようなモデルに対する'jailbreak'攻撃の頻度によって証明されているように、弱点や誤ったAIシステムを悪用する敵攻撃の影響を受けやすいことを示した。本調査ではまず,大規模言語モデルの概要,安全性の整合性の説明,テキストのみの攻撃,マルチモーダル攻撃,フェデレート学習やマルチエージェントシステムなどの複雑なシステムを対象とした攻撃方法など,さまざまな学習構造に基づく既存研究の分類を行う。また、脆弱性や潜在的な防御の基本的な源泉に焦点を当てた作業に関する包括的な発言も提供します。この分野を新参者にとってよりアクセスしやすいものにするため,本論文では,既存の著作物の体系的レビュー,敵の攻撃概念の構造化的タイポロジー,および関連するトピックに関するプレゼンテーションのスライドを含む追加リソースについて紹介する(acl'24)。

関連論文リスト

A Survey on Model Extraction Attacks and Defenses for Large Language Models [55.60375624503877]
モデル抽出攻撃は、デプロイされた言語モデルに重大なセキュリティ脅威をもたらす。この調査は、抽出攻撃と防御攻撃の包括的分類、機能抽出への攻撃の分類、データ抽出の訓練、およびプロンプトターゲット攻撃を提供する。モデル保護,データプライバシ保護,迅速なターゲット戦略に編成された防御機構について検討し,その効果を異なる展開シナリオで評価する。
論文参考訳（メタデータ） (2025-06-26T22:02:01Z)
Align is not Enough: Multimodal Universal Jailbreak Attack against Multimodal Large Language Models [83.80177564873094]
マルチモーダル・ユニバーサル・ジェイルブレイク・アタック・フレームワークを提案する。 LLaVA,Yi-VL,MiniGPT4,MiniGPT-v2,InstructBLIPなどのMLLMの望ましくないコンテキスト生成を評価する。本研究は,MLLMにおける堅牢な安全対策の必要性を浮き彫りにするものである。
論文参考訳（メタデータ） (2025-06-02T04:33:56Z)
Attack and defense techniques in large language models: A survey and new perspectives [5.600972861188751]
大規模言語モデル(LLM)は多くの自然言語処理タスクの中心となっているが、その脆弱性はセキュリティと倫理的課題を呈している。この体系的な調査は、LLMにおける攻撃と防御技術の進化の展望を探求する。
論文参考訳（メタデータ） (2025-05-02T03:37:52Z)
MIRAGE: Multimodal Immersive Reasoning and Guided Exploration for Red-Team Jailbreak Attacks [85.3303135160762]
MIRAGEは、物語駆動型コンテキストとロール没入を利用して、マルチモーダル大規模言語モデルにおける安全性メカニズムを回避する新しいフレームワークである。最先端のパフォーマンスを達成し、最高のベースラインよりも攻撃成功率を最大17.5%向上させる。役割の浸漬と構造的セマンティック再構築は、モデル固有のバイアスを活性化し、モデルが倫理的保護に自発的に違反することを実証する。
論文参考訳（メタデータ） (2025-03-24T20:38:42Z)
Temporal Context Awareness: A Defense Framework Against Multi-turn Manipulation Attacks on Large Language Models [0.0]
大規模言語モデル(LLM)は、高度なマルチターン操作攻撃に対してますます脆弱である。本稿では,この課題に対処するための新しい防御機構であるテンポラルコンテキスト認識フレームワークを紹介する。シミュレーションされた敵シナリオに関する予備的な評価は、微妙な操作パターンを識別するフレームワークの可能性を示している。
論文参考訳（メタデータ） (2025-03-18T22:30:17Z)
Safety at Scale: A Comprehensive Survey of Large Model Safety [298.05093528230753]
我々は、敵攻撃、データ中毒、バックドア攻撃、ジェイルブレイクとプロンプトインジェクション攻撃、エネルギー遅延攻撃、データとモデル抽出攻撃、出現するエージェント固有の脅威を含む、大規模なモデルに対する安全脅威の包括的分類を提示する。我々は、大規模なモデル安全性におけるオープンな課題を特定し、議論し、包括的な安全性評価、スケーラブルで効果的な防御機構、持続可能なデータプラクティスの必要性を強調します。
論文参考訳（メタデータ） (2025-02-02T05:14:22Z)
Jailbreaking and Mitigation of Vulnerabilities in Large Language Models [4.564507064383306]
大規模言語モデル(LLM)は、自然言語の理解と生成を前進させることで、人工知能を変革した。これらの進歩にもかかわらず、LSMは、特に注射と脱獄攻撃を急ぐために、かなりの脆弱性を示してきた。このレビューでは、これらの脆弱性についての研究状況を分析し、利用可能な防衛戦略を提示する。
論文参考訳（メタデータ） (2024-10-20T00:00:56Z)
Recent advancements in LLM Red-Teaming: Techniques, Defenses, and Ethical Considerations [0.0]
大規模言語モデル(LLM)は自然言語処理タスクにおいて顕著な機能を示しているが、Jailbreak攻撃に対する脆弱性は重大なセキュリティリスクをもたらす。本稿では,Large Language Model (LLM) のレッドチームにおける攻撃戦略と防御機構の最近の進歩を包括的に分析する。
論文参考訳（メタデータ） (2024-10-09T01:35:38Z)
A Survey of Attacks on Large Vision-Language Models: Resources, Advances, and Future Trends [78.3201480023907]
LVLM(Large Vision-Language Models)は、多モーダルな理解と推論タスクにまたがる顕著な能力を示す。 LVLMの脆弱性は比較的過小評価されており、日々の使用において潜在的なセキュリティリスクを生じさせる。本稿では,既存のLVLM攻撃の様々な形態について概説する。
論文参考訳（メタデータ） (2024-07-10T06:57:58Z)
garak: A Framework for Security Probing Large Language Models [16.305837349514505]
garakは、ターゲットとするLarge Language Models(LLM)の脆弱性を発見し、特定するために使用できるフレームワークである。フレームワークのアウトプットは、ターゲットモデルの弱点を記述し、ユニークなコンテキストで脆弱性を構成するものについての情報的な議論に寄与する。
論文参考訳（メタデータ） (2024-06-16T18:18:43Z)
Unique Security and Privacy Threats of Large Language Model: A Comprehensive Survey [46.19229410404056]
大規模言語モデル(LLM)は自然言語処理において顕著な進歩を遂げた。これらのモデルは、強力な言語理解と生成能力を示すために、広大なデータセットでトレーニングされている。プライバシーとセキュリティの問題は、そのライフサイクルを通じて明らかになっている。
論文参考訳（メタデータ） (2024-06-12T07:55:32Z)
A Survey of Backdoor Attacks and Defenses on Large Language Models: Implications for Security Measures [28.604839267949114]
人間の言語理解と複雑な問題解決のギャップを埋める大規模言語モデル(LLM)は、いくつかのNLPタスクで最先端のパフォーマンスを達成する。研究は、言語モデルは潜在的なセキュリティ上の脆弱性、特にバックドア攻撃の影響を受けやすいことを実証している。本稿では, 微調整手法に着目し, LLMのバックドア攻撃に対する新たな視点について述べる。
論文参考訳（メタデータ） (2024-06-10T23:54:21Z)
Data Poisoning for In-context Learning [49.77204165250528]
In-context Learning (ICL)は、新しいタスクに適応する革新的な能力として認識されている。本論文は、ICLのデータ中毒に対する感受性の重大な問題について述べる。 ICLの学習メカニズムを活用するために考案された特殊攻撃フレームワークであるICLPoisonを紹介する。
論文参考訳（メタデータ） (2024-02-03T14:20:20Z)
Attack Prompt Generation for Red Teaming and Defending Large Language Models [70.157691818224]
大規模言語モデル (LLM) は、有害なコンテンツを生成するためにLSMを誘導するレッド・チーム・アタックの影響を受けやすい。本稿では、手動と自動の手法を組み合わせて、高品質な攻撃プロンプトを経済的に生成する統合的アプローチを提案する。
論文参考訳（メタデータ） (2023-10-19T06:15:05Z)
Visual Adversarial Examples Jailbreak Aligned Large Language Models [66.53468356460365]
視覚入力の連続的かつ高次元的な性質は、敵対的攻撃に対する弱いリンクであることを示す。我々は、視力統合されたLLMの安全ガードレールを回避するために、視覚的敵の例を利用する。本研究は,マルチモダリティの追求に伴う敵のエスカレーションリスクを浮き彫りにする。
論文参考訳（メタデータ） (2023-06-22T22:13:03Z)
Attacks in Adversarial Machine Learning: A Systematic Survey from the Life-cycle Perspective [69.25513235556635]
敵対的機械学習(英: Adversarial Machine Learning、AML)は、機械学習の逆行現象を研究する。機械学習システムの異なる段階で発生するこの敵対現象を探求するために、いくつかのパラダイムが最近開発された。既存の攻撃パラダイムをカバーするための統一的な数学的枠組みを提案する。
論文参考訳（メタデータ） (2023-02-19T02:12:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。