論文の概要: From LLMs to MLLMs to Agents: A Survey of Emerging Paradigms in Jailbreak Attacks and Defenses within LLM Ecosystem
- arxiv url: http://arxiv.org/abs/2506.15170v1
- Date: Wed, 18 Jun 2025 06:33:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-19 19:35:51.560384
- Title: From LLMs to MLLMs to Agents: A Survey of Emerging Paradigms in Jailbreak Attacks and Defenses within LLM Ecosystem
- Title(参考訳): LLM から MLLM からエージェントへ: LLM エコシステムにおけるジェイルブレイク攻撃と防御における創発的パラダイムに関する調査
- Authors: Yanxu Mao, Tiehan Cui, Peipei Liu, Datao You, Hongsong Zhu,
- Abstract要約: 大規模言語モデル(LLM)は、シングルモーダルシステムからマルチモーダルLLMやインテリジェントエージェントへと急速に進化している。
本稿では,LLMエコシステムにおけるジェイルブレイク攻撃の複雑化とそれに対応する防御機構について,系統的な調査を行った。
- 参考スコア(独自算出の注目度): 3.3821226324715403
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are rapidly evolving from single-modal systems to multimodal LLMs and intelligent agents, significantly expanding their capabilities while introducing increasingly severe security risks. This paper presents a systematic survey of the growing complexity of jailbreak attacks and corresponding defense mechanisms within the expanding LLM ecosystem. We first trace the developmental trajectory from LLMs to MLLMs and Agents, highlighting the core security challenges emerging at each stage. Next, we categorize mainstream jailbreak techniques from both the attack impact and visibility perspectives, and provide a comprehensive analysis of representative attack methods, related datasets, and evaluation metrics. On the defense side, we organize existing strategies based on response timing and technical approach, offering a structured understanding of their applicability and implementation. Furthermore, we identify key limitations in existing surveys, such as insufficient attention to agent-specific security issues, the absence of a clear taxonomy for hybrid jailbreak methods, a lack of detailed analysis of experimental setups, and outdated coverage of recent advancements. To address these limitations, we provide an updated synthesis of recent work and outline future research directions in areas such as dataset construction, evaluation framework optimization, and strategy generalization. Our study seeks to enhance the understanding of jailbreak mechanisms and facilitate the advancement of more resilient and adaptive defense strategies in the context of ever more capable LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)は、シングルモーダルシステムからマルチモーダルLLMやインテリジェントエージェントへと急速に進化し、ますます深刻なセキュリティリスクを伴いながら、その能力を著しく拡張している。
本稿では,LLMエコシステムにおけるジェイルブレイク攻撃の複雑化とそれに対応する防御機構について,系統的な調査を行った。
まず LLM から MLLM や Agent に至るまでの発達軌跡を追究し,各段階におけるセキュリティ上の課題を浮き彫りにした。
次に、攻撃の影響と可視性の両方の観点から、主流のjailbreakテクニックを分類し、代表的な攻撃方法、関連するデータセット、評価指標を包括的に分析する。
防衛面では、応答タイミングと技術的アプローチに基づいて既存の戦略を整理し、それらの適用性と実装に関する構造化された理解を提供する。
さらに,エージェント固有のセキュリティ問題への注意不足,ハイブリット・ジェイルブレイク法に対する明確な分類基準の欠如,実験装置の詳細な分析の欠如,最近の進歩の報道の遅れなど,既存の調査における重要な限界を明らかにした。
これらの制約に対処するため、我々は最近の研究の最新の合成を提供し、データセットの構築、評価フレームワークの最適化、戦略の一般化といった分野における今後の研究の方向性を概説する。
本研究は、脱獄機構の理解を深め、より有能なLDMの文脈において、より弾力的で適応的な防衛戦略の進展を促進することを目的としている。
関連論文リスト
- Towards Secure MLOps: Surveying Attacks, Mitigation Strategies, and Research Challenges [4.6592774515395465]
我々は,MLOpsエコシステムのさまざまなフェーズにわたる攻撃を評価するために,MITRE ATLAS(Adrial Threat Landscape for Artificial-Intelligence Systems)フレームワークの体系的応用を提案する。
次に、MLOpsエコシステムの対応するフェーズに明示的にマッピングされた攻撃手法の構造的分類を示す。
これに続いて、これらの攻撃カテゴリに沿った緩和戦略の分類が行われ、MLOpsエコシステムのセキュリティを強化するための実行可能なアーリーステージディフェンスが提供される。
論文 参考訳(メタデータ) (2025-05-30T17:45:31Z) - A Survey of Safety on Large Vision-Language Models: Attacks, Defenses and Evaluations [127.52707312573791]
この調査はLVLMの安全性を包括的に分析し、攻撃、防御、評価方法などの重要な側面をカバーする。
我々はこれらの相互関連コンポーネントを統合する統一フレームワークを導入し、LVLMの脆弱性を概観する。
我々は,最新のLVLMであるDeepseek Janus-Pro上で一連の安全性評価を行い,その結果を理論的に分析する。
論文 参考訳(メタデータ) (2025-02-14T08:42:43Z) - Adversarial Reasoning at Jailbreaking Time [49.70772424278124]
テスト時間計算による自動ジェイルブレイクに対する逆推論手法を開発した。
我々のアプローチは、LSMの脆弱性を理解するための新しいパラダイムを導入し、より堅牢で信頼性の高いAIシステムの開発の基礎を築いた。
論文 参考訳(メタデータ) (2025-02-03T18:59:01Z) - LLM-Virus: Evolutionary Jailbreak Attack on Large Language Models [59.29840790102413]
既存のジェイルブレイク攻撃は主に不透明な最適化手法と勾配探索法に基づいている。
進化的ジェイルブレイクと呼ばれる進化的アルゴリズムに基づくジェイルブレイク攻撃手法であるLSM-Virusを提案する。
この結果から, LLM-Virus は既存の攻撃手法と比較して, 競争力や性能に優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-12-28T07:48:57Z) - Jailbreaking and Mitigation of Vulnerabilities in Large Language Models [8.345554966569479]
大規模言語モデル(LLM)は、自然言語の理解と生成を前進させることで、人工知能を変革した。
これらの進歩にもかかわらず、LSMは、特に注射と脱獄攻撃を急ぐために、かなりの脆弱性を示してきた。
このレビューでは、これらの脆弱性についての研究状況を分析し、利用可能な防衛戦略を提示する。
論文 参考訳(メタデータ) (2024-10-20T00:00:56Z) - A Survey of Attacks on Large Vision-Language Models: Resources, Advances, and Future Trends [78.3201480023907]
LVLM(Large Vision-Language Models)は、多モーダルな理解と推論タスクにまたがる顕著な能力を示す。
LVLMの脆弱性は比較的過小評価されており、日々の使用において潜在的なセキュリティリスクを生じさせる。
本稿では,既存のLVLM攻撃の様々な形態について概説する。
論文 参考訳(メタデータ) (2024-07-10T06:57:58Z) - Generative AI in Cybersecurity: A Comprehensive Review of LLM Applications and Vulnerabilities [1.0974825157329373]
本稿では,ジェネレーティブAIとLarge Language Models(LLMs)によるサイバーセキュリティの将来を概観する。
ハードウェア設計のセキュリティ、侵入検知、ソフトウェアエンジニアリング、設計検証、サイバー脅威インテリジェンス、マルウェア検出、フィッシング検出など、さまざまな領域にわたるLCMアプリケーションを探索する。
GPT-4, GPT-3.5, Mixtral-8x7B, BERT, Falcon2, LLaMA などのモデルの発展に焦点を当て, LLM の進化とその現状について概説する。
論文 参考訳(メタデータ) (2024-05-21T13:02:27Z) - LLM Inference Unveiled: Survey and Roofline Model Insights [62.92811060490876]
大規模言語モデル(LLM)推論は急速に進化しており、機会と課題のユニークなブレンドを提示している。
本調査は, 研究状況を要約するだけでなく, 屋上モデルに基づく枠組みを導入することによって, 従来の文献レビューから際立っている。
このフレームワークは、ハードウェアデバイスにLSMをデプロイする際のボトルネックを特定し、実用上の問題を明確に理解する。
論文 参考訳(メタデータ) (2024-02-26T07:33:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。