論文の概要: A Framework for Rapidly Developing and Deploying Protection Against Large Language Model Attacks
- arxiv url: http://arxiv.org/abs/2509.20639v1
- Date: Thu, 25 Sep 2025 00:36:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.639342
- Title: A Framework for Rapidly Developing and Deploying Protection Against Large Language Model Attacks
- Title(参考訳): 大規模言語モデル攻撃に対する防御を迅速に開発・展開するためのフレームワーク
- Authors: Adam Swanda, Amy Chang, Alexander Chen, Fraser Burch, Paul Kassianik, Konstantin Berlin,
- Abstract要約: 大規模言語モデル(LLM)はAIデプロイメントに革命をもたらし、業界全体で自律的および半自律的なアプリケーションを可能にする。
LLMに対するゼロデイアタックや新規アタックは、既知のアプローチでは防げない。
これにより、AI保護システムは、確立されたマルウェア保護システムに似たカテゴリに置かれる。
本稿では,マルウェア検出と脅威知能の確立に根ざした,生産レベルの防衛システムを提案する。
- 参考スコア(独自算出の注目度): 35.24793196785657
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The widespread adoption of Large Language Models (LLMs) has revolutionized AI deployment, enabling autonomous and semi-autonomous applications across industries through intuitive language interfaces and continuous improvements in model development. However, the attendant increase in autonomy and expansion of access permissions among AI applications also make these systems compelling targets for malicious attacks. Their inherent susceptibility to security flaws necessitates robust defenses, yet no known approaches can prevent zero-day or novel attacks against LLMs. This places AI protection systems in a category similar to established malware protection systems: rather than providing guaranteed immunity, they minimize risk through enhanced observability, multi-layered defense, and rapid threat response, supported by a threat intelligence function designed specifically for AI-related threats. Prior work on LLM protection has largely evaluated individual detection models rather than end-to-end systems designed for continuous, rapid adaptation to a changing threat landscape. We present a production-grade defense system rooted in established malware detection and threat intelligence practices. Our platform integrates three components: a threat intelligence system that turns emerging threats into protections; a data platform that aggregates and enriches information while providing observability, monitoring, and ML operations; and a release platform enabling safe, rapid detection updates without disrupting customer workflows. Together, these components deliver layered protection against evolving LLM threats while generating training data for continuous model improvement and deploying updates without interrupting production.
- Abstract(参考訳): 大規模言語モデル(LLM)の普及は、AIデプロイメントに革命をもたらし、直感的な言語インターフェースとモデル開発における継続的な改善を通じて、業界全体で自律的および半自律的なアプリケーションを可能にする。
しかし、AIアプリケーション間の自律性の向上とアクセス許可の拡大により、これらのシステムは悪意のある攻撃に対して魅力的なターゲットとなる。
セキュリティ欠陥に対する固有の感受性は、堅牢な防御を必要とするが、ゼロデイや新しいLLMに対する攻撃を防げる既知のアプローチは存在しない。
これにより、AI保護システムは、確立されたマルウェア保護システムに似たカテゴリに配置される。保証された免疫を提供するのではなく、強化された可観測性、多層防御、迅速な脅威応答を通じてリスクを最小限に抑え、AI関連の脅威に特化して設計された脅威情報機能によって支援される。
LLM保護に関する以前の研究は、脅威の変化する環境への連続的かつ迅速な適応のために設計されたエンドツーエンドシステムよりも、個々の検出モデルについて大きく評価されてきた。
本稿では,マルウェア検出と脅威知能の確立に根ざした,生産レベルの防衛システムを提案する。
私たちのプラットフォームは3つのコンポーネントを統合しています。脅威を保護に変換する脅威情報システム、可観測性、監視、ML操作を提供しながら情報を集約し、強化するデータプラットフォーム、顧客ワークフローを中断することなく、安全かつ迅速な検出更新を可能にするリリースプラットフォームです。
これらのコンポーネントは、継続的モデルの改善のためのトレーニングデータを生成し、運用を中断することなくアップデートをデプロイしながら、LLMの脅威の進化に対して階層化された保護を提供する。
関連論文リスト
- NeuroBreak: Unveil Internal Jailbreak Mechanisms in Large Language Models [68.09675063543402]
NeuroBreakは、ニューロンレベルの安全性メカニズムを分析し、脆弱性を軽減するために設計されたトップダウンのジェイルブレイク分析システムである。
レイヤワイドな表現探索分析を取り入れることで、NeuroBreakはモデルの意思決定プロセスに関する新たな視点を提供する。
本システムの有効性を検証するために,定量的評価とケーススタディを実施している。
論文 参考訳(メタデータ) (2025-09-04T08:12:06Z) - Secure Tug-of-War (SecTOW): Iterative Defense-Attack Training with Reinforcement Learning for Multimodal Model Security [63.41350337821108]
マルチモーダル大規模言語モデル(MLLM)のセキュリティを高めるために,Secure Tug-of-War(SecTOW)を提案する。
SecTOWは2つのモジュールで構成される:ディフェンダーと補助攻撃者。どちらも強化学習(GRPO)を使用して反復的に訓練される。
SecTOWは、一般的な性能を維持しながら、セキュリティを大幅に改善することを示す。
論文 参考訳(メタデータ) (2025-07-29T17:39:48Z) - A Survey on Model Extraction Attacks and Defenses for Large Language Models [55.60375624503877]
モデル抽出攻撃は、デプロイされた言語モデルに重大なセキュリティ脅威をもたらす。
この調査は、抽出攻撃と防御攻撃の包括的分類、機能抽出への攻撃の分類、データ抽出の訓練、およびプロンプトターゲット攻撃を提供する。
モデル保護,データプライバシ保護,迅速なターゲット戦略に編成された防御機構について検討し,その効果を異なる展開シナリオで評価する。
論文 参考訳(メタデータ) (2025-06-26T22:02:01Z) - Exposing the Ghost in the Transformer: Abnormal Detection for Large Language Models via Hidden State Forensics [5.384257830522198]
重要なアプリケーションにおける大規模言語モデル(LLM)は、重大な信頼性とセキュリティリスクを導入している。
これらの脆弱性は悪意あるアクターによって武器化され、不正アクセス、広範囲にわたる誤報、システムの完全性を侵害した。
本研究では,LLMの異常な挙動を隠蔽法で検出する手法を提案する。
論文 参考訳(メタデータ) (2025-04-01T05:58:14Z) - LLM-Assisted Proactive Threat Intelligence for Automated Reasoning [2.0427650128177]
本研究は、リアルタイムサイバーセキュリティ脅威の検出と応答を強化する新しいアプローチを提案する。
我々は,大規模言語モデル (LLM) とレトリーバル拡張生成システム (RAG) を連続的な脅威知能フィードに統合する。
論文 参考訳(メタデータ) (2025-04-01T05:19:33Z) - Guardians of the Agentic System: Preventing Many Shots Jailbreak with Agentic System [0.8136541584281987]
本研究は,3つの検査手法を用いて,逆チューリングテストによりローグエージェントを検出し,マルチエージェントシミュレーションにより知覚的アライメントを解析する。
GEMINI 1.5 Pro と llama-3.3-70B, Deepseek r1 モデルを用いて, 抗ジェイルブレイクシステムを開発した。
GEMINI 1.5 Proの94%の精度など、検出能力は強いが、長時間の攻撃を受けた場合、システムは永続的な脆弱性に悩まされる。
論文 参考訳(メタデータ) (2025-02-23T23:35:15Z) - Global Challenge for Safe and Secure LLMs Track 1 [57.08717321907755]
LLM(Global Challenge for Safe and Secure Large Language Models)は、AI Singapore(AISG)とCyberSG R&D Programme Office(CRPO)が主催する先駆的イニシアチブである。
本稿では,AI Singapore(AISG)とCyberSG R&D Programme Office(CRPO)が組織した先駆的イニシアチブであるLLM(Global Challenge for Safe and Secure Large Language Models)を紹介する。
論文 参考訳(メタデータ) (2024-11-21T08:20:31Z) - Mitigating Backdoor Threats to Large Language Models: Advancement and Challenges [46.032173498399885]
大規模言語モデル(LLM)は、Web検索、ヘルスケア、ソフトウェア開発など、さまざまな領域に大きな影響を与えている。
これらのモデルがスケールするにつれて、サイバーセキュリティのリスク、特にバックドア攻撃に対する脆弱性が高まる。
論文 参考訳(メタデータ) (2024-09-30T06:31:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。