論文の概要: A Framework for Rapidly Developing and Deploying Protection Against Large Language Model Attacks
- arxiv url: http://arxiv.org/abs/2509.20639v2
- Date: Fri, 17 Oct 2025 15:13:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 13:49:08.722313
- Title: A Framework for Rapidly Developing and Deploying Protection Against Large Language Model Attacks
- Title(参考訳): 大規模言語モデル攻撃に対する防御を迅速に開発・展開するためのフレームワーク
- Authors: Adam Swanda, Amy Chang, Alexander Chen, Fraser Burch, Paul Kassianik, Konstantin Berlin,
- Abstract要約: 大規模言語モデル(LLM)はAIデプロイメントに革命をもたらし、業界全体で自律的および半自律的なアプリケーションを可能にする。
LLMに対するゼロデイアタックや新規アタックは、既知のアプローチでは防げない。
これにより、AI保護システムは、確立されたマルウェア保護システムに似たカテゴリに置かれる。
本稿では,マルウェア検出と脅威知能の確立に根ざした,生産レベルの防衛システムを提案する。
- 参考スコア(独自算出の注目度): 35.24793196785657
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The widespread adoption of Large Language Models (LLMs) has revolutionized AI deployment, enabling autonomous and semi-autonomous applications across industries through intuitive language interfaces and continuous improvements in model development. However, the attendant increase in autonomy and expansion of access permissions among AI applications also make these systems compelling targets for malicious attacks. Their inherent susceptibility to security flaws necessitates robust defenses, yet no known approaches can prevent zero-day or novel attacks against LLMs. This places AI protection systems in a category similar to established malware protection systems: rather than providing guaranteed immunity, they minimize risk through enhanced observability, multi-layered defense, and rapid threat response, supported by a threat intelligence function designed specifically for AI-related threats. Prior work on LLM protection has largely evaluated individual detection models rather than end-to-end systems designed for continuous, rapid adaptation to a changing threat landscape. We present a production-grade defense system rooted in established malware detection and threat intelligence practices. Our platform integrates three components: a threat intelligence system that turns emerging threats into protections; a data platform that aggregates and enriches information while providing observability, monitoring, and ML operations; and a release platform enabling safe, rapid detection updates without disrupting customer workflows. Together, these components deliver layered protection against evolving LLM threats while generating training data for continuous model improvement and deploying updates without interrupting production.
- Abstract(参考訳): 大規模言語モデル(LLM)の普及は、AIデプロイメントに革命をもたらし、直感的な言語インターフェースとモデル開発における継続的な改善を通じて、業界全体で自律的および半自律的なアプリケーションを可能にする。
しかし、AIアプリケーション間の自律性の向上とアクセス許可の拡大により、これらのシステムは悪意のある攻撃に対して魅力的なターゲットとなる。
セキュリティ欠陥に対する固有の感受性は、堅牢な防御を必要とするが、ゼロデイや新しいLLMに対する攻撃を防げる既知のアプローチは存在しない。
これにより、AI保護システムは、確立されたマルウェア保護システムに似たカテゴリに配置される。保証された免疫を提供するのではなく、強化された可観測性、多層防御、迅速な脅威応答を通じてリスクを最小限に抑え、AI関連の脅威に特化して設計された脅威情報機能によって支援される。
LLM保護に関する以前の研究は、脅威の変化する環境への連続的かつ迅速な適応のために設計されたエンドツーエンドシステムよりも、個々の検出モデルについて大きく評価されてきた。
本稿では,マルウェア検出と脅威知能の確立に根ざした,生産レベルの防衛システムを提案する。
私たちのプラットフォームは3つのコンポーネントを統合しています。脅威を保護に変換する脅威情報システム、可観測性、監視、ML操作を提供しながら情報を集約し、強化するデータプラットフォーム、顧客ワークフローを中断することなく、安全かつ迅速な検出更新を可能にするリリースプラットフォームです。
これらのコンポーネントは、継続的モデルの改善のためのトレーニングデータを生成し、運用を中断することなくアップデートをデプロイしながら、LLMの脅威の進化に対して階層化された保護を提供する。
関連論文リスト
- LLM Scalability Risk for Agentic-AI and Model Supply Chain Security [1.1205855201611814]
大規模言語モデル(LLM)とジェネレーティブAIはサイバーセキュリティを変革し、高度な防衛と新たな攻撃の両方を可能にしている。
本稿では,GenAIによるサイバーセキュリティに対する攻撃的・防衛的視点を統合した統合分析を行う。
論文 参考訳(メタデータ) (2026-02-22T03:20:49Z) - Just Ask: Curious Code Agents Reveal System Prompts in Frontier LLMs [65.6660735371212]
textbftextscJustAskは,インタラクションのみで効果的な抽出戦略を自律的に発見するフレームワークである。
これは、アッパー信頼境界に基づく戦略選択と、原子プローブと高レベルのオーケストレーションにまたがる階層的なスキル空間を用いて、オンライン探索問題として抽出を定式化する。
この結果から,現代のエージェントシステムにおいて,システムプロンプトは致命的ではあるがほぼ無防備な攻撃面であることがわかった。
論文 参考訳(メタデータ) (2026-01-29T03:53:25Z) - ORCA -- An Automated Threat Analysis Pipeline for O-RAN Continuous Development [57.61878484176942]
Open-Radio Access Network (O-RAN)は、多くのソフトウェアコンポーネントをクラウドのようなデプロイメントに統合し、これまで考えられていなかったセキュリティ脅威に無線アクセスネットワークを開放する。
現在の脆弱性評価の実践は、しばしば手動、労働集約、主観的な調査に依存しており、脅威分析の不整合につながる。
人間の介入や関連するバイアスを最小限に抑えるために,自然言語処理(NLP)を活用する自動パイプラインを提案する。
論文 参考訳(メタデータ) (2026-01-20T07:31:59Z) - ASTRIDE: A Security Threat Modeling Platform for Agentic-AI Applications [4.5053527030708285]
ASTRIDEはAIエージェントベースのシステム向けに開発された自動脅威モデリングプラットフォームである。
脅威モデリングを自動化するため、ASTRIDEは細調整された視覚言語モデルのコンソーシアムとOpenAI-gpt-oss推論LLMを組み合わせた。
我々の評価は、ASTRIDEが次世代インテリジェントシステムに対して正確でスケーラブルで説明可能な脅威モデリングを提供することを示す。
論文 参考訳(メタデータ) (2025-12-04T13:32:40Z) - Adversarial Attack-Defense Co-Evolution for LLM Safety Alignment via Tree-Group Dual-Aware Search and Optimization [51.12422886183246]
大規模言語モデル(LLM)は、Webサービスにおいて急速に発展し、社会的リスクを増幅しつつ、前例のない能力を提供してきた。
既存の作業は、分離されたジェイルブレイク攻撃または静的防御に重点を置いており、現実世界のWebコンテキストにおける進化する脅威とセーフガードの間の動的な相互作用を無視している。
ACE-Safetyは、2つの重要な革新的手順をシームレスに統合することにより、攻撃と防御モデルを協調的に最適化する新しいフレームワークである。
論文 参考訳(メタデータ) (2025-11-24T15:23:41Z) - SAID: Empowering Large Language Models with Self-Activating Internal Defense [23.654016424365906]
我々は,新たな非訓練型防衛パラダイム,自走型内国防衛(SAID)を導入する。
SAIDは、防衛タスクを外部修正から内部機能アクティベーションにリフレームする。
それは、有害な出力を減らすために最先端の防御を著しく上回っている。
論文 参考訳(メタデータ) (2025-10-23T02:07:54Z) - Exploiting Web Search Tools of AI Agents for Data Exfiltration [0.46664938579243564]
大規模言語モデル(LLM)は、自然言語処理からWeb検索のような動的まで、複雑なタスクの実行に日常的に使用されている。
ツールコールと検索拡張生成(RAG)の使用により、LLMは機密性の高い企業データの処理と取得が可能になり、その機能と悪用に対する脆弱性の両方を増幅する。
我々は、現在のLLMが間接的にインジェクションアタックを誘導し、どのパラメーター、モデルサイズや製造元が脆弱性を形作り、どの攻撃方法が最も効果的かを分析する。
論文 参考訳(メタデータ) (2025-10-10T07:39:01Z) - NeuroBreak: Unveil Internal Jailbreak Mechanisms in Large Language Models [68.09675063543402]
NeuroBreakは、ニューロンレベルの安全性メカニズムを分析し、脆弱性を軽減するために設計されたトップダウンのジェイルブレイク分析システムである。
レイヤワイドな表現探索分析を取り入れることで、NeuroBreakはモデルの意思決定プロセスに関する新たな視点を提供する。
本システムの有効性を検証するために,定量的評価とケーススタディを実施している。
論文 参考訳(メタデータ) (2025-09-04T08:12:06Z) - Secure Tug-of-War (SecTOW): Iterative Defense-Attack Training with Reinforcement Learning for Multimodal Model Security [63.41350337821108]
マルチモーダル大規模言語モデル(MLLM)のセキュリティを高めるために,Secure Tug-of-War(SecTOW)を提案する。
SecTOWは2つのモジュールで構成される:ディフェンダーと補助攻撃者。どちらも強化学習(GRPO)を使用して反復的に訓練される。
SecTOWは、一般的な性能を維持しながら、セキュリティを大幅に改善することを示す。
論文 参考訳(メタデータ) (2025-07-29T17:39:48Z) - A Survey on Model Extraction Attacks and Defenses for Large Language Models [55.60375624503877]
モデル抽出攻撃は、デプロイされた言語モデルに重大なセキュリティ脅威をもたらす。
この調査は、抽出攻撃と防御攻撃の包括的分類、機能抽出への攻撃の分類、データ抽出の訓練、およびプロンプトターゲット攻撃を提供する。
モデル保護,データプライバシ保護,迅速なターゲット戦略に編成された防御機構について検討し,その効果を異なる展開シナリオで評価する。
論文 参考訳(メタデータ) (2025-06-26T22:02:01Z) - Exposing the Ghost in the Transformer: Abnormal Detection for Large Language Models via Hidden State Forensics [5.384257830522198]
重要なアプリケーションにおける大規模言語モデル(LLM)は、重大な信頼性とセキュリティリスクを導入している。
これらの脆弱性は悪意あるアクターによって武器化され、不正アクセス、広範囲にわたる誤報、システムの完全性を侵害した。
本研究では,LLMの異常な挙動を隠蔽法で検出する手法を提案する。
論文 参考訳(メタデータ) (2025-04-01T05:58:14Z) - LLM-Assisted Proactive Threat Intelligence for Automated Reasoning [2.0427650128177]
本研究は、リアルタイムサイバーセキュリティ脅威の検出と応答を強化する新しいアプローチを提案する。
我々は,大規模言語モデル (LLM) とレトリーバル拡張生成システム (RAG) を連続的な脅威知能フィードに統合する。
論文 参考訳(メタデータ) (2025-04-01T05:19:33Z) - Guardians of the Agentic System: Preventing Many Shots Jailbreak with Agentic System [0.8136541584281987]
本研究は,3つの検査手法を用いて,逆チューリングテストによりローグエージェントを検出し,マルチエージェントシミュレーションにより知覚的アライメントを解析する。
GEMINI 1.5 Pro と llama-3.3-70B, Deepseek r1 モデルを用いて, 抗ジェイルブレイクシステムを開発した。
GEMINI 1.5 Proの94%の精度など、検出能力は強いが、長時間の攻撃を受けた場合、システムは永続的な脆弱性に悩まされる。
論文 参考訳(メタデータ) (2025-02-23T23:35:15Z) - Global Challenge for Safe and Secure LLMs Track 1 [57.08717321907755]
LLM(Global Challenge for Safe and Secure Large Language Models)は、AI Singapore(AISG)とCyberSG R&D Programme Office(CRPO)が主催する先駆的イニシアチブである。
本稿では,AI Singapore(AISG)とCyberSG R&D Programme Office(CRPO)が組織した先駆的イニシアチブであるLLM(Global Challenge for Safe and Secure Large Language Models)を紹介する。
論文 参考訳(メタデータ) (2024-11-21T08:20:31Z) - Mitigating Backdoor Threats to Large Language Models: Advancement and Challenges [46.032173498399885]
大規模言語モデル(LLM)は、Web検索、ヘルスケア、ソフトウェア開発など、さまざまな領域に大きな影響を与えている。
これらのモデルがスケールするにつれて、サイバーセキュリティのリスク、特にバックドア攻撃に対する脆弱性が高まる。
論文 参考訳(メタデータ) (2024-09-30T06:31:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。