論文の概要: Unified Threat Detection and Mitigation Framework (UTDMF): Combating Prompt Injection, Deception, and Bias in Enterprise-Scale Transformers
- arxiv url: http://arxiv.org/abs/2510.04528v1
- Date: Mon, 06 Oct 2025 06:44:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.711975
- Title: Unified Threat Detection and Mitigation Framework (UTDMF): Combating Prompt Injection, Deception, and Bias in Enterprise-Scale Transformers
- Title(参考訳): Unified Threat Detection and Mitigation Framework (UTDMF):エンタープライズ・スケール・トランスフォーマーにおけるプロンプト・インジェクション・デセプション・バイアスの燃焼
- Authors: Santhosh KumarRavindran,
- Abstract要約: エンタープライズシステムにおける大規模言語モデル(LLM)は、インジェクション攻撃、戦略的偽装、バイアスのあるアウトプットといった脆弱性を暴露し、セキュリティ、信頼、公正性を脅かす。
我々は,Llama-3.1 (405B), GPT-4o, Claude-3.5などのエンタープライズグレードモデルのスケーラブルでリアルタイムなパイプラインであるUTDMF(Unified Threat Detection and Mitigation Framework)を紹介した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The rapid adoption of large language models (LLMs) in enterprise systems exposes vulnerabilities to prompt injection attacks, strategic deception, and biased outputs, threatening security, trust, and fairness. Extending our adversarial activation patching framework (arXiv:2507.09406), which induced deception in toy networks at a 23.9% rate, we introduce the Unified Threat Detection and Mitigation Framework (UTDMF), a scalable, real-time pipeline for enterprise-grade models like Llama-3.1 (405B), GPT-4o, and Claude-3.5. Through 700+ experiments per model, UTDMF achieves: (1) 92% detection accuracy for prompt injection (e.g., jailbreaking); (2) 65% reduction in deceptive outputs via enhanced patching; and (3) 78% improvement in fairness metrics (e.g., demographic bias). Novel contributions include a generalized patching algorithm for multi-threat detection, three groundbreaking hypotheses on threat interactions (e.g., threat chaining in enterprise workflows), and a deployment-ready toolkit with APIs for enterprise integration.
- Abstract(参考訳): エンタープライズシステムにおける大規模言語モデル(LLM)の急激な採用は、インジェクション攻撃、戦略的騙し、バイアスのあるアウトプットの促進、セキュリティ、信頼、公正性を脅かす脆弱性を公開する。
Llama-3.1 (405B), GPT-4o, Claude-3.5などのエンタープライズグレードモデルのスケーラブルでリアルタイムなパイプラインであるUTDMF(Unified Threat Detection and Mitigation Framework)を導入する。
UTDMFは1モデルあたり700以上の実験を通じて、(1)プロンプトインジェクション(例えばジェイルブレイク)の92%の精度、(2)パッチの強化による偽装出力の65%の削減、(3)公正度指標(例えば、人口統計バイアス)の78%の改善を実現している。
新たなコントリビューションには、マルチスレッド検出のための汎用パッチアルゴリズム、脅威インタラクション(例えば、エンタープライズワークフローにおける脅威連鎖)に関する3つの画期的な仮説、エンタープライズ統合のためのAPIを備えたデプロイメント対応ツールキットなどがある。
関連論文リスト
- DiffuGuard: How Intrinsic Safety is Lost and Found in Diffusion Large Language Models [50.21378052667732]
我々は、ステップ内およびステップ間ダイナミクスという2つの異なる次元にわたるジェイルブレイク攻撃に対して、dLLM脆弱性の詳細な分析を行う。
デュアルステージアプローチによる脆弱性に対処する,トレーニング不要な防御フレームワークであるDiffuGuardを提案する。
論文 参考訳(メタデータ) (2025-09-29T05:17:10Z) - Securing LLM-Generated Embedded Firmware through AI Agent-Driven Validation and Patching [0.9582466286528458]
大規模言語モデル(LLM)は組み込みシステムのためのファームウェアの生成を約束するが、しばしばセキュリティ上の欠陥を導入し、リアルタイムのパフォーマンス制約を満たさない。
本稿では,LLMベースのファームウェア生成と自動セキュリティ検証,反復的改善を組み合わせた3段階手法を提案する。
論文 参考訳(メタデータ) (2025-09-12T05:15:35Z) - Mind the Gap: Time-of-Check to Time-of-Use Vulnerabilities in LLM-Enabled Agents [4.303444472156151]
大規模言語モデル(LLM)対応エージェントは、広範囲のアプリケーションで急速に出現している。
本研究は,LSM対応エージェントにおけるTOCTOU(time-of-use)脆弱性に関する最初の研究である。
我々は,このタイプの脆弱性を評価するために設計された,66の現実的なユーザタスクを備えたベンチマークTOCTOU-Benchを紹介する。
論文 参考訳(メタデータ) (2025-08-23T22:41:49Z) - When Developer Aid Becomes Security Debt: A Systematic Analysis of Insecure Behaviors in LLM Coding Agents [1.7587442088965226]
LLMベースのコーディングエージェントは、急速にソフトウェア開発にデプロイされているが、その安全性への影響はよく分かっていない。
我々は,5つの最先端モデルにわたる12,000以上のアクションを解析し,自律型符号化エージェントの最初の系統的安全性評価を行った。
我々は,4つの主要な脆弱性を識別する高精度検出システムを開発した。
論文 参考訳(メタデータ) (2025-07-12T16:11:07Z) - Bridging AI and Software Security: A Comparative Vulnerability Assessment of LLM Agent Deployment Paradigms [1.03121181235382]
大規模言語モデル(LLM)エージェントは、AI固有の旧来のソフトウェアドメインにまたがるセキュリティ上の脆弱性に直面している。
本研究では,Function Calling アーキテクチャと Model Context Protocol (MCP) デプロイメントパラダイムの比較評価を通じて,このギャップを埋める。
私たちは7つの言語モデルにわたる3,250の攻撃シナリオをテストし、AI固有の脅威とソフトウェア脆弱性の両方を対象として、シンプルで、構成され、連鎖した攻撃を評価しました。
論文 参考訳(メタデータ) (2025-07-08T18:24:28Z) - T2V-OptJail: Discrete Prompt Optimization for Text-to-Video Jailbreak Attacks [67.91652526657599]
我々は、T2Vジェイルブレイク攻撃を離散最適化問題として定式化し、T2V-OptJailと呼ばれる共同目的ベース最適化フレームワークを提案する。
いくつかのT2Vモデルに対して大規模な実験を行い、オープンソースモデルと実際の商用クローズドソースモデルの両方をカバーする。
提案手法は,攻撃成功率の観点から既存手法よりも11.4%,10.0%向上する。
論文 参考訳(メタデータ) (2025-05-10T16:04:52Z) - AegisLLM: Scaling Agentic Systems for Self-Reflective Defense in LLM Security [74.22452069013289]
AegisLLMは、敵の攻撃や情報漏洩に対する協調的なマルチエージェント防御である。
テスト時のエージェント推論システムのスケーリングは,モデルの有用性を損なうことなく,ロバスト性を大幅に向上させることを示す。
アンラーニングやジェイルブレイクを含む主要な脅威シナリオに対する総合的な評価は、AegisLLMの有効性を示している。
論文 参考訳(メタデータ) (2025-04-29T17:36:05Z) - T2VShield: Model-Agnostic Jailbreak Defense for Text-to-Video Models [88.63040835652902]
テキストからビデオモデルへの攻撃はジェイルブレイク攻撃に弱いため、特別な方法で安全メカニズムをバイパスし、有害または安全でないコンテンツの生成につながる。
我々は、ジェイルブレイクの脅威からテキストからビデオモデルを守るために設計された包括的でモデルに依存しない防衛フレームワークであるT2VShieldを提案する。
本手法は,既存の防御の限界を特定するために,入力,モデル,出力の段階を体系的に解析する。
論文 参考訳(メタデータ) (2025-04-22T01:18:42Z) - MOS: Towards Effective Smart Contract Vulnerability Detection through Mixture-of-Experts Tuning of Large Language Models [16.16186929130931]
スマートコントラクトの脆弱性は、ブロックチェーンシステムに重大なセキュリティリスクをもたらす。
本稿では,大規模言語モデルのミックス・オブ・エキスパート・チューニング(MOE-Tuning)に基づくスマートコントラクト脆弱性検出フレームワークを提案する。
実験の結果、MOSはF1のスコアが6.32%、精度が4.80%の平均的な改善で既存の手法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2025-04-16T16:33:53Z) - G$^2$uardFL: Safeguarding Federated Learning Against Backdoor Attacks
through Attributed Client Graph Clustering [116.4277292854053]
Federated Learning (FL)は、データ共有なしで協調的なモデルトレーニングを提供する。
FLはバックドア攻撃に弱いため、有害なモデル重みがシステムの整合性を損なう。
本稿では、悪意のあるクライアントの識別を属性グラフクラスタリング問題として再解釈する保護フレームワークであるG$2$uardFLを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:15:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。