論文の概要: A Call to Action for a Secure-by-Design Generative AI Paradigm
- arxiv url: http://arxiv.org/abs/2510.00451v1
- Date: Wed, 01 Oct 2025 03:05:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.345665
- Title: A Call to Action for a Secure-by-Design Generative AI Paradigm
- Title(参考訳): セキュア・バイ・デザイナ・ジェネレーティブ・AIパラダイムのためのアクション・コール
- Authors: Dalal Alharthi, Ivan Roberto Kawaminami Garcia,
- Abstract要約: 大規模言語モデル(LLM)は、インジェクションや他の敵攻撃に対して脆弱である。
本稿では,決定論的かつセキュアな対話を実現するフレームワークであるPromptShieldを紹介する。
その結果,モデルの安全性と性能が向上し,精度,リコール,F1スコアが約94%向上した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models have gained widespread prominence, yet their vulnerability to prompt injection and other adversarial attacks remains a critical concern. This paper argues for a security-by-design AI paradigm that proactively mitigates LLM vulnerabilities while enhancing performance. To achieve this, we introduce PromptShield, an ontology-driven framework that ensures deterministic and secure prompt interactions. It standardizes user inputs through semantic validation, eliminating ambiguity and mitigating adversarial manipulation. To assess PromptShield's security and performance capabilities, we conducted an experiment on an agent-based system to analyze cloud logs within Amazon Web Services (AWS), containing 493 distinct events related to malicious activities and anomalies. By simulating prompt injection attacks and assessing the impact of deploying PromptShield, our results demonstrate a significant improvement in model security and performance, achieving precision, recall, and F1 scores of approximately 94%. Notably, the ontology-based framework not only mitigates adversarial threats but also enhances the overall performance and reliability of the system. Furthermore, PromptShield's modular and adaptable design ensures its applicability beyond cloud security, making it a robust solution for safeguarding generative AI applications across various domains. By laying the groundwork for AI safety standards and informing future policy development, this work stimulates a crucial dialogue on the pivotal role of deterministic prompt engineering and ontology-based validation in ensuring the safe and responsible deployment of LLMs in high-stakes environments.
- Abstract(参考訳): 大規模な言語モデルは広く知られるようになったが、インジェクションや他の敵対的攻撃を促す脆弱性は依然として重要な問題である。
本稿では,LLMの脆弱性を積極的に軽減し,性能を向上するセキュリティ・バイ・デザインAIパラダイムを提案する。
そこで本研究では,決定論的かつセキュアな対話を実現するオントロジー駆動型フレームワークであるPromptShieldを紹介する。
セマンティック・バリデーションを通じてユーザ入力を標準化し、曖昧さを排除し、敵の操作を緩和する。
PromptShieldのセキュリティとパフォーマンスの能力を評価するために、Amazon Web Services(AWS)内のクラウドログを分析し、悪意のあるアクティビティや異常に関連する493のイベントを含むエージェントベースのシステムで実験を行った。
即時インジェクション攻撃のシミュレーションとPromptShieldのデプロイの影響評価により,モデルの安全性と性能が向上し,精度,リコール,F1スコアが約94%向上した。
特に、オントロジーベースのフレームワークは、敵の脅威を緩和するだけでなく、システム全体の性能と信頼性を高める。
さらに、PromptShieldのモジュールで適応可能な設計は、クラウドセキュリティを超えた適用性を保証する。
この研究は、AIの安全基準の基礎を築き、将来の政策開発を知らせることによって、高い環境におけるLSMの安全かつ責任ある展開を保証するために、決定論的急進的なエンジニアリングとオントロジーに基づく検証の重要な役割について重要な対話を刺激する。
関連論文リスト
- Enhancing Reliability in LLM-Integrated Robotic Systems: A Unified Approach to Security and Safety [6.3301898351857515]
大きな言語モデルをロボットシステムに統合することは、人工知能に革命をもたらした。
本稿では,運用安全を図りつつ,迅速なインジェクション攻撃を緩和する統合フレームワークを提案する。
当社のアプローチは,パフォーマンス指標とセキュリティ指標の両方を用いて評価された,迅速な組み立て,状態管理,安全性検証を組み合わせたものだ。
論文 参考訳(メタデータ) (2025-09-02T10:14:28Z) - Expert-in-the-Loop Systems with Cross-Domain and In-Domain Few-Shot Learning for Software Vulnerability Detection [38.083049237330826]
本研究では,CWE(Common Weaknessions)を用いたPythonコードの識別をシミュレーションすることにより,ソフトウェア脆弱性評価におけるLLM(Large Language Models)の利用について検討する。
その結果,ゼロショットプロンプトは性能が低いが,少数ショットプロンプトは分類性能を著しく向上させることがわかった。
モデル信頼性、解釈可能性、敵の堅牢性といった課題は、将来の研究にとって重要な領域のままである。
論文 参考訳(メタデータ) (2025-06-11T18:43:51Z) - RADEP: A Resilient Adaptive Defense Framework Against Model Extraction Attacks [6.6680585862156105]
モデル抽出攻撃防御(RADEP)のためのレジリエント・アダプティブ・ディフェンス・フレームワークについて紹介する。
RADEPは、抽出の試みに対するモデルレジリエンスを高めるために、プログレッシブ・逆行訓練を採用している。
オーナーシップ検証は、組み込みのウォーターマーキングとバックドアトリガーを通じて実施される。
論文 参考訳(メタデータ) (2025-05-25T23:28:05Z) - SafeAgent: Safeguarding LLM Agents via an Automated Risk Simulator [77.86600052899156]
LLM(Large Language Model)ベースのエージェントは、現実のアプリケーションにますますデプロイされる。
完全自動合成データ生成によるエージェント安全性を体系的に向上する最初のフレームワークであるAutoSafeを提案する。
AutoSafeは安全性のスコアを平均で45%向上させ、現実世界のタスクでは28.91%の改善を実現している。
論文 参考訳(メタデータ) (2025-05-23T10:56:06Z) - Exposing the Ghost in the Transformer: Abnormal Detection for Large Language Models via Hidden State Forensics [5.384257830522198]
重要なアプリケーションにおける大規模言語モデル(LLM)は、重大な信頼性とセキュリティリスクを導入している。
これらの脆弱性は悪意あるアクターによって武器化され、不正アクセス、広範囲にわたる誤報、システムの完全性を侵害した。
本研究では,LLMの異常な挙動を隠蔽法で検出する手法を提案する。
論文 参考訳(メタデータ) (2025-04-01T05:58:14Z) - Towards Trustworthy GUI Agents: A Survey [64.6445117343499]
本調査では,GUIエージェントの信頼性を5つの重要な次元で検証する。
敵攻撃に対する脆弱性、シーケンシャルな意思決定における障害モードのカスケードなど、大きな課題を特定します。
GUIエージェントが普及するにつれて、堅牢な安全基準と責任ある開発プラクティスを確立することが不可欠である。
論文 参考訳(メタデータ) (2025-03-30T13:26:00Z) - Tit-for-Tat: Safeguarding Large Vision-Language Models Against Jailbreak Attacks via Adversarial Defense [90.71884758066042]
大きな視覚言語モデル(LVLM)は、視覚入力による悪意のある攻撃に対する感受性という、ユニークな脆弱性を導入している。
本稿では,脆弱性発生源からアクティブ防衛機構へ視覚空間を変換するための新しい手法であるESIIIを提案する。
論文 参考訳(メタデータ) (2025-03-14T17:39:45Z) - Securing Federated Learning with Control-Flow Attestation: A Novel Framework for Enhanced Integrity and Resilience against Adversarial Attacks [2.28438857884398]
分散機械学習パラダイムとしてのフェデレートラーニング(FL)は、新たなサイバーセキュリティ課題を導入した。
本研究では,従来サイバーセキュリティに用いられてきた制御フロー(CFA)機構にインスパイアされた,革新的なセキュリティフレームワークを提案する。
我々は、ネットワーク全体にわたるモデル更新の完全性を認証し、検証し、モデル中毒や敵対的干渉に関連するリスクを効果的に軽減する。
論文 参考訳(メタデータ) (2024-03-15T04:03:34Z) - ASSERT: Automated Safety Scenario Red Teaming for Evaluating the
Robustness of Large Language Models [65.79770974145983]
ASSERT、Automated Safety Scenario Red Teamingは、セマンティックなアグリゲーション、ターゲットブートストラップ、敵の知識注入という3つの方法で構成されている。
このプロンプトを4つの安全領域に分割し、ドメインがモデルの性能にどのように影響するかを詳細に分析する。
統計的に有意な性能差は, 意味的関連シナリオにおける絶対分類精度が最大11%, ゼロショット逆数設定では最大19%の絶対誤差率であることがわかった。
論文 参考訳(メタデータ) (2023-10-14T17:10:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。