論文の概要: OpenGuardrails: An Open-Source Context-Aware AI Guardrails Platform
- arxiv url: http://arxiv.org/abs/2510.19169v1
- Date: Wed, 22 Oct 2025 02:02:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:14.927222
- Title: OpenGuardrails: An Open-Source Context-Aware AI Guardrails Platform
- Title(参考訳): OpenGuardrails: オープンソースのコンテキスト対応AIガードレールプラットフォーム
- Authors: Thomas Wang, Haowen Li,
- Abstract要約: OpenGuardrailsは、コンテキスト対応の安全性と操作検出モデルを提供する、最初のオープンソースプロジェクトです。
OpenGuardrailsは、コンテンツ安全リスク、モデル操作攻撃、データ漏洩を防止する。
システムはセキュリティゲートウェイやAPIベースのサービスとしてデプロイできる。
- 参考スコア(独自算出の注目度): 3.3252656373741547
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As large language models (LLMs) become increasingly integrated into real-world applications, safeguarding them against unsafe, malicious, or privacy-violating content is critically important. We present OpenGuardrails, the first open-source project to provide both a context-aware safety and manipulation detection model and a deployable platform for comprehensive AI guardrails. OpenGuardrails protects against content-safety risks, model-manipulation attacks (e.g., prompt injection, jailbreaking, code-interpreter abuse, and the generation/execution of malicious code), and data leakage. Content-safety and model-manipulation detection are implemented by a unified large model, while data-leakage identification and redaction are performed by a separate lightweight NER pipeline (e.g., Presidio-style models or regex-based detectors). The system can be deployed as a security gateway or an API-based service, with enterprise-grade, fully private deployment options. OpenGuardrails achieves state-of-the-art (SOTA) performance on safety benchmarks, excelling in both prompt and response classification across English, Chinese, and multilingual tasks. All models are released under the Apache 2.0 license for public use.
- Abstract(参考訳): 大規模言語モデル(LLM)が現実世界のアプリケーションにますます統合されるにつれて、安全でない、悪意のある、あるいはプライバシーを侵害するコンテンツから保護することが重要である。
私たちはOpenGuardrailsを紹介します。これは、コンテキスト認識の安全性と操作検出モデルと、包括的なAIガードレールのためのデプロイ可能なプラットフォームの両方を提供する、最初のオープンソースプロジェクトです。
OpenGuardrailsは、コンテンツ安全リスク、モデル操作攻撃(即時インジェクション、ジェイルブレイク、コード解釈の乱用、悪意のあるコードの生成/実行など)、データ漏洩に対して保護する。
コンテントセーフティとモデル操作検出は、統一された大モデルによって実装され、データ推論の識別とリアクションは、独立した軽量NERパイプライン(例えば、PresidioスタイルのモデルまたはRegexベースの検出器)によって実行される。
システムはセキュリティゲートウェイやAPIベースのサービスとしてデプロイできる。
OpenGuardrailsは、安全ベンチマークにおける最先端(SOTA)のパフォーマンスを実現し、英語、中国語、多言語タスクのプロンプトとレスポンスの分類に優れています。
すべてのモデルは、パブリック使用のためにApache 2.0ライセンスでリリースされている。
関連論文リスト
- Qwen3Guard Technical Report [127.69960525219051]
Qwen3Guardは、多言語安全ガードレールモデルである。
生成的Qwen3Guardは、きめ細かい三級判定を可能にする命令追従タスクとして安全分類をキャストする。
Stream Qwen3Guardは、リアルタイム安全監視のためのトークンレベルの分類ヘッドを導入している。
論文 参考訳(メタデータ) (2025-10-16T04:00:18Z) - Bag of Tricks for Subverting Reasoning-based Safety Guardrails [62.139297207938036]
推論に基づくガードレールを覆い隠すジェイルブレイク手法の袋を提示する。
攻撃対象は白、グレー、ブラックボックスの設定で、無駄なテンプレート操作から完全に自動化された最適化までさまざまです。
論文 参考訳(メタデータ) (2025-10-13T16:16:44Z) - Secure Tug-of-War (SecTOW): Iterative Defense-Attack Training with Reinforcement Learning for Multimodal Model Security [63.41350337821108]
マルチモーダル大規模言語モデル(MLLM)のセキュリティを高めるために,Secure Tug-of-War(SecTOW)を提案する。
SecTOWは2つのモジュールで構成される:ディフェンダーと補助攻撃者。どちらも強化学習(GRPO)を使用して反復的に訓練される。
SecTOWは、一般的な性能を維持しながら、セキュリティを大幅に改善することを示す。
論文 参考訳(メタデータ) (2025-07-29T17:39:48Z) - LlamaFirewall: An open source guardrail system for building secure AI agents [0.5603362829699733]
大規模言語モデル(LLM)は、単純なチャットボットから複雑なタスクを実行できる自律エージェントへと進化してきた。
リスクを軽減するための決定論的解決策が欠如していることを考えると、リアルタイムガードレールモニターが不可欠である。
私たちはオープンソースのセキュリティにフォーカスしたガードレールフレームワークであるLlamaFirewallを紹介します。
論文 参考訳(メタデータ) (2025-05-06T14:34:21Z) - Output Constraints as Attack Surface: Exploiting Structured Generation to Bypass LLM Safety Mechanisms [0.9091225937132784]
我々は、従来のデータプレーンの脆弱性に対して、重要な制御プレーン攻撃面を明らかにする。
本稿では、構造的出力制約を武器として安全機構をバイパスする新しいジェイルブレイククラスであるConstrained Decoding Attackを紹介する。
本研究は, 現状のLLMアーキテクチャにおける重要なセキュリティ盲点を明らかにし, 制御面脆弱性に対処するため, LLM安全性のパラダイムシフトを促すものである。
論文 参考訳(メタデータ) (2025-03-31T15:08:06Z) - Zero-Trust Artificial Intelligence Model Security Based on Moving Target Defense and Content Disarm and Reconstruction [4.0208298639821525]
本稿では,モデル動物園とファイル転送機構を通じてAIモデルを配布する際の課題について検討する。
モデルファイルの物理的なセキュリティは重要であり、厳格なアクセス制御とアタック防止ソリューションを必要とする。
これは、既知のAIモデルリポジトリとHuggingFaceモデル動物園からの実際のマルウェア攻撃に対して検証されている間、100%の武装解除率を示す。
論文 参考訳(メタデータ) (2025-03-03T17:32:19Z) - TrustRAG: Enhancing Robustness and Trustworthiness in Retrieval-Augmented Generation [31.231916859341865]
TrustRAGは、生成のために取得される前に、悪意のある、無関係なコンテンツを体系的にフィルタリングするフレームワークである。
TrustRAGは、検索精度、効率、攻撃抵抗を大幅に改善する。
論文 参考訳(メタデータ) (2025-01-01T15:57:34Z) - AlignGuard: Scalable Safety Alignment for Text-to-Image Generation [68.07258248467309]
Text-to-image (T2I) モデルは広く使われているが、その限られた安全ガードレールはエンドユーザを有害なコンテンツに晒し、モデル誤用を許容する可能性がある。
本稿では,T2Iモデルの安全アライメント手法であるAlignGuardを紹介する。
論文 参考訳(メタデータ) (2024-12-13T18:59:52Z) - CoreGuard: Safeguarding Foundational Capabilities of LLMs Against Model Stealing in Edge Deployment [66.72332011814183]
CoreGuardは、エッジデバイスにデプロイされるプロプライエタリな大規模言語モデル(LLM)の計算と通信効率の保護方法である。
CoreGuardは効率的な保護プロトコルを使用して、計算オーバーヘッドを削減し、伝搬プロトコルによる通信オーバーヘッドを最小限にする。
論文 参考訳(メタデータ) (2024-10-16T08:14:24Z) - TransLinkGuard: Safeguarding Transformer Models Against Model Stealing in Edge Deployment [34.8682729537795]
エッジデバイス上でのモデル盗難に対するプラグアンドプレイモデル保護手法であるTransLinkGuardを提案する。
TransLinkGuardの中核となるのは、セキュアな環境にある軽量の認証モジュールである。
大規模な実験によると、TransLinkGuardはブラックボックスのセキュリティ保証と同じセキュリティ保護を無視可能なオーバーヘッドで達成している。
論文 参考訳(メタデータ) (2024-04-17T07:08:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。