論文の概要: OpenGuardrails: A Configurable, Unified, and Scalable Guardrails Platform for Large Language Models
- arxiv url: http://arxiv.org/abs/2510.19169v2
- Date: Wed, 29 Oct 2025 03:17:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-30 13:34:45.411678
- Title: OpenGuardrails: A Configurable, Unified, and Scalable Guardrails Platform for Large Language Models
- Title(参考訳): OpenGuardrails: 大規模言語モデルのための構成可能、統一、スケーラブルなガードレールプラットフォーム
- Authors: Thomas Wang, Haowen Li,
- Abstract要約: OpenGuardrailsは、大規模なモデルベースの安全性検出、操作防御、デプロイ可能なガードレールインフラストラクチャを統合する、最初の完全なオープンソースプラットフォームです。
OpenGuardrailsは,(1)有害なテキスト生成や明示的なテキスト生成などのコンテンツ安全違反,(2)迅速なインジェクション,ジェイルブレイク,コード・インタプリタの乱用を含むモデル操作攻撃,(3)機密情報や個人情報を含むデータ漏洩,という3つの主要なリスクに対して保護されている。
- 参考スコア(独自算出の注目度): 3.3252656373741547
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As large language models (LLMs) are increasingly integrated into real-world applications, ensuring their safety, robustness, and privacy compliance has become critical. We present OpenGuardrails, the first fully open-source platform that unifies large-model-based safety detection, manipulation defense, and deployable guardrail infrastructure. OpenGuardrails protects against three major classes of risks: (1) content-safety violations such as harmful or explicit text generation, (2) model-manipulation attacks including prompt injection, jailbreaks, and code-interpreter abuse, and (3) data leakage involving sensitive or private information. Unlike prior modular or rule-based frameworks, OpenGuardrails introduces three core innovations: (1) a Configurable Policy Adaptation mechanism that allows per-request customization of unsafe categories and sensitivity thresholds; (2) a Unified LLM-based Guard Architecture that performs both content-safety and manipulation detection within a single model; and (3) a Quantized, Scalable Model Design that compresses a 14B dense base model to 3.3B via GPTQ while preserving over 98 of benchmark accuracy. The system supports 119 languages, achieves state-of-the-art performance across multilingual safety benchmarks, and can be deployed as a secure gateway or API-based service for enterprise use. All models, datasets, and deployment scripts are released under the Apache 2.0 license.
- Abstract(参考訳): 大規模言語モデル(LLM)が現実のアプリケーションに統合されるにつれて、安全性、堅牢性、プライバシコンプライアンスが重要になっている。
OpenGuardrailsは、大規模なモデルベースの安全性検出、操作防御、デプロイ可能なガードレールインフラストラクチャを統合する、最初の完全なオープンソースプラットフォームです。
OpenGuardrailsは,(1)有害なテキスト生成や明示的なテキスト生成などのコンテンツ安全違反,(2)迅速なインジェクション,ジェイルブレイク,コード・インタープリタの悪用を含むモデル操作攻撃,(3)機密情報や個人情報を含むデータ漏洩,という3つの主要なリスクに対して保護されている。
従来のモジュールやルールベースのフレームワークとは異なり、OpenGuardrailsでは、(1)安全でないカテゴリと感度閾値の要求ごとのカスタマイズを可能にする設定可能なポリシー適応機構、(2)単一のモデル内でコンテントセーフ性と操作検出の両方を実行する統一LLMベースのガードアーキテクチャ、(3)14Bの高密度ベースモデルをGPTQ経由で3.3Bに圧縮する量子化スケーラブルモデル設計の3つの中心的なイノベーションを紹介している。
このシステムは119言語をサポートし、マルチ言語安全ベンチマークで最先端のパフォーマンスを実現し、セキュアなゲートウェイやAPIベースのサービスとしてエンタープライズ用途にデプロイすることができる。
すべてのモデル、データセット、デプロイメントスクリプトは、Apache 2.0ライセンスでリリースされている。
関連論文リスト
- Qwen3Guard Technical Report [127.69960525219051]
Qwen3Guardは、多言語安全ガードレールモデルである。
生成的Qwen3Guardは、きめ細かい三級判定を可能にする命令追従タスクとして安全分類をキャストする。
Stream Qwen3Guardは、リアルタイム安全監視のためのトークンレベルの分類ヘッドを導入している。
論文 参考訳(メタデータ) (2025-10-16T04:00:18Z) - Bag of Tricks for Subverting Reasoning-based Safety Guardrails [62.139297207938036]
推論に基づくガードレールを覆い隠すジェイルブレイク手法の袋を提示する。
攻撃対象は白、グレー、ブラックボックスの設定で、無駄なテンプレート操作から完全に自動化された最適化までさまざまです。
論文 参考訳(メタデータ) (2025-10-13T16:16:44Z) - Secure Tug-of-War (SecTOW): Iterative Defense-Attack Training with Reinforcement Learning for Multimodal Model Security [63.41350337821108]
マルチモーダル大規模言語モデル(MLLM)のセキュリティを高めるために,Secure Tug-of-War(SecTOW)を提案する。
SecTOWは2つのモジュールで構成される:ディフェンダーと補助攻撃者。どちらも強化学習(GRPO)を使用して反復的に訓練される。
SecTOWは、一般的な性能を維持しながら、セキュリティを大幅に改善することを示す。
論文 参考訳(メタデータ) (2025-07-29T17:39:48Z) - LlamaFirewall: An open source guardrail system for building secure AI agents [0.5603362829699733]
大規模言語モデル(LLM)は、単純なチャットボットから複雑なタスクを実行できる自律エージェントへと進化してきた。
リスクを軽減するための決定論的解決策が欠如していることを考えると、リアルタイムガードレールモニターが不可欠である。
私たちはオープンソースのセキュリティにフォーカスしたガードレールフレームワークであるLlamaFirewallを紹介します。
論文 参考訳(メタデータ) (2025-05-06T14:34:21Z) - Output Constraints as Attack Surface: Exploiting Structured Generation to Bypass LLM Safety Mechanisms [0.9091225937132784]
我々は、従来のデータプレーンの脆弱性に対して、重要な制御プレーン攻撃面を明らかにする。
本稿では、構造的出力制約を武器として安全機構をバイパスする新しいジェイルブレイククラスであるConstrained Decoding Attackを紹介する。
本研究は, 現状のLLMアーキテクチャにおける重要なセキュリティ盲点を明らかにし, 制御面脆弱性に対処するため, LLM安全性のパラダイムシフトを促すものである。
論文 参考訳(メタデータ) (2025-03-31T15:08:06Z) - Zero-Trust Artificial Intelligence Model Security Based on Moving Target Defense and Content Disarm and Reconstruction [4.0208298639821525]
本稿では,モデル動物園とファイル転送機構を通じてAIモデルを配布する際の課題について検討する。
モデルファイルの物理的なセキュリティは重要であり、厳格なアクセス制御とアタック防止ソリューションを必要とする。
これは、既知のAIモデルリポジトリとHuggingFaceモデル動物園からの実際のマルウェア攻撃に対して検証されている間、100%の武装解除率を示す。
論文 参考訳(メタデータ) (2025-03-03T17:32:19Z) - TrustRAG: Enhancing Robustness and Trustworthiness in Retrieval-Augmented Generation [31.231916859341865]
TrustRAGは、生成のために取得される前に、悪意のある、無関係なコンテンツを体系的にフィルタリングするフレームワークである。
TrustRAGは、検索精度、効率、攻撃抵抗を大幅に改善する。
論文 参考訳(メタデータ) (2025-01-01T15:57:34Z) - AlignGuard: Scalable Safety Alignment for Text-to-Image Generation [68.07258248467309]
Text-to-image (T2I) モデルは広く使われているが、その限られた安全ガードレールはエンドユーザを有害なコンテンツに晒し、モデル誤用を許容する可能性がある。
本稿では,T2Iモデルの安全アライメント手法であるAlignGuardを紹介する。
論文 参考訳(メタデータ) (2024-12-13T18:59:52Z) - CoreGuard: Safeguarding Foundational Capabilities of LLMs Against Model Stealing in Edge Deployment [66.72332011814183]
CoreGuardは、エッジデバイスにデプロイされるプロプライエタリな大規模言語モデル(LLM)の計算と通信効率の保護方法である。
CoreGuardは効率的な保護プロトコルを使用して、計算オーバーヘッドを削減し、伝搬プロトコルによる通信オーバーヘッドを最小限にする。
論文 参考訳(メタデータ) (2024-10-16T08:14:24Z) - TransLinkGuard: Safeguarding Transformer Models Against Model Stealing in Edge Deployment [34.8682729537795]
エッジデバイス上でのモデル盗難に対するプラグアンドプレイモデル保護手法であるTransLinkGuardを提案する。
TransLinkGuardの中核となるのは、セキュアな環境にある軽量の認証モジュールである。
大規模な実験によると、TransLinkGuardはブラックボックスのセキュリティ保証と同じセキュリティ保護を無視可能なオーバーヘッドで達成している。
論文 参考訳(メタデータ) (2024-04-17T07:08:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。