論文の概要: Protect: Towards Robust Guardrailing Stack for Trustworthy Enterprise LLM Systems
- arxiv url: http://arxiv.org/abs/2510.13351v1
- Date: Wed, 15 Oct 2025 09:40:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.601858
- Title: Protect: Towards Robust Guardrailing Stack for Trustworthy Enterprise LLM Systems
- Title(参考訳): Protect: 信頼できるエンタープライズLLMシステムのためのロバストガードレールスタックを目指して
- Authors: Karthik Avinash, Nikhil Pareek, Rishav Hada,
- Abstract要約: Protectは、テキスト、画像、オーディオ入力間でシームレスに動作するように設計されたマルチモーダルガードレールモデルである。
Low-Rank Adaptation (LoRA)を通じてトレーニングされたカテゴリ固有のアダプタを、広範なマルチモーダルデータセットに統合する。
教師支援型アノテーションパイプラインは、推論と説明トレースを利用して、高忠実でコンテキスト対応なラベルを生成する。
- 参考スコア(独自算出の注目度): 4.404101728634984
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The increasing deployment of Large Language Models (LLMs) across enterprise and mission-critical domains has underscored the urgent need for robust guardrailing systems that ensure safety, reliability, and compliance. Existing solutions often struggle with real-time oversight, multi-modal data handling, and explainability -- limitations that hinder their adoption in regulated environments. Existing guardrails largely operate in isolation, focused on text alone making them inadequate for multi-modal, production-scale environments. We introduce Protect, natively multi-modal guardrailing model designed to operate seamlessly across text, image, and audio inputs, designed for enterprise-grade deployment. Protect integrates fine-tuned, category-specific adapters trained via Low-Rank Adaptation (LoRA) on an extensive, multi-modal dataset covering four safety dimensions: toxicity, sexism, data privacy, and prompt injection. Our teacher-assisted annotation pipeline leverages reasoning and explanation traces to generate high-fidelity, context-aware labels across modalities. Experimental results demonstrate state-of-the-art performance across all safety dimensions, surpassing existing open and proprietary models such as WildGuard, LlamaGuard-4, and GPT-4.1. Protect establishes a strong foundation for trustworthy, auditable, and production-ready safety systems capable of operating across text, image, and audio modalities.
- Abstract(参考訳): 企業やミッションクリティカルなドメインにまたがる大規模言語モデル(LLM)のデプロイの増加は、安全性、信頼性、コンプライアンスを保証する堅牢なガードレールシステムに対する緊急の必要性を浮き彫りにした。
既存のソリューションは、しばしば、リアルタイムの監視、マルチモーダルなデータハンドリング、説明可能性に苦しむ。
既存のガードレールは独立して運用されており、テキストのみに重点を置いているため、マルチモーダルでプロダクションスケールの環境では不十分である。
エンタープライズグレードのデプロイメント用に設計されたテキスト、画像、オーディオ入力をシームレスに操作するために設計された、ネイティブにマルチモーダルなガードレールモデルであるProtectを導入する。
Protectは、Low-Rank Adaptation (LoRA)を通じてトレーニングされた、微調整されたカテゴリ固有のアダプタを、毒性、性差別、データプライバシ、プロンプトインジェクションの4つの安全性次元をカバーする、広範なマルチモーダルデータセットに統合する。
教師支援型アノテーションパイプラインは、推論と説明のトレースを利用して、モダリティをまたいだ高忠実でコンテキスト対応なラベルを生成する。
実験結果は、WildGuard、LlamaGuard-4、GPT-4.1といった既存のオープンでプロプライエタリなモデルを上回る、あらゆる安全次元における最先端のパフォーマンスを示している。
Protectは、テキスト、画像、オーディオのモダリティをまたいで動作可能な、信頼できる、監査可能な、プロダクション対応の安全システムのための強力な基盤を確立する。
関連論文リスト
- Secure Tug-of-War (SecTOW): Iterative Defense-Attack Training with Reinforcement Learning for Multimodal Model Security [63.41350337821108]
マルチモーダル大規模言語モデル(MLLM)のセキュリティを高めるために,Secure Tug-of-War(SecTOW)を提案する。
SecTOWは2つのモジュールで構成される:ディフェンダーと補助攻撃者。どちらも強化学習(GRPO)を使用して反復的に訓練される。
SecTOWは、一般的な性能を維持しながら、セキュリティを大幅に改善することを示す。
論文 参考訳(メタデータ) (2025-07-29T17:39:48Z) - Automating Steering for Safe Multimodal Large Language Models [58.36932318051907]
基礎モデルの微調整を必要とせず,モジュール型かつ適応型推論時間介入技術であるAutoSteerを導入する。
AutoSteerは,(1)モデル内部層間の最も安全性に関連のある識別を自動的に行う新しい安全意識スコア(SAS),(2)中間表現から有害な出力の可能性を推定するために訓練された適応安全プローバ,(3)安全性のリスクが検出された場合に生成を選択的に介入する軽量な拒絶ヘッドの3つのコアコンポーネントを組み込んだ。
論文 参考訳(メタデータ) (2025-07-17T16:04:55Z) - Understanding and Benchmarking the Trustworthiness in Multimodal LLMs for Video Understanding [59.50808215134678]
この研究では、23の最先端のビデオLLMを評価する最初の総合的なベンチマークであるTrust-videoLLMを紹介した。
その結果、動的シーン理解、クロスモーダルレジリエンス、現実世界のリスク軽減において、大きな制限が示された。
論文 参考訳(メタデータ) (2025-06-14T04:04:54Z) - Do We Really Need Curated Malicious Data for Safety Alignment in Multi-modal Large Language Models? [83.53005932513155]
MLLM(Multi-modal large language model)は大きな進歩を遂げているが、その安全性は依然として限られている。
そこで我々は, 単純明快な拒絶文に代えて, 少数の良性命令追従データに対して, MLLMを微調整する手法を提案する。
論文 参考訳(メタデータ) (2025-04-14T09:03:51Z) - Rethinking Bottlenecks in Safety Fine-Tuning of Vision Language Models [25.606641582511106]
モデル性能を向上させるために,マルチイメージ入力と安全チェーン・オブ・ソート(CoT)ラベルを微粒な推論ロジックとして統合する新しいデータセットを提案する。
実験の結果,MISを用いた微調整InternVL2.5-8Bは,マルチイメージタスクに挑戦する上で,強力なオープンソースモデルとAPIベースモデルの両方を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2025-01-30T17:59:45Z) - RapGuard: Safeguarding Multimodal Large Language Models via Rationale-aware Defensive Prompting [7.0595410083835315]
RapGuardは、シナリオ固有の安全プロンプトを生成するために、マルチモーダル連鎖推論を使用する新しいフレームワークである。
RapGuardは最先端の安全性能を実現し、応答の品質を低下させることなく有害なコンテンツを著しく削減する。
論文 参考訳(メタデータ) (2024-12-25T08:31:53Z) - A Flexible Large Language Models Guardrail Development Methodology Applied to Off-Topic Prompt Detection [0.0]
大規模言語モデル(LLM)は、ユーザがこれらのモデルに対して、意図した範囲を超えてタスクを実行するように促すという、オフトピー的な誤用を招きやすい。
現行のガードレールは、高い偽陽性率、限られた適応性、およびプレプロダクションでは利用できない実世界のデータを必要とする非現実性に悩まされている。
これらの課題に対処するフレキシブルでデータフリーなガードレール開発手法を導入します。
論文 参考訳(メタデータ) (2024-11-20T00:31:23Z) - A Middle Path for On-Premises LLM Deployment: Preserving Privacy Without Sacrificing Model Confidentiality [20.646221081945523]
プライバシに敏感なユーザは、自身のインフラストラクチャ(オンプレミス)に大規模な言語モデル(LLM)をデプロイして、プライベートデータの保護とカスタマイズを可能にする必要がある。
小型モデルの従来の研究は、モデルの機密性とカスタマイズのバランスをとるために、ハードウェアがセキュアなデバイス内の出力層のみを確保することを模索してきた。
SOLIDはセキュアな環境下でいくつかのボトム層を確保する新しいデプロイメントフレームワークであり、トレードオフを最適化するための効率的なメトリクスを導入します。
論文 参考訳(メタデータ) (2024-10-15T02:00:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。