論文の概要: ExpGuard: LLM Content Moderation in Specialized Domains
- arxiv url: http://arxiv.org/abs/2603.02588v1
- Date: Tue, 03 Mar 2026 04:09:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 21:38:10.635113
- Title: ExpGuard: LLM Content Moderation in Specialized Domains
- Title(参考訳): ExpGuard: 専門ドメインにおけるLLMコンテンツモデレーション
- Authors: Minseok Choi, Dongjin Kim, Seungbin Yang, Subin Kim, Youngjun Kwak, Juyoung Oh, Jaegul Choo, Jungmin Son,
- Abstract要約: 現在のガードレールモデルは、一般的な人間とLLMの相互作用に主に対応している。
我々は,金融,医療,法的領域にまたがる有害なプロンプトや対応から保護するために設計された堅牢なガードレールモデルであるExpGuardを紹介する。
提案するExpGuardMixは,58,928個のラベル付きプロンプトと,対応する拒絶応答と対応応答のペアからなる,細かなキュレートされたデータセットである。
- 参考スコア(独自算出の注目度): 46.00867862478331
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the growing deployment of large language models (LLMs) in real-world applications, establishing robust safety guardrails to moderate their inputs and outputs has become essential to ensure adherence to safety policies. Current guardrail models predominantly address general human-LLM interactions, rendering LLMs vulnerable to harmful and adversarial content within domain-specific contexts, particularly those rich in technical jargon and specialized concepts. To address this limitation, we introduce ExpGuard, a robust and specialized guardrail model designed to protect against harmful prompts and responses across financial, medical, and legal domains. In addition, we present ExpGuardMix, a meticulously curated dataset comprising 58,928 labeled prompts paired with corresponding refusal and compliant responses, from these specific sectors. This dataset is divided into two subsets: ExpGuardTrain, for model training, and ExpGuardTest, a high-quality test set annotated by domain experts to evaluate model robustness against technical and domain-specific content. Comprehensive evaluations conducted on ExpGuardTest and eight established public benchmarks reveal that ExpGuard delivers competitive performance across the board while demonstrating exceptional resilience to domain-specific adversarial attacks, surpassing state-of-the-art models such as WildGuard by up to 8.9% in prompt classification and 15.3% in response classification. To encourage further research and development, we open-source our code, data, and model, enabling adaptation to additional domains and supporting the creation of increasingly robust guardrail models.
- Abstract(参考訳): 大規模言語モデル(LLM)を現実世界のアプリケーションに展開するにつれ、入力と出力を適度にするために堅牢な安全ガードレールを確立することが、安全ポリシーの遵守を保証するために不可欠になっている。
現在のガードレールモデルは一般的な人間とLLMの相互作用に主に対応しており、LLMはドメイン固有のコンテキスト、特に技術的な用語や特殊概念に富んだ有害で敵対的な内容に対して脆弱である。
この制限に対処するため,金融,医療,法的領域にまたがる有害なプロンプトや対応から保護するために設計された,堅牢で特殊なガードレールモデルであるExpGuardを紹介した。
さらに,これらのセクターから,58,928個のラベル付きプロンプトと対応する拒絶応答,従順応答をペアにまとめた厳密にキュレートされたデータセットExpGuardMixを提案する。
このデータセットは、モデルトレーニング用のExpGuardTrainと、ドメインの専門家によって注釈付けされた高品質なテストセットであるExpGuardTestの2つのサブセットに分けられ、技術的およびドメイン固有のコンテンツに対するモデルの堅牢性を評価する。
ExpGuardTestと8つの確立された公開ベンチマークで実施された総合的な評価によると、ExpGuardは、ドメイン固有の敵攻撃に対する例外的なレジリエンスを示し、WildGuardのような最先端のモデルを最大8.9%、応答分類で最大15.3%越えている。
さらなる研究と開発を促進するため、私たちはコード、データ、モデルをオープンソース化し、追加のドメインへの適応を可能にし、ますます堅牢なガードレールモデルの作成をサポートします。
関連論文リスト
- ProGuard: Towards Proactive Multimodal Safeguard [48.89789547707647]
ProGuardは視覚言語プロアクティブガードであり、アウト・オブ・ディストリビューション(OOD)の安全性リスクを特定し記述する。
まず,2次安全ラベルとリスクカテゴリの両方を付加した87Kサンプルのモダリティバランスデータセットを構築した。
次に、強化学習を通して視覚言語ベースモデルを純粋に訓練し、効率的かつ簡潔な推論を実現する。
論文 参考訳(メタデータ) (2025-12-29T16:13:23Z) - AprielGuard [2.3704817495377526]
既存のツールは、安全性のリスクを別の問題として扱い、堅牢性と一般化性を制限する。
AprielGuardは8Bパラメータ保護モデルで、これらの次元を単一の分類と学習フレームワークに統合する。
AprielGuardは有害なコンテンツの検出と敵の操作において高い性能を達成する。
論文 参考訳(メタデータ) (2025-12-23T12:01:32Z) - Protect: Towards Robust Guardrailing Stack for Trustworthy Enterprise LLM Systems [4.404101728634984]
Protectは、テキスト、画像、オーディオ入力間でシームレスに動作するように設計されたマルチモーダルガードレールモデルである。
Low-Rank Adaptation (LoRA)を通じてトレーニングされたカテゴリ固有のアダプタを、広範なマルチモーダルデータセットに統合する。
教師支援型アノテーションパイプラインは、推論と説明トレースを利用して、高忠実でコンテキスト対応なラベルを生成する。
論文 参考訳(メタデータ) (2025-10-15T09:40:24Z) - IntentionReasoner: Facilitating Adaptive LLM Safeguards through Intent Reasoning and Selective Query Refinement [35.904652937034136]
IntentionReasonerは、専用ガードモデルを利用して意図的推論を行う新しいセーフガード機構である。
IntentionReasonerは、複数のセーフガードベンチマーク、生成品質評価、ジェイルブレイク攻撃シナリオに優れています。
論文 参考訳(メタデータ) (2025-08-27T16:47:31Z) - Secure Tug-of-War (SecTOW): Iterative Defense-Attack Training with Reinforcement Learning for Multimodal Model Security [63.41350337821108]
マルチモーダル大規模言語モデル(MLLM)のセキュリティを高めるために,Secure Tug-of-War(SecTOW)を提案する。
SecTOWは2つのモジュールで構成される:ディフェンダーと補助攻撃者。どちらも強化学習(GRPO)を使用して反復的に訓練される。
SecTOWは、一般的な性能を維持しながら、セキュリティを大幅に改善することを示す。
論文 参考訳(メタデータ) (2025-07-29T17:39:48Z) - WebGuard: Building a Generalizable Guardrail for Web Agents [59.31116061613742]
WebGuardは、Webエージェントアクションリスクの評価をサポートするために設計された最初のデータセットである。
その中には、22のドメインにわたる193のWebサイトからの4,939の人手によるアノテートアクションが含まれている。
論文 参考訳(メタデータ) (2025-07-18T18:06:27Z) - GuardSet-X: Massive Multi-Domain Safety Policy-Grounded Guardrail Dataset [18.306944278068638]
ここでは、最初の大規模マルチドメイン安全ポリシー付きガードレールデータセットであるGuardSet-Xを紹介する。
GuardSet-Xは金融、法律、CodeGenといった8つのセーフティクリティカルドメインにまたがる広範なドメインカバレッジを提供する。
先進的なガードレールモデル19をベンチマークし、一連の結果を明らかにした。
論文 参考訳(メタデータ) (2025-06-18T01:35:33Z) - Crossing the Reward Bridge: Expanding RL with Verifiable Rewards Across Diverse Domains [92.36624674516553]
検証可能な報酬付き強化学習(RLVR)は、大規模言語モデル(LLM)の数学的推論と符号化性能の向上に成功している。
本稿では,医学,化学,心理学,経済学,教育など,さまざまな現実世界領域におけるRLVRの有効性と拡張性について検討する。
我々は,2値検証による制限を克服するために,ソフトなモデルに基づく報酬信号を生成する生成的スコアリング手法を利用する。
論文 参考訳(メタデータ) (2025-03-31T08:22:49Z) - RapGuard: Safeguarding Multimodal Large Language Models via Rationale-aware Defensive Prompting [7.0595410083835315]
RapGuardは、シナリオ固有の安全プロンプトを生成するために、マルチモーダル連鎖推論を使用する新しいフレームワークである。
RapGuardは最先端の安全性能を実現し、応答の品質を低下させることなく有害なコンテンツを著しく削減する。
論文 参考訳(メタデータ) (2024-12-25T08:31:53Z) - ShieldGemma: Generative AI Content Moderation Based on Gemma [49.91147965876678]
ShieldGemmaは、Gemma2上に構築された安全コンテンツモデレーションモデルのスイートである。
モデルは、主要な危険タイプにわたる安全リスクの堅牢で最先端の予測を提供する。
論文 参考訳(メタデータ) (2024-07-31T17:48:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。