論文の概要: MrGuard: A Multilingual Reasoning Guardrail for Universal LLM Safety
- arxiv url: http://arxiv.org/abs/2504.15241v2
- Date: Tue, 20 May 2025 16:49:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:52.05475
- Title: MrGuard: A Multilingual Reasoning Guardrail for Universal LLM Safety
- Title(参考訳): ユニバーサルLLM安全のための多言語共振ガードレールMrGuard
- Authors: Yahan Yang, Soham Dan, Shuo Li, Dan Roth, Insup Lee,
- Abstract要約: 大規模言語モデル(LLM)は、ジェイルブレイクのような敵の攻撃を受けやすい。
この脆弱性は、多言語セーフティアライメントされたデータが制限される多言語設定で悪化する。
素早い分類のための多言語ガードレールを提案する。
- 参考スコア(独自算出の注目度): 56.79292318645454
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) are susceptible to adversarial attacks such as jailbreaking, which can elicit harmful or unsafe behaviors. This vulnerability is exacerbated in multilingual settings, where multilingual safety-aligned data is often limited. Thus, developing a guardrail capable of detecting and filtering unsafe content across diverse languages is critical for deploying LLMs in real-world applications. In this work, we introduce a multilingual guardrail with reasoning for prompt classification. Our method consists of: (1) synthetic multilingual data generation incorporating culturally and linguistically nuanced variants, (2) supervised fine-tuning, and (3) a curriculum-based Group Relative Policy Optimization (GRPO) framework that further improves performance. Experimental results demonstrate that our multilingual guardrail, MrGuard, consistently outperforms recent baselines across both in-domain and out-of-domain languages by more than 15%. We also evaluate MrGuard's robustness to multilingual variations, such as code-switching and low-resource language distractors in the prompt, and demonstrate that it preserves safety judgments under these challenging conditions. The multilingual reasoning capability of our guardrail enables it to generate explanations, which are particularly useful for understanding language-specific risks and ambiguities in multilingual content moderation.
- Abstract(参考訳): 大規模言語モデル(LLM)は、有害または安全でない振る舞いを誘発するジェイルブレイクのような敵の攻撃に影響を受けやすい。
この脆弱性は、多言語セーフティアライメントされたデータが制限される多言語設定で悪化する。
したがって、様々な言語で安全でないコンテンツを検出・フィルタリングできるガードレールの開発は、現実のアプリケーションにLLMをデプロイする上で非常に重要である。
本研究では,素早い分類のための多言語ガードレールを提案する。
提案手法は,(1)文化的・言語学的に曖昧な変種を取り入れた合成多言語データ生成,(2)教師付き微調整,(3)さらに性能を向上させるためのカリキュラムベースのグループ相対政策最適化(GRPO)フレームワークからなる。
実験の結果、多言語ガードレールであるMrGuardは、ドメイン内言語とドメイン外言語の両方で、最近のベースラインを15%以上上回っていることがわかった。
また、コードスイッチングや低リソース言語インタプリタなどの多言語変異に対するMrGuardの堅牢性を評価し、これらの困難条件下での安全性判断の維持を実証する。
ガードレールの多言語推論能力は,多言語コンテンツモデレーションにおける言語固有のリスクやあいまいさを理解するのに特に有用である。
関連論文リスト
- X-Guard: Multilingual Guard Agent for Content Moderation [8.233872344445675]
X-Guardは、多様な言語コンテキストにまたがるコンテンツモデレーションを提供するために設計された透明な多言語安全エージェントである。
弊社のアプローチは、複数のオープンソースの安全データセットを、明確な評価の根拠でキュレートし、拡張することを含む。
実験により,X-Guardが複数言語にわたる安全でないコンテンツの検出に有効であることを実証した。
論文 参考訳(メタデータ) (2025-04-11T01:58:06Z) - Benchmarking LLM Guardrails in Handling Multilingual Toxicity [57.296161186129545]
7つのデータセットと10以上の言語にまたがる包括的な多言語テストスイートを導入し、最先端ガードレールのパフォーマンスをベンチマークする。
近年の脱獄技術に対するガードレールの弾力性について検討し,ガードレールの性能に及ぼすコンテキスト内安全ポリシーと言語資源の可利用性の影響について検討した。
以上の結果から, 既存のガードレールは多言語毒性の処理に依然として効果がなく, 脱獄プロンプトに対する堅牢性が欠如していることが示唆された。
論文 参考訳(メタデータ) (2024-10-29T15:51:24Z) - Lens: Rethinking Multilingual Enhancement for Large Language Models [70.85065197789639]
Lensは、大規模言語モデル(LLM)の多言語機能を強化する新しいアプローチである
LLMの上位層から言語に依存しない、言語固有のサブ空間内の隠された表現を操作できる。
既存のポストトレーニング手法に比べて計算資源がはるかに少ないため、優れた結果が得られる。
論文 参考訳(メタデータ) (2024-10-06T08:51:30Z) - Multilingual Blending: LLM Safety Alignment Evaluation with Language Mixture [6.17896401271963]
我々は,様々な大規模言語モデルの安全性アライメントを評価するために,混合言語クエリ応答方式であるMultilingual Blendingを導入する。
本稿では,多言語ブレンディングの有効性に影響を及ぼす可能性のある,言語可用性,形態学,言語ファミリーなどの言語パターンについて検討する。
論文 参考訳(メタデータ) (2024-07-10T03:26:15Z) - Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。
しかし、これらのモデルは言語間の対応する概念、すなわち言語を横断的に関連付けることができるだろうか?
本研究は,言語横断的タスクにおける最先端LLMの評価である。
論文 参考訳(メタデータ) (2024-06-23T15:15:17Z) - Multilingual Jailbreak Challenges in Large Language Models [96.74878032417054]
本研究では,大規模言語モデル(LLM)における多言語ジェイルブレイク問題の存在を明らかにする。
我々は、意図しないシナリオと意図的なシナリオの2つを考えます。
安全な微調整のための多言語学習データを自動的に生成する新しいtextscSelf-Defense フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-10T09:44:06Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。