論文の概要: X-Guard: Multilingual Guard Agent for Content Moderation
- arxiv url: http://arxiv.org/abs/2504.08848v1
- Date: Fri, 11 Apr 2025 01:58:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:53:23.694129
- Title: X-Guard: Multilingual Guard Agent for Content Moderation
- Title(参考訳): X-Guard:コンテンツモデレーションのための多言語ガードエージェント
- Authors: Bibek Upadhayay, Vahid Behzadan, Ph. D,
- Abstract要約: X-Guardは、多様な言語コンテキストにまたがるコンテンツモデレーションを提供するために設計された透明な多言語安全エージェントである。
弊社のアプローチは、複数のオープンソースの安全データセットを、明確な評価の根拠でキュレートし、拡張することを含む。
実験により,X-Guardが複数言語にわたる安全でないコンテンツの検出に有効であることを実証した。
- 参考スコア(独自算出の注目度): 8.233872344445675
- License:
- Abstract: Large Language Models (LLMs) have rapidly become integral to numerous applications in critical domains where reliability is paramount. Despite significant advances in safety frameworks and guardrails, current protective measures exhibit crucial vulnerabilities, particularly in multilingual contexts. Existing safety systems remain susceptible to adversarial attacks in low-resource languages and through code-switching techniques, primarily due to their English-centric design. Furthermore, the development of effective multilingual guardrails is constrained by the scarcity of diverse cross-lingual training data. Even recent solutions like Llama Guard-3, while offering multilingual support, lack transparency in their decision-making processes. We address these challenges by introducing X-Guard agent, a transparent multilingual safety agent designed to provide content moderation across diverse linguistic contexts. X-Guard effectively defends against both conventional low-resource language attacks and sophisticated code-switching attacks. Our approach includes: curating and enhancing multiple open-source safety datasets with explicit evaluation rationales; employing a jury of judges methodology to mitigate individual judge LLM provider biases; creating a comprehensive multilingual safety dataset spanning 132 languages with 5 million data points; and developing a two-stage architecture combining a custom-finetuned mBART-50 translation module with an evaluation X-Guard 3B model trained through supervised finetuning and GRPO training. Our empirical evaluations demonstrate X-Guard's effectiveness in detecting unsafe content across multiple languages while maintaining transparency throughout the safety evaluation process. Our work represents a significant advancement in creating robust, transparent, and linguistically inclusive safety systems for LLMs and its integrated systems.
- Abstract(参考訳): 大規模言語モデル(LLM)は、信頼性が最重要である重要な領域において、多くのアプリケーションにとって急速に不可欠なものになっている。
安全フレームワークやガードレールの大幅な進歩にもかかわらず、現在の保護措置は特に多言語的文脈において重大な脆弱性を示す。
既存の安全システムは、低リソース言語やコードスイッチング技術による敵攻撃の影響を受けやすいままである。
さらに,多言語間訓練データの不足により,効果的な多言語ガードレールの開発が制限されている。
Llama Guard-3のような最近のソリューションでさえ、多言語サポートを提供しながら、意思決定プロセスにおける透明性を欠いている。
多様な言語文脈におけるコンテンツモデレーションを提供するために設計された,透明な多言語安全エージェントであるX-Guardエージェントを導入することで,これらの課題に対処する。
X-Guardは、従来の低リソース言語攻撃と高度なコードスイッチング攻撃の両方を効果的に防御する。
提案手法は,複数のオープンソース安全データセットを明示的な評価根拠でキュレートし,拡張すること,LCMプロバイダのバイアスを軽減するために審査員の方法論を採用すること,132言語に500万のデータポイントを持つ包括的な多言語安全データセットを作成すること,カスタマイズ可能なmBART-50翻訳モジュールと,教師付き微調整とGRPOトレーニングによってトレーニングされたX-Guard 3Bモデルを組み合わせた2段階アーキテクチャを開発することを含む。
実験により,X-Guardが安全評価プロセス全体を通して透明性を維持しつつ,複数の言語にわたる安全でないコンテンツの検出に有効であることを実証した。
我々の研究は、LSMとその統合システムのための堅牢で透明で言語的に包括的な安全システムの構築において、大きな進歩を示している。
関連論文リスト
- RapGuard: Safeguarding Multimodal Large Language Models via Rationale-aware Defensive Prompting [7.0595410083835315]
RapGuardは、シナリオ固有の安全プロンプトを生成するために、マルチモーダル連鎖推論を使用する新しいフレームワークである。
RapGuardは最先端の安全性能を実現し、応答の品質を低下させることなく有害なコンテンツを著しく削減する。
論文 参考訳(メタデータ) (2024-12-25T08:31:53Z) - LLMs Lost in Translation: M-ALERT uncovers Cross-Linguistic Safety Gaps [63.10843814055688]
M-ALERTは、英語、フランス語、ドイツ語、イタリア語、スペイン語の5言語で大言語モデルの安全性を評価するベンチマークである。
M-ALERTは、ALERTの詳細な分類に従って、言語ごとの高品質なプロンプトが15kあり、合計で75kである。
論文 参考訳(メタデータ) (2024-12-19T16:46:54Z) - Benchmarking LLM Guardrails in Handling Multilingual Toxicity [57.296161186129545]
7つのデータセットと10以上の言語にまたがる包括的な多言語テストスイートを導入し、最先端ガードレールのパフォーマンスをベンチマークする。
近年の脱獄技術に対するガードレールの弾力性について検討し,ガードレールの性能に及ぼすコンテキスト内安全ポリシーと言語資源の可利用性の影響について検討した。
以上の結果から, 既存のガードレールは多言語毒性の処理に依然として効果がなく, 脱獄プロンプトに対する堅牢性が欠如していることが示唆された。
論文 参考訳(メタデータ) (2024-10-29T15:51:24Z) - Towards Safe Multilingual Frontier AI [0.18957478338649109]
マルチリンガルジェイルブレイクは、AIシステムの安全かつ包括的デプロイを損なう。
我々は、多言語ジェイルブレイクに対応するため、EUの法的な状況と制度的な枠組みに沿った政策行動を提案する。
これには、多言語能力と脆弱性の必須評価、世論調査、多言語AI開発のための状態サポートが含まれる。
論文 参考訳(メタデータ) (2024-09-06T14:26:18Z) - Multilingual Blending: LLM Safety Alignment Evaluation with Language Mixture [6.17896401271963]
我々は,様々な大規模言語モデルの安全性アライメントを評価するために,混合言語クエリ応答方式であるMultilingual Blendingを導入する。
本稿では,多言語ブレンディングの有効性に影響を及ぼす可能性のある,言語可用性,形態学,言語ファミリーなどの言語パターンについて検討する。
論文 参考訳(メタデータ) (2024-07-10T03:26:15Z) - Safe Multi-agent Reinforcement Learning with Natural Language Constraints [49.01100552946231]
安全なマルチエージェント強化学習(MARL)における自然言語制約の役割は重要であるが、しばしば見過ごされる。
自然言語制約付き安全マルチエージェント強化学習(SMALL)という新しいアプローチを提案する。
提案手法は、微調整言語モデルを用いて、自由形式のテキスト制約を解釈し、処理し、セマンティックな埋め込みに変換する。
これらの埋め込みはマルチエージェントのポリシー学習プロセスに統合され、エージェントは報酬を最適化しながら制約違反を最小限に抑えるポリシーを学ぶことができる。
論文 参考訳(メタデータ) (2024-05-30T12:57:35Z) - TuBA: Cross-Lingual Transferability of Backdoor Attacks in LLMs with Instruction Tuning [63.481446315733145]
多言語大言語モデル(LLM)に対する言語間バックドア攻撃は未調査である。
本研究は, 教育指導データが有毒でない言語に対して, 教育指導データの有毒化がアウトプットに与える影響について検討した。
本手法は,mT5 や GPT-4o などのモデルにおいて,高い攻撃成功率を示し,12言語中7言語以上で90%以上を突破した。
論文 参考訳(メタデータ) (2024-04-30T14:43:57Z) - DIALIGHT: Lightweight Multilingual Development and Evaluation of
Task-Oriented Dialogue Systems with Large Language Models [76.79929883963275]
DIALIGHTは多言語タスク指向対話(ToD)システムの開発と評価のためのツールキットである。
ローカル発話レベルとグローバル対話レベルの両方において、人間のきめ細かい評価のためのセキュアでユーザフレンドリーなWebインターフェースを備えている。
評価の結果, PLMの微調整により精度とコヒーレンスが向上する一方, LLMベースのシステムは多様で類似した応答を生成するのに優れていた。
論文 参考訳(メタデータ) (2024-01-04T11:27:48Z) - Low-Resource Languages Jailbreak GPT-4 [19.97929171158234]
我々の研究は、AIの安全性トレーニングと大規模言語モデル(LLM)のリピートという、言語横断的な脆弱性を明らかにします。
AdvBenchmarkでは、GPT-4は安全でない翻訳された入力に関わり、ユーザを有害な目標の79%に導く実行可能なアイテムを提供する。
他のハイ/ミッドリソース言語は攻撃成功率を著しく低くしているため、言語間の脆弱性は主に低リソース言語に適用される。
論文 参考訳(メタデータ) (2023-10-03T21:30:56Z) - All Languages Matter: On the Multilingual Safety of Large Language Models [96.47607891042523]
我々は、大規模言語モデル(LLM)のための最初の多言語安全ベンチマークを構築した。
XSafetyは、複数の言語ファミリーにまたがる10言語にわたる14種類の一般的な安全問題をカバーしている。
本稿では,ChatGPTの多言語安全性向上のための簡易かつ効果的なプロンプト手法を提案する。
論文 参考訳(メタデータ) (2023-10-02T05:23:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。