論文の概要: SEALGuard: Safeguarding the Multilingual Conversations in Southeast Asian Languages for LLM Software Systems
- arxiv url: http://arxiv.org/abs/2507.08898v2
- Date: Tue, 15 Jul 2025 05:06:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-16 13:21:48.448819
- Title: SEALGuard: Safeguarding the Multilingual Conversations in Southeast Asian Languages for LLM Software Systems
- Title(参考訳): SEALGuard: LLMソフトウェアシステムのための東南アジア言語における多言語会話の保護
- Authors: Wenliang Shan, Michael Fu, Rui Yang, Chakkrit Tantithamthavorn,
- Abstract要約: 本稿では,多言語間の安全性向上を目的とした多言語ガードレールであるSEALGuardを紹介する。
既存のガードレールの多言語的安全アライメントギャップに対処し、安全でないプロンプトと脱獄プロンプトを効果的にフィルタリングすることを目的としている。
10言語で260,000以上のプロンプトを含む大規模多言語安全アライメントデータセットであるSEALSBenchを構築した。
- 参考スコア(独自算出の注目度): 9.469589800082597
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Safety alignment is critical for LLM-powered systems. While recent LLM-powered guardrail approaches such as LlamaGuard achieve high detection accuracy of unsafe inputs written in English (e.g., ``How to create a bomb?''), they struggle with multilingual unsafe inputs. This limitation leaves LLM systems vulnerable to unsafe and jailbreak prompts written in low-resource languages such as those in Southeast Asia. This paper introduces SEALGuard, a multilingual guardrail designed to improve the safety alignment across diverse languages. It aims to address the multilingual safety alignment gap of existing guardrails and ensure effective filtering of unsafe and jailbreak prompts in LLM-powered systems. We adapt a general-purpose multilingual language model into a multilingual guardrail using low-rank adaptation (LoRA). We construct SEALSBench, a large-scale multilingual safety alignment dataset containing over 260,000 prompts in ten languages, including safe, unsafe, and jailbreak cases. We evaluate SEALGuard against state-of-the-art guardrails such as LlamaGuard on this benchmark. Our findings show that multilingual unsafe and jailbreak prompts substantially degrade the performance of the state-of-the-art LlamaGuard, which experiences a drop in Defense Success Rate (DSR) by 9% and 18%, respectively, compared to its performance on English-only prompts. In contrast, SEALGuard outperforms existing guardrails in detecting multilingual unsafe and jailbreak prompts, improving DSR by 48% over LlamaGuard and achieving the best DSR, precision, and F1-score. Our ablation study further reveals the contributions of adaptation strategies and model size to the overall performance of SEALGuard. SEALGuard advances the safety alignment of LLM systems by introducing an effective multilingual guardrail.
- Abstract(参考訳): 安全アライメントはLLMシステムにとって重要である。
最近のLLMによるLlamaGuardのようなガードレールアプローチは、英語で書かれた安全でない入力(例: ``How to create a bomb?''')を高い精度で検出する一方で、多言語で安全でない入力に苦戦している。
この制限により、LLMシステムは、東南アジアなどの低リソース言語で書かれた安全でないプロンプトや脱獄プロンプトに対して脆弱になる。
本稿では,多言語間の安全性向上を目的とした多言語ガードレールであるSEALGuardを紹介する。
既存のガードレールの多言語的安全アライメントギャップに対処し、LLMシステムにおける安全でないプロンプトと脱獄プロンプトを効果的にフィルタリングすることを目的としている。
低ランク適応(LoRA)を用いた多言語ガードレールに汎用多言語モデルを適用する。
安全なケース、安全でないケース、ジェイルブレイクケースを含む10言語で260,000以上のプロンプトを含む大規模多言語安全アライメントデータセットであるSEALSBenchを構築した。
このベンチマークでは、LlamaGuardのような最先端のガードレールに対してSEALGuardを評価した。
以上の結果から,多言語的不安全と脱獄は,英語のみのプロンプトと比較して,防衛成功率(DSR)の9%と18%の低下を経験する,最先端のLlamaGuardのパフォーマンスを著しく低下させることが示された。
対照的にSEALGuardは、マルチリンガルの安全でないプロンプトや脱獄プロンプトの検出において既存のガードレールよりも優れており、LlamaGuardよりもDSRを48%向上させ、最高のDSR、精度、F1スコアを達成する。
また,SEALGuardの適応戦略とモデルサイズがSEALGuard全体の性能に与える影響についても検討した。
SEALGuardは、効果的な多言語ガードレールを導入することで、LLMシステムの安全性を向上する。
関連論文リスト
- MPO: Multilingual Safety Alignment via Reward Gap Optimization [88.76638442683391]
大規模言語モデル(LLM)は、世界中でAIアプリケーションの中心となっている。
RLHFやDPOのような既存の安全アライメントのための選好学習手法は、主に単言語であり、ノイズの多い多言語データと競合する。
本稿では,複数言語間の安全アライメントを改善するために,支配言語(英語)の安全能力の整合性を活用した新しいアプローチである多言語報酬gaP Optimization(MPO)を紹介する。
論文 参考訳(メタデータ) (2025-05-22T16:24:51Z) - MrGuard: A Multilingual Reasoning Guardrail for Universal LLM Safety [56.79292318645454]
大規模言語モデル(LLM)は、ジェイルブレイクのような敵の攻撃を受けやすい。
この脆弱性は、多言語セーフティアライメントされたデータが制限される多言語設定で悪化する。
素早い分類のための多言語ガードレールを提案する。
論文 参考訳(メタデータ) (2025-04-21T17:15:06Z) - X-Guard: Multilingual Guard Agent for Content Moderation [8.233872344445675]
X-Guardは、多様な言語コンテキストにまたがるコンテンツモデレーションを提供するために設計された透明な多言語安全エージェントである。
弊社のアプローチは、複数のオープンソースの安全データセットを、明確な評価の根拠でキュレートし、拡張することを含む。
実験により,X-Guardが複数言語にわたる安全でないコンテンツの検出に有効であることを実証した。
論文 参考訳(メタデータ) (2025-04-11T01:58:06Z) - LLMs Lost in Translation: M-ALERT uncovers Cross-Linguistic Safety Inconsistencies [63.10843814055688]
M-ALERTは5つの言語における大規模言語モデルの安全性を評価するベンチマークである。
M-ALERTには言語毎に15kの高品質なプロンプトが含まれており、合計で75k、カテゴリワイドアノテーションがある。
39種類のLLMに関する実験は,言語固有の安全性解析の重要性を強調した。
論文 参考訳(メタデータ) (2024-12-19T16:46:54Z) - Benchmarking LLM Guardrails in Handling Multilingual Toxicity [57.296161186129545]
7つのデータセットと10以上の言語にまたがる包括的な多言語テストスイートを導入し、最先端ガードレールのパフォーマンスをベンチマークする。
近年の脱獄技術に対するガードレールの弾力性について検討し,ガードレールの性能に及ぼすコンテキスト内安全ポリシーと言語資源の可利用性の影響について検討した。
以上の結果から, 既存のガードレールは多言語毒性の処理に依然として効果がなく, 脱獄プロンプトに対する堅牢性が欠如していることが示唆された。
論文 参考訳(メタデータ) (2024-10-29T15:51:24Z) - Multilingual Jailbreak Challenges in Large Language Models [96.74878032417054]
本研究では,大規模言語モデル(LLM)における多言語ジェイルブレイク問題の存在を明らかにする。
我々は、意図しないシナリオと意図的なシナリオの2つを考えます。
安全な微調整のための多言語学習データを自動的に生成する新しいtextscSelf-Defense フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-10T09:44:06Z) - Low-Resource Languages Jailbreak GPT-4 [19.97929171158234]
我々の研究は、AIの安全性トレーニングと大規模言語モデル(LLM)のリピートという、言語横断的な脆弱性を明らかにします。
AdvBenchmarkでは、GPT-4は安全でない翻訳された入力に関わり、ユーザを有害な目標の79%に導く実行可能なアイテムを提供する。
他のハイ/ミッドリソース言語は攻撃成功率を著しく低くしているため、言語間の脆弱性は主に低リソース言語に適用される。
論文 参考訳(メタデータ) (2023-10-03T21:30:56Z) - All Languages Matter: On the Multilingual Safety of Large Language Models [96.47607891042523]
我々は、大規模言語モデル(LLM)のための最初の多言語安全ベンチマークを構築した。
XSafetyは、複数の言語ファミリーにまたがる10言語にわたる14種類の一般的な安全問題をカバーしている。
本稿では,ChatGPTの多言語安全性向上のための簡易かつ効果的なプロンプト手法を提案する。
論文 参考訳(メタデータ) (2023-10-02T05:23:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。