論文の概要: Why Do Safety Guardrails Degrade Across Languages?
- arxiv url: http://arxiv.org/abs/2605.17173v1
- Date: Sat, 16 May 2026 22:08:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:47.720805
- Title: Why Do Safety Guardrails Degrade Across Languages?
- Title(参考訳): なぜ安全ガードレールは言語全体で劣化するのか?
- Authors: Max Zhang, Ameen Patel, Sang T. Truong, Sanmi Koyejo,
- Abstract要約: 大規模な言語モデルは、英語以外の言語で安全性の低下を示す。
我々は、安全運転要因を分離する潜在変数モデル、多群項目応答理論(IRT)フレームワークを導入する。
5つの閉モデルファミリーと10の言語にまたがる61のモデル構成の安全性のロバスト性を評価する。
- 参考スコア(独自算出の注目度): 21.521293656854183
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models exhibit safety degradation in non-English languages. Standard evaluation relies on Jailbreak Success Rate (JSR), which confounds several safety-driving factors into one, obscuring the specific cause(s) of safety failure. We introduce a latent variable model, a Multi-Group Item Response Theory (IRT) framework, that decouples safety-driving factors such as language-agnostic safety robustness ($θ$), intrinsic prompt hardness ($β$), global language processing difficulty ($γ$), and a prompt-specific cross-lingual safety gap ($τ$). Using the MultiJail dataset, we evaluate the safety robustness of 61 model configurations across 5 closed-model families and 10 languages of varying resource, aggregating a dataset of 1.9 million rows. Exploratory Factor Analysis shows safety is primarily unidimensional: models refuse different harm types mainly through a shared mechanism. Contrary to the expected trend that safety degrades largely in low-resource languages, 22 model configurations are more vulnerable in English than in low-resource languages. Low-resource languages produce more uncertain responses (high entropy) than high-resource languages. Also, high-$τ$ prompts cluster in physical harm categories like Theft and Weapons and lower-resource languages, trends validated through cross-dataset generalization. While global translation quality shows low correlation with $τ$, severe mistranslations drive high-bias outliers, as validated by native speakers. Cultural and conceptual grounding mismatches also contribute to $τ$. In predictive validation, the IRT framework achieves $\mathrm{AUC} = 0.940$, outperforming simpler baselines in predicting safe refusal of unsafe prompts. Our framework reveals concept-language vulnerabilities that aggregate metrics obscure, enabling fairer cross-lingual safety evaluation and targeted improvements in dataset construction.
- Abstract(参考訳): 大規模な言語モデルは、英語以外の言語で安全性の低下を示す。
基準評価はジェイルブレイク成功率(JSR)に依存しており、いくつかの安全運転要因を1つに分解し、安全性障害の特定の原因を隠蔽する。
本稿では,言語に依存しない安全ロバスト性 (θ$), 内在的急激性 (β$), グローバル言語処理困難 (γ$), 即時特異的言語間安全ギャップ (τ$) などの安全運転要因を分離する,潜在変数モデル,多群項目応答理論 (IRT) フレームワークを紹介する。
MultiJailデータセットを用いて、5つのクローズドモデルファミリーと10の異なるリソースの言語にまたがる61のモデル構成の安全性の堅牢性を評価し、190万行のデータセットを集約する。
探索的因子分析(Exploratory Factor Analysis)は、安全性が主に一次元であることを示している。
安全性が主に低リソース言語で低下すると予想される傾向とは対照的に、22のモデル構成は低リソース言語よりも英語の方が脆弱である。
低リソース言語は高リソース言語よりも不確実な応答(高いエントロピー)を生成する。
また、高$τ$は、TheftやWeapons、低リソース言語といった物理的な害カテゴリーのクラスタを、データセットの一般化を通じて検証する傾向を示唆する。
グローバル翻訳の品質はτ$と相関が低いが、過度な誤訳は、ネイティブ話者によって検証されるように、ハイバイアスのアウトリーを誘導する。
文化的、概念的な根拠ミスマッチも$τ$に寄与する。
予測検証では、IRTフレームワークは$\mathrm{AUC} = 0.940$を達成する。
我々のフレームワークは、メトリクスを不明瞭に集約する概念言語脆弱性を明らかにし、より公平な言語間安全性評価を可能にし、データセット構築の改善を目標としています。
関連論文リスト
- Multilingual Safety Alignment via Self-Distillation [17.94152626632751]
大規模言語モデル (LLM) は、重度の多言語的安全性のミスアライメントを示す。
マルチリンガル自己蒸留(Multilingual Self-Distillation:MSD)という,言語横断型セーフガード転送フレームワークを提案する。
私たちのフレームワークは柔軟で、さまざまな自己蒸留戦略に統合できます。
論文 参考訳(メタデータ) (2026-05-03T14:22:49Z) - LASA: Language-Agnostic Semantic Alignment at the Semantic Bottleneck for LLM Safety [88.98698230989186]
大規模言語モデル(LLM)は、しばしば高リソース言語で強力な安全性性能を示すが、低リソース言語では深刻な脆弱性を示す。
このギャップは、言語に依存しない意味理解能力と、高リソース言語に偏った言語に支配的な安全アライメントのミスマッチによるものと考えられる。
セマンティック・アライメント(LASA)を提案し,セマンティック・ボトルネックに直接安全アライメントを固定する。
論文 参考訳(メタデータ) (2026-04-13T15:59:50Z) - Lingua-SafetyBench: A Benchmark for Safety Evaluation of Multilingual Vision-Language Models [54.10540442330978]
既存のベンチマークは、典型的にはマルチリンガルだがテキストのみ、あるいはマルチモーダルだがモノリンガルである。
近年の多言語的赤チームの取り組みは、画像に有害なプロンプトを与えるが、タイポグラフィースタイルの視覚に強く依存している。
10言語にまたがる100,440の有害な画像テキストペアのベンチマークを導入し、明示的に画像支配サブセットとテキスト支配サブセットに分割する。
論文 参考訳(メタデータ) (2026-01-30T09:18:13Z) - RabakBench: Scaling Human Annotations to Construct Localized Multilingual Safety Benchmarks for Low-Resource Languages [3.7678366606419345]
RabakBenchはシンガポール独自の言語コンテキストにローカライズされた新しい多言語安全ベンチマークである。
人間の検証された翻訳や評価コードを含むベンチマークデータセットが公開されている。
論文 参考訳(メタデータ) (2025-07-08T13:37:25Z) - MrGuard: A Multilingual Reasoning Guardrail for Universal LLM Safety [56.77103365251923]
大規模言語モデル(LLM)は、ジェイルブレイクのような敵の攻撃を受けやすい。
この脆弱性は、多言語セーフティアライメントされたデータが制限される多言語設定で悪化する。
素早い分類のための多言語ガードレールを提案する。
論文 参考訳(メタデータ) (2025-04-21T17:15:06Z) - All Languages Matter: On the Multilingual Safety of Large Language Models [96.47607891042523]
我々は、大規模言語モデル(LLM)のための最初の多言語安全ベンチマークを構築した。
XSafetyは、複数の言語ファミリーにまたがる10言語にわたる14種類の一般的な安全問題をカバーしている。
本稿では,ChatGPTの多言語安全性向上のための簡易かつ効果的なプロンプト手法を提案する。
論文 参考訳(メタデータ) (2023-10-02T05:23:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。