Fugu-MT 論文翻訳(概要): Why Do Safety Guardrails Degrade Across Languages?

論文の概要: Why Do Safety Guardrails Degrade Across Languages?

arxiv url: http://arxiv.org/abs/2605.17173v1
Date: Sat, 16 May 2026 22:08:54 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-19 17:57:47.720805
Title: Why Do Safety Guardrails Degrade Across Languages?
Title（参考訳）: なぜ安全ガードレールは言語全体で劣化するのか?
Authors: Max Zhang, Ameen Patel, Sang T. Truong, Sanmi Koyejo,
Abstract要約: 大規模な言語モデルは、英語以外の言語で安全性の低下を示す。我々は、安全運転要因を分離する潜在変数モデル、多群項目応答理論(IRT)フレームワークを導入する。 5つの閉モデルファミリーと10の言語にまたがる61のモデル構成の安全性のロバスト性を評価する。
参考スコア（独自算出の注目度）: 21.521293656854183
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models exhibit safety degradation in non-English languages. Standard evaluation relies on Jailbreak Success Rate (JSR), which confounds several safety-driving factors into one, obscuring the specific cause(s) of safety failure. We introduce a latent variable model, a Multi-Group Item Response Theory (IRT) framework, that decouples safety-driving factors such as language-agnostic safety robustness ($θ$), intrinsic prompt hardness ($β$), global language processing difficulty ($γ$), and a prompt-specific cross-lingual safety gap ($τ$). Using the MultiJail dataset, we evaluate the safety robustness of 61 model configurations across 5 closed-model families and 10 languages of varying resource, aggregating a dataset of 1.9 million rows. Exploratory Factor Analysis shows safety is primarily unidimensional: models refuse different harm types mainly through a shared mechanism. Contrary to the expected trend that safety degrades largely in low-resource languages, 22 model configurations are more vulnerable in English than in low-resource languages. Low-resource languages produce more uncertain responses (high entropy) than high-resource languages. Also, high-$τ$ prompts cluster in physical harm categories like Theft and Weapons and lower-resource languages, trends validated through cross-dataset generalization. While global translation quality shows low correlation with $τ$, severe mistranslations drive high-bias outliers, as validated by native speakers. Cultural and conceptual grounding mismatches also contribute to $τ$. In predictive validation, the IRT framework achieves $\mathrm{AUC} = 0.940$, outperforming simpler baselines in predicting safe refusal of unsafe prompts. Our framework reveals concept-language vulnerabilities that aggregate metrics obscure, enabling fairer cross-lingual safety evaluation and targeted improvements in dataset construction.
Abstract（参考訳）: 大規模な言語モデルは、英語以外の言語で安全性の低下を示す。基準評価はジェイルブレイク成功率(JSR)に依存しており、いくつかの安全運転要因を1つに分解し、安全性障害の特定の原因を隠蔽する。本稿では,言語に依存しない安全ロバスト性 (θ$), 内在的急激性 (β$), グローバル言語処理困難 (γ$), 即時特異的言語間安全ギャップ (τ$) などの安全運転要因を分離する,潜在変数モデル,多群項目応答理論 (IRT) フレームワークを紹介する。 MultiJailデータセットを用いて、5つのクローズドモデルファミリーと10の異なるリソースの言語にまたがる61のモデル構成の安全性の堅牢性を評価し、190万行のデータセットを集約する。探索的因子分析(Exploratory Factor Analysis)は、安全性が主に一次元であることを示している。安全性が主に低リソース言語で低下すると予想される傾向とは対照的に、22のモデル構成は低リソース言語よりも英語の方が脆弱である。低リソース言語は高リソース言語よりも不確実な応答(高いエントロピー)を生成する。また、高$τ$は、TheftやWeapons、低リソース言語といった物理的な害カテゴリーのクラスタを、データセットの一般化を通じて検証する傾向を示唆する。グローバル翻訳の品質はτ$と相関が低いが、過度な誤訳は、ネイティブ話者によって検証されるように、ハイバイアスのアウトリーを誘導する。文化的、概念的な根拠ミスマッチも$τ$に寄与する。予測検証では、IRTフレームワークは$\mathrm{AUC} = 0.940$を達成する。我々のフレームワークは、メトリクスを不明瞭に集約する概念言語脆弱性を明らかにし、より公平な言語間安全性評価を可能にし、データセット構築の改善を目標としています。

論文の概要: Why Do Safety Guardrails Degrade Across Languages?

関連論文リスト