論文の概要: Bridging the Multilingual Safety Divide: Efficient, Culturally-Aware Alignment for Global South Languages
- arxiv url: http://arxiv.org/abs/2602.13867v1
- Date: Sat, 14 Feb 2026 19:56:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:28.528355
- Title: Bridging the Multilingual Safety Divide: Efficient, Culturally-Aware Alignment for Global South Languages
- Title(参考訳): 多言語安全分節のブリッジ:グローバルな南欧語に対する効率的な文化的アライメント
- Authors: Somnath Banerjee, Rima Hazra, Animesh Mukherjee,
- Abstract要約: 大規模言語モデル(LLM)がグローバル・サウスに展開されている。
日々の使用には、低リソース言語、コードミキシング、文化的に特定の規範が含まれる。
我々の目標は、多言語安全性を、未表現領域における適切なAIのアドオンではなく、コア要件とすることです。
- 参考スコア(独自算出の注目度): 8.667909336164465
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are being deployed across the Global South, where everyday use involves low-resource languages, code-mixing, and culturally specific norms. Yet safety pipelines, benchmarks, and alignment still largely target English and a handful of high-resource languages, implicitly assuming safety and factuality ''transfer'' across languages. Evidence increasingly shows they do not. We synthesize recent findings indicating that (i) safety guardrails weaken sharply on low-resource and code-mixed inputs, (ii) culturally harmful behavior can persist even when standard toxicity scores look acceptable, and (iii) English-only knowledge edits and safety patches often fail to carry over to low-resource languages. In response, we outline a practical agenda for researchers and students in the Global South: parameter-efficient safety steering, culturally grounded evaluation and preference data, and participatory workflows that empower local communities to define and mitigate harm. Our aim is to make multilingual safety a core requirement-not an add-on-for equitable AI in underrepresented regions.
- Abstract(参考訳): 大規模言語モデル(LLM)は、低リソース言語、コードミキシング、文化的に特定の規範を日常的に使用するグローバル・サウスに展開されている。
しかし、安全パイプライン、ベンチマーク、アライメントはいまだに英語と一部の高ソース言語をターゲットにしており、言語間での安全性と事実の「転送」を暗黙的に仮定している。
証拠はますますそうでないことを示している。
我々はそのことを示す最近の知見を合成する。
一 低資源及びコード混入の入力に対して、安全ガードレールが著しく弱まること。
(二)標準的な毒性スコアが受け入れられても、文化的に有害な行動が持続しうること。
(iii)英語のみの知識編集と安全パッチは、低リソース言語に受け継がれないことが多い。
そこで我々は,グローバル・サウスの研究者や学生を対象に,パラメータ効率の高い安全ステアリング,文化的根拠のある評価と嗜好データ,地域社会に害の定義・緩和を促す参加型ワークフローの実践的課題を概説した。
我々の目標は、多言語安全性を、未表現領域における適切なAIのアドオンではなく、コア要件とすることです。
関連論文リスト
- Layer-wise Swapping for Generalizable Multilingual Safety [8.658596218544773]
既存の安全データセットは主に英語中心であり、多言語安全アライメントの進歩を制限する。
本稿では、英語の安全専門家から低リソース言語専門家への安全アライメントを追加訓練なしで伝達する安全意識層スワップ手法を提案する。
論文 参考訳(メタデータ) (2026-01-30T06:22:02Z) - SEA-SafeguardBench: Evaluating AI Safety in SEA Languages and Cultures [36.95168918567729]
既存のマルチ言語安全ベンチマークは、しばしば機械翻訳された英語データに依存している。
SEA-SafeguardBenchは,SEAの最初の人間認証安全ベンチマークである。
8つの言語、21,640のサンプル、および3つのサブセット(ジェネラル、イン・ザ・ワイルド、コンテンツ生成)をカバーする。
論文 参考訳(メタデータ) (2025-12-05T07:57:57Z) - LinguaSafe: A Comprehensive Multilingual Safety Benchmark for Large Language Models [22.273388934888278]
私たちのデータセットは、ハンガリー語からマレー語まで、12言語で45万のエントリで構成されています。
我々のベンチマークは、詳細な安全性評価のための総合的なメトリクススイートを提供する。
論文 参考訳(メタデータ) (2025-08-18T08:59:01Z) - IndoSafety: Culturally Grounded Safety for LLMs in Indonesian Languages [6.4212082894269535]
IndoSafetyは、インドネシアの文脈に合わせた、最初の高品質で人間認証された安全評価データセットである。
IndoSafetyは、インドネシアの社会文化的文脈を捉えた分類を開発するために、事前の安全枠組みを拡張して構築されている。
論文 参考訳(メタデータ) (2025-06-03T07:53:55Z) - MrGuard: A Multilingual Reasoning Guardrail for Universal LLM Safety [56.77103365251923]
大規模言語モデル(LLM)は、ジェイルブレイクのような敵の攻撃を受けやすい。
この脆弱性は、多言語セーフティアライメントされたデータが制限される多言語設定で悪化する。
素早い分類のための多言語ガードレールを提案する。
論文 参考訳(メタデータ) (2025-04-21T17:15:06Z) - CodeAttack: Revealing Safety Generalization Challenges of Large Language Models via Code Completion [117.178835165855]
本稿では,自然言語入力をコード入力に変換するフレームワークであるCodeAttackを紹介する。
我々の研究は、コード入力に対するこれらのモデルの新たな、普遍的な安全性の脆弱性を明らかにした。
CodeAttackと自然言語の分布ギャップが大きくなると、安全性の一般化が弱くなる。
論文 参考訳(メタデータ) (2024-03-12T17:55:38Z) - All Languages Matter: On the Multilingual Safety of Large Language Models [96.47607891042523]
我々は、大規模言語モデル(LLM)のための最初の多言語安全ベンチマークを構築した。
XSafetyは、複数の言語ファミリーにまたがる10言語にわたる14種類の一般的な安全問題をカバーしている。
本稿では,ChatGPTの多言語安全性向上のための簡易かつ効果的なプロンプト手法を提案する。
論文 参考訳(メタデータ) (2023-10-02T05:23:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。