論文の概要: LSR: Linguistic Safety Robustness Benchmark for Low-Resource West African Languages
- arxiv url: http://arxiv.org/abs/2603.19273v1
- Date: Fri, 27 Feb 2026 22:54:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 02:36:12.819693
- Title: LSR: Linguistic Safety Robustness Benchmark for Low-Resource West African Languages
- Title(参考訳): LSR: 低リソース西アフリカの言語に対する言語安全ロバストネスベンチマーク
- Authors: Godwin Abuh Faruna,
- Abstract要約: 我々は、西アフリカの言語における言語間拒絶劣化を測定するための最初の体系的ベンチマークであるLSRを紹介する。
文化に根ざした14の攻撃プローブにおけるGemini 2.5 Flashを4つの有害カテゴリで評価した。
西アフリカの言語全体では、拒絶率は35~55%に低下し、イガラは最も深刻な減少を示している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Safety alignment in large language models relies predominantly on English-language training data. When harmful intent is expressed in low-resource languages, refusal mechanisms that hold in English frequently fail to activate. We introduce LSR (Linguistic Safety Robustness), the first systematic benchmark for measuring cross-lingual refusal degradation in West African languages: Yoruba, Hausa, Igbo, and Igala. LSR uses a dual-probe evaluation protocol - submitting matched English and target-language probes to the same model - and introduces Refusal Centroid Drift (RCD), a metric that quantifies how much of a model's English refusal behavior is lost when harmful intent is encoded in a target language. We evaluate Gemini 2.5 Flash across 14 culturally grounded attack probes in four harm categories. English refusal rates hold at approximately 90 percent. Across West African languages, refusal rates fall to 35-55 percent, with Igala showing the most severe degradation (RCD = 0.55). LSR is implemented in the Inspect AI evaluation framework and is available as a PR-ready contribution to the UK AISI's inspect_evals repository. A live reference implementation and the benchmark dataset are publicly available.
- Abstract(参考訳): 大きな言語モデルの安全性アライメントは、主に英語のトレーニングデータに依存している。
低リソース言語で有害な意図が表現される場合、英語で保持される拒絶機構は、しばしばアクティベートに失敗する。
LSR(Linguistic Safety Robustness)は,西アフリカのヨルバ語,ハウサ語,Igbo語,イガラ語の言語横断的拒絶劣化を測定するための最初の体系的ベンチマークである。
LSRは、一致した英語とターゲット言語のプローブを同じモデルに送信するデュアルプローブ評価プロトコルを使用し、ターゲット言語に有害な意図が符号化された場合、モデルの英語の拒絶行動がどの程度失われるかを定量化する指標であるRefusal Centroid Drift (RCD)を導入している。
文化に根ざした14の攻撃プローブにおけるGemini 2.5 Flashを4つの有害カテゴリで評価した。
イングランドの拒絶率はおよそ90%である。
西アフリカの言語全体では、拒絶率は35-55%に低下し、イガラは最も深刻な劣化(RCD = 0.55)を示した。
LSRはInspect AI評価フレームワークで実装されており、英国AISIのinspect_evalsリポジトリへのPR対応コントリビューションとして利用できる。
ライブリファレンス実装とベンチマークデータセットが公開されている。
関連論文リスト
- Benchmarking Bengali Dialectal Bias: A Multi-Stage Framework Integrating RAG-Based Translation and Human-Augmented RLAIF [0.3227658251731014]
大規模言語モデル(LLM)は、低リソース言語の方言に対する性能バイアスを頻繁に示している。
ベンガル方言9方言を対象に,LLM質問応答における方言バイアスを評価するための2段階の枠組みを提案する。
論文 参考訳(メタデータ) (2026-03-22T18:44:57Z) - Response-Based Knowledge Distillation for Multilingual Jailbreak Prevention Unwittingly Compromises Safety [3.8433556466595937]
大規模言語モデル (LLM) は世界中に展開されているが、その安全性は英語を中心に維持されている。
本稿では,多言語ジェイルブレイク防止における知識蒸留(KD)の新たな応用について紹介する。
プロプライエタリな教師モデルの拒絶行動を,Meta-Llama-3-8B-Instruct, Gemma-2-2B-IT, Qwen3-8Bの3つのオープンソース学生モデルに蒸留する。
論文 参考訳(メタデータ) (2025-12-08T06:48:17Z) - SEA-SafeguardBench: Evaluating AI Safety in SEA Languages and Cultures [36.95168918567729]
既存のマルチ言語安全ベンチマークは、しばしば機械翻訳された英語データに依存している。
SEA-SafeguardBenchは,SEAの最初の人間認証安全ベンチマークである。
8つの言語、21,640のサンプル、および3つのサブセット(ジェネラル、イン・ザ・ワイルド、コンテンツ生成)をカバーする。
論文 参考訳(メタデータ) (2025-12-05T07:57:57Z) - OpenAI's GPT-OSS-20B Model and Safety Alignment Issues in a Low-Resource Language [0.0]
本稿では,OpenAI の GPT-OSS-20b モデルで発見された脆弱性の集合を概説する。
私たちの仕事のコアモチベーションは、過小評価されたコミュニティからのユーザに対するモデルの信頼性に疑問を呈することです。
主要なアフリカの言語であるHausaを用いて、モデルの振る舞いにおけるバイアス、不正確さ、文化的不感を明らかにする。
論文 参考訳(メタデータ) (2025-09-26T20:14:54Z) - Refusal Direction is Universal Across Safety-Aligned Languages [66.64709923081745]
本稿では,PolyRefuseを用いた14言語にわたる大規模言語モデル(LLM)の拒絶動作について検討する。
英語から抽出されたベクトルは、ほぼ完全な効果で他の言語での拒絶を回避できる。
この伝達性は、埋め込み空間における言語間の拒否ベクトルの並列性に起因し、言語間ジェイルブレイクの背後にあるメカニズムを同定する。
論文 参考訳(メタデータ) (2025-05-22T21:54:46Z) - TuBA: Cross-Lingual Transferability of Backdoor Attacks in LLMs with Instruction Tuning [63.481446315733145]
多言語大言語モデル(LLM)に対する言語間バックドア攻撃は未調査である。
本研究は, 教育指導データが有毒でない言語に対して, 教育指導データの有毒化がアウトプットに与える影響について検討した。
本手法は,mT5 や GPT-4o などのモデルにおいて,高い攻撃成功率を示し,12言語中7言語以上で90%以上を突破した。
論文 参考訳(メタデータ) (2024-04-30T14:43:57Z) - Unlikelihood Tuning on Negative Samples Amazingly Improves Zero-Shot
Translation [79.96416609433724]
Zero-shot Translation (ZST)は、トレーニングデータにおいて、目に見えない言語ペア間の翻訳を目的としている。
推論中にゼロショット言語マッピングをガイドする一般的な方法は、ソースとターゲット言語IDを意図的に挿入することである。
近年の研究では、言語IDが時折ZSTタスクのナビゲートに失敗し、ターゲット外問題に悩まされることが示されている。
論文 参考訳(メタデータ) (2023-09-28T17:02:36Z) - Benchmarking Large Language Models in Retrieval-Augmented Generation [53.504471079548]
大規模言語モデルに対する検索拡張生成の影響を系統的に検討する。
我々は、RAGに必要な4つの基本能力で、異なる大規模言語モデルの性能を解析する。
RGB(Retrieval-Augmented Generation Benchmark)は、英語と中国語の両方でRAG評価を行うための新しいコーパスである。
論文 参考訳(メタデータ) (2023-09-04T08:28:44Z) - No Language Left Behind: Scaling Human-Centered Machine Translation [69.28110770760506]
低レベルの言語と高レベルの言語のパフォーマンスギャップを狭めるためのデータセットとモデルを作成します。
何千ものタスクをトレーニングしながらオーバーフィッティングに対処するために,複数のアーキテクチャとトレーニングの改善を提案する。
本モデルでは,従来の最先端技術と比較して,BLEUの44%の改善を実現している。
論文 参考訳(メタデータ) (2022-07-11T07:33:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。