論文の概要: TukaBench: A Culturally Grounded Jailbreak Benchmark for African Languages
- arxiv url: http://arxiv.org/abs/2606.01322v1
- Date: Sun, 31 May 2026 16:14:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:29.583634
- Title: TukaBench: A Culturally Grounded Jailbreak Benchmark for African Languages
- Title(参考訳): TukaBench: アフリカの言語に対する文化的根拠を持つジェイルブレイクベンチマーク
- Authors: Victor Akinode, Senyu Li, Wassim Hamidouche, Waqas Zamir, Inbal Becker-Reshef, David Ifeoluwa Adelani,
- Abstract要約: JailbreakBench(JBB)を拡張する7つのアフリカ言語のためのベンチマークであるTUKABENCHを紹介する。
英語とアフリカ語を組み合わせたコード変更プロンプトは、言語の影響、文化的な根拠づけ、モデル安全性への迅速な回避を分離する。
第一に、RefusedとJailbrokenと一緒にDeflectionを導入し、第二に、人間のアノテーションでアウトプットを検証する。
- 参考スコア(独自算出の注目度): 12.24666934500708
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Safety evaluation of Large Language Models (LLMs) remains heavily English-centric, leaving Low-Resource Languages (LRLs), particularly African ones, critically underexplored. We introduce TUKABENCH, a jailbreak benchmark for seven African languages that extends JailbreakBench (JBB) beyond direct translation through four settings: human translation of JBB prompts, English adaptation to African contexts followed by human translation, human-curated prompts validated through interactions with GPT-5.2, and code-switched prompts combining English and African languages, isolating the effect of language, cultural grounding, and prompt evasiveness on model safety. Across closed and open models, prompting in African languages reduces refusal relative to English, with culturally adapted prompts leading to least refusal. The evaluation also surfaces two structural limitations: model comprehension failures and reduced LLM-as-a-judge reliability in LRLs. To capture the first, we introduce Deflection alongside Refused and Jailbroken; to assess the second, we validate outputs with human annotations, showing that judge-human agreement drops in lower-resource languages and less commonly supported scripts.
- Abstract(参考訳): LLMs(Large Language Models)の安全性評価は、Low-Resource Languages(LRL)、特にアフリカ言語(英語版)が、非常に過小評価され、英語中心のままである。
JBBプロンプトの人訳、JBBプロンプトの人訳、GPT-5.2との対話によって検証された人訳プロンプト、英語とアフリカ語を組み合わせたコード変更プロンプト、言語、文化的な基盤、モデル安全性に対する即時回避の4つの設定を通じて、JBB(JailbreakBench)を拡張した7つのアフリカの言語に対するジェイルブレイクベンチマークであるTUKABENCHを紹介する。
クローズドでオープンなモデル全体において、アフリカ語では拒絶が減少し、文化的に適応したプロンプトは最小限の拒絶につながる。
また、モデル理解障害とLRLのLLM-as-a-judge信頼性の低下という2つの構造的限界も明らかにした。
第1に、RefusedとJailbrokenとともにDeflectionを導入し、第2に、人間のアノテーションによるアウトプットを検証する。
関連論文リスト
- Same Model, Different Weakness: How Language and Modality Reshape the Jailbreak Attack Surface in Frontier MLLMs [0.0]
米国英語(en-US)とメキシコスペイン語(es-MX)のジェイルブレイク脆弱性を比較検討した最初の体系的言語横断型マルチモーダル型レッドチーム研究について述べる。
私たちの中心的な発見は、言語が脆弱性を均一にスケールしないことです。
これは、言語的および視覚的なアライメント障害が、異なるメカニズムを通して機能し、切り換え言語がその分離を公開するのに十分であることを示している。
論文 参考訳(メタデータ) (2026-05-22T02:12:45Z) - LSR: Linguistic Safety Robustness Benchmark for Low-Resource West African Languages [0.0]
我々は、西アフリカの言語における言語間拒絶劣化を測定するための最初の体系的ベンチマークであるLSRを紹介する。
文化に根ざした14の攻撃プローブにおけるGemini 2.5 Flashを4つの有害カテゴリで評価した。
西アフリカの言語全体では、拒絶率は35~55%に低下し、イガラは最も深刻な減少を示している。
論文 参考訳(メタデータ) (2026-02-27T22:54:31Z) - Improving Methodologies for LLM Evaluations Across Global Languages [19.63570354411416]
このエクササイズは、安全行動が言語によってどのように異なるかを示しています。
また、多言語安全性評価を改善するための洞察も生み出した。
この研究は、先進的なAIシステムの多言語安全テストのための共有フレームワークに向けた最初のステップである。
論文 参考訳(メタデータ) (2026-01-22T07:18:08Z) - Think Natively: Unlocking Multilingual Reasoning with Consistency-Enhanced Reinforcement Learning [85.7304930030649]
本稿では,言語一貫性報酬と言語間思考アライメント報酬によって訓練されたM-Thinkerを提案する。
M-Thinkerは2つのマルチ言語ベンチマークで100%近い言語一貫性と優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-10-08T17:55:02Z) - The State of Large Language Models for African Languages: Progress and Challenges [4.065633096286487]
本稿では,6つの大言語モデル (LLM) ,8つの小言語モデル (SLM) および6つの特殊SLM (SSLM) のアフリカ言語カバレッジを比較検討する。
評価対象は、言語カバレッジ、トレーニングセット、技術的な制限、スクリプトの問題、言語モデリングのロードマップなどだ。
論文 参考訳(メタデータ) (2025-06-02T21:39:40Z) - Zero-Shot Cross-Lingual Reranking with Large Language Models for
Low-Resource Languages [51.301942056881146]
アフリカ語における言語間情報検索システムにおいて,大規模言語モデル (LLM) がリランカーとしてどのように機能するかを検討する。
私たちの実装は、英語と4つのアフリカの言語(ハウサ語、ソマリ語、スワヒリ語、ヨルバ語)を対象としています。
我々は、英語のクェリとアフリカの言葉の文節による言語横断的な格付けについて検討する。
論文 参考訳(メタデータ) (2023-12-26T18:38:54Z) - AfroBench: How Good are Large Language Models on African Languages? [55.35674466745322]
AfroBenchは、64のアフリカ言語にわたるLLMのパフォーマンスを評価するためのベンチマークである。
AfroBenchは9つの自然言語理解データセット、6つのテキスト生成データセット、6つの知識と質問応答タスク、1つの数学的推論タスクで構成される。
論文 参考訳(メタデータ) (2023-11-14T08:10:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。