論文の概要: SomaliBench Eval: Measuring English-to-Somali Refusal Gaps in Open-Weight Language Models
- arxiv url: http://arxiv.org/abs/2605.25420v1
- Date: Mon, 25 May 2026 04:45:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:19.289305
- Title: SomaliBench Eval: Measuring English-to-Somali Refusal Gaps in Open-Weight Language Models
- Title(参考訳): SomaliBench Eval: オープンウェイト言語モデルにおける英ソマリ拒絶ギャップの測定
- Authors: Khalid Yusuf Dahir,
- Abstract要約: SomaliBench v0。
4つのモデルすべてに対して、大きな英語とソマリアの拒絶ギャップが見つかる。
3つのモデルにおいて、支配的なソマリアの非拒絶モードは、有害なコンプライアンスに恵まれず、不明確な出力である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language model safety evaluation remains heavily English-centered, leaving low-resource languages under-measured even when models are deployed globally. We evaluate four open-weight instruction-tuned models on SomaliBench v0, a native-author-verified benchmark of 100 harmful-intent prompts paired across English and Somali. Each of Llama-3.1-8B-Instruct, Gemma-2-9B-Instruct, Qwen-2.5-7B-Instruct, and Aya-23-8B is run locally with temperature 0 and the same English "helpful, harmless, and honest" (HHH) system prompt. A pinned Claude Sonnet snapshot (claude-sonnet-4-5-20250929) classifies each response as refused, complied, or unclear; the native author spot-checks a stratified 80-row sample. We find large English-to-Somali refusal gaps for all four models: Llama-3.1-8B (0.90; 95% bootstrap CI [0.85, 0.96]), Aya-23-8B (0.75 [0.67, 0.83]), Qwen-2.5-7B (0.69 [0.59, 0.78]), and Gemma-2-9B (0.38 [0.27, 0.49]). For three models, the dominant Somali non-refusal mode is not fluent harmful compliance but unclear output: empty, wrong-language, or incoherent generations. The native verification spot-check achieves 100% agreement with the judge (Cohen's kappa = 1.00) on the 80 sampled rows. We report aggregate refusal rates, category gaps, and reliability statistics only; raw model generations are retained locally and are not released.
- Abstract(参考訳): 大規模な言語モデルの安全性評価は依然として英語中心であり、たとえ世界規模でモデルがデプロイされたとしても、低リソース言語は未測定のままである。
SomaliBench v0は、英語とソマリ語にまたがる100の有害インテリジェントプロンプトをネイティブに検証したベンチマークである。
Llama-3.1-8B-インストラクタ、Gemma-2-9B-インストラクタ、Qwen-2.5-7B-インストラクタ、Aya-23-8Bはそれぞれ、温度0と同じ英語の"helpful, harmless, and honest"(HHH)システムによってローカルに実行される。
ピン留めされたClaude Sonnetスナップショット(claude-sonnet-4-5-20250929)は、各レスポンスを拒否、コンプライアンス、不明と分類する。
Llama-3.1-8B (0.90; 95% bootstrap CI [0.85, 0.96])、Aya-23-8B (0.75 [0.67, 0.83])、Qwen-2.5-7B (0.69 [0.59, 0.78])、Gemma-2-9B (0.38 [0.27, 0.49]) の4モデルすべてに対する大きな英ソマリの拒絶ギャップが見つかった。
3つのモデルでは、支配的なソマリの非拒絶モードは、有害なコンプライアンスに恵まれず、不明瞭なアウトプットである:空、間違った言語、一貫性のない世代である。
ネイティブ検証スポットチェックは、80個のサンプル行に対して、審査員(コーエンのkappa = 1.00)との100%の一致を達成する。
我々は、総断率、カテゴリギャップ、信頼性統計のみを報告し、生モデル世代は局所的に保持され、リリースされない。
関連論文リスト
- A Comparative Study of Language Models for Khmer Retrieval-Augmented Question Answering [0.0]
Retrieval-Augmented Generation (RAG) は, 大規模言語モデル(LLM) のアウトプットを確定する上で有望なパラダイムとして出現している。
本稿では,Khmer 言語通信ドメイン文書に対する RAG に基づく質問応答システムを提案する。
論文 参考訳(メタデータ) (2026-05-21T07:36:01Z) - RefusalBench: Why Refusal Rate Misranks Frontier LLMs on Biological Research Prompts [0.0]
厳格な拒絶率は、同じプロンプトで0.1%から94.6%である。
18のフロンティアモデルのうち9つは、バイナリーリフェールメトリクスが検出できないデュアルユース層で、ヘッジ・ブット・ヘルプ部分コンプライアンスパターンを示す。
論文 参考訳(メタデータ) (2026-05-20T09:53:31Z) - Articulate but Wrong: Self-Review Failures in LLM-Based Code Modernization [1.0164694825170502]
大きな言語モデル(LLM)エージェントは、レガシーコードを現代的なスタックに移行するのにますます使われています。
バランスの取れた60スニペットのレガシPython-2コーパス上で、7つの異なるファミリーから11のLLMで1,980のリアルタイムモダナイゼーションコールを実行しています。
セマンティック保存ドリフトは、クリーンに制御されたベースラインから広く普及し、鋭く分離可能であることが判明した。
論文 参考訳(メタデータ) (2026-05-20T05:00:31Z) - Benchmarking Linguistic Adaptation in Comparable-Sized LLMs: A Study of Llama-3.1-8B, Mistral-7B-v0.1, and Qwen3-8B on Romanized Nepali [0.0]
ネパール語はラテン文字で書かれたネパール語であり、ネパールにおける非公式なデジタルコミュニケーションの主流となっている。
本研究では、3つの同等サイズのオープンウェイトモデルにまたがる言語適応の系統的ベンチマークを示す。
論文 参考訳(メタデータ) (2026-03-25T07:02:51Z) - BrainBench: Exposing the Commonsense Reasoning Gap in Large Language Models [4.264192013842096]
大きな言語モデル(LLM)は、標準ベンチマークで印象的なスコアを得るが、人間が数秒で正しく答えられるような質問を日常的に失敗する。
BrainBenchは、慎重に設計された20のカテゴリにまたがる100のブレインティーザー質問のベンチマークです。
論文 参考訳(メタデータ) (2026-03-16T02:50:43Z) - RefineBench: Evaluating Refinement Capability of Language Models via Checklists [71.02281792867531]
本研究は,2つの改良モード(ガイドリファインメントと自己リファインメント)を評価する。
ガイド付き改良では、プロプライエタリなLMと大きなオープンウェイトLMの両方が目標フィードバックを利用して、5ターン以内のほぼ完全なレベルへの応答を洗練できる。
これらの結果は、フロンティアLMは誤った反応を自己調整するためにブレークスルーを必要とすることを示唆している。
論文 参考訳(メタデータ) (2025-11-27T07:20:52Z) - Erasing Without Remembering: Implicit Knowledge Forgetting in Large Language Models [81.62767292169225]
我々は,その一般化に着目して,大規模言語モデルにおける知識の忘れについて検討する。
確率摂動に基づく新しいアンラーニングパラダイムであるPerMUを提案する。
TOFU、Harry Potter、ZsRE、WMDP、MUSEなど、さまざまなデータセットで実験が行われている。
論文 参考訳(メタデータ) (2025-02-27T11:03:33Z) - Paloma: A Benchmark for Evaluating Language Model Fit [112.481957296585]
言語モデル (LM) の評価では、トレーニングから切り離されたモノリシックなデータに難易度が報告されるのが一般的である。
Paloma(Perplexity Analysis for Language Model Assessment)は、546の英語およびコードドメインに適合するLMを測定するベンチマークである。
論文 参考訳(メタデータ) (2023-12-16T19:12:45Z) - Holistic Evaluation of Language Models [183.94891340168175]
言語モデル(LM)は、ほとんどすべての主要言語技術の基盤となっているが、その能力、制限、リスクはよく理解されていない。
本稿では,言語モデルの透明性を向上させるために,言語モデルの完全性評価(HELM)を提案する。
論文 参考訳(メタデータ) (2022-11-16T18:51:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。