Fugu-MT 論文翻訳(概要): KZ-SafetyPrompts: A Kazakh Safety Evaluation Prompt Dataset for Large Language Models

論文の概要: KZ-SafetyPrompts: A Kazakh Safety Evaluation Prompt Dataset for Large Language Models

arxiv url: http://arxiv.org/abs/2605.26947v1
Date: Tue, 26 May 2026 12:36:15 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-27 17:51:42.090644
Title: KZ-SafetyPrompts: A Kazakh Safety Evaluation Prompt Dataset for Large Language Models
Title（参考訳）: KZ-SafetyPrompts: 大規模言語モデルのためのカザフスタンの安全性評価プロンプトデータセット
Authors: Wajdi Zaghouani, Shimaa Amer Ibrahim, Aruzhan Muratbek, Olzhasbek Zhakenov, Adiya Akhmetzhanova,
Abstract要約: KZ-SafetyPromptsは、カザフスタンの安全評価のためのプロンプトデータセットである。データセットには、カテゴリー別に整理されたカザフ語で書かれた5,717のプロンプトと、言語間の分析のための英語翻訳が含まれている。 GPT-4oの結果、全体の拒絶率は28.2%で、カテゴリーごとに5.5%から53.8%に変化している。
参考スコア（独自算出の注目度）: 0.4970103546861259
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Kazakh is underrepresented in resources for evaluating the safety behavior of large language models. We present KZ-SafetyPrompts, a Kazakh prompt dataset for safety evaluation across eleven categories covering common risk areas such as self-harm, violence, child exploitation, sexual content, racist content, radicalization, and regulated goods or illegal activities. The dataset contains 5,717 prompts written natively in Kazakh (Cyrillic), organized by category, with English translations for cross-lingual analysis. Prompts resemble realistic user queries, often in a teen or child style, and are phrased as intent prompts without procedural instructions. We document the writing protocol, labeling procedures (including borderline-case decision rules), and quality-control steps (schema standardization, completeness checks, and deduplication). We also align the categories with widely used safety taxonomies to support integration with existing evaluation pipelines. Baseline results with GPT-4o show an overall refusal rate of 28.2%, varying from 5.5% to 53.8% across categories, indicating that Kazakh prompts expose category-specific safety gaps not captured by English-only evaluation.
Abstract（参考訳）: カザフ語は、大きな言語モデルの安全行動を評価するためのリソースとして不足している。 KZ-SafetyPromptsは、自傷行為、暴力、児童虐待、性的コンテンツ、人種差別的コンテンツ、過激化、規制商品や違法行為など、一般的な危険領域をカバーする、カザフスタンの安全評価データセットである。データセットには、カザフ語でネイティブに書かれた5,717のプロンプトが含まれている。プロンプトは、しばしばティーンやチャイルドスタイルの現実的なユーザクエリに似ており、手続き的な指示なしにインテントプロンプトとして表現される。書記プロトコル、ラベル付け手順(境界事例決定規則を含む)、品質管理手順(スキーマ標準化、完全性チェック、重複)を文書化する。また、既存の評価パイプラインとの統合を支援するために、これらのカテゴリを広く使用されている安全分類と整合させる。 GPT-4oの基準値は28.2%であり、カテゴリーごとに5.5%から53.8%に変化している。

関連論文リスト

VLSU: Mapping the Limits of Joint Multimodal Understanding for AI Safety [3.1109025622085693]
マルチモーダル安全性を評価する包括的フレームワークであるVision Language Safety Understandingを提案する。 11種類の最先端モデルについて評価した結果, 系統的な共同理解の失敗が判明した。我々のフレームワークは、現在のモデルにおける共同画像テキスト理解とアライメントギャップの弱点を明らかにする。
論文参考訳（メタデータ） (2025-10-21T01:30:31Z)
A Granular Study of Safety Pretraining under Model Abliteration [64.24346997570275]
本稿では,リフレクションに敏感な方向を除去する軽量プロジェクション技術であるモデルアブリーブレーションについて検討する。我々は、バランスのとれた有害かつ無害なケースで100のプロンプトを発行し、複数の判断を用いて**Refusal*または***Non-Refusal*として応答を分類し、判断の忠実さを検証する。本研究は,データ中心の安全コンポーネントが失語中も頑健であるチェックポイントレベルの特徴付けを行う。
論文参考訳（メタデータ） (2025-10-03T07:01:45Z)
PolyGuard: A Multilingual Safety Moderation Tool for 17 Languages [27.318299273902984]
PolyGUARDは、LLM(Large Language Models)世代を保護するための、最先端の多言語安全モデルである。これまでに17言語にまたがる190万のサンプルを含む、最大規模の多言語安全訓練コーパスで訓練されている。 PolyGUARDPROMPTSは、安全ガードレールの評価のための29Kサンプルを用いた高品質な多言語ベンチマークである。
論文参考訳（メタデータ） (2025-04-06T06:09:21Z)
Qorgau: Evaluating LLM Safety in Kazakh-Russian Bilingual Contexts [40.0358736497799]
大規模言語モデル(LLM)は有害なコンテンツを生成する可能性があることが知られている。本稿では,カザフ語とロシア語の安全性評価に特化して設計された新しいデータセットであるQorgauを紹介する。
論文参考訳（メタデータ） (2025-02-19T11:33:22Z)
LLMs Lost in Translation: M-ALERT uncovers Cross-Linguistic Safety Inconsistencies [63.10843814055688]
M-ALERTは5つの言語における大規模言語モデルの安全性を評価するベンチマークである。 M-ALERTには言語毎に15kの高品質なプロンプトが含まれており、合計で75k、カテゴリワイドアノテーションがある。 39種類のLLMに関する実験は,言語固有の安全性解析の重要性を強調した。
論文参考訳（メタデータ） (2024-12-19T16:46:54Z)
SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal [64.9938658716425]
SORRY-Benchは、安全でないユーザ要求を認識し拒否する大規模言語モデル(LLM)能力を評価するためのベンチマークである。まず、既存の手法では、安全でないトピックの粗い分類を使い、いくつかのきめ細かいトピックを過剰に表現している。第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
論文参考訳（メタデータ） (2024-06-20T17:56:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。