論文の概要: ThaiSafetyBench: Assessing Language Model Safety in Thai Cultural Contexts
- arxiv url: http://arxiv.org/abs/2603.04992v1
- Date: Thu, 05 Mar 2026 09:35:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 22:06:11.168761
- Title: ThaiSafetyBench: Assessing Language Model Safety in Thai Cultural Contexts
- Title(参考訳): タイ・セーフティベンチ:タイ文化の文脈で言語モデルの安全性を評価する
- Authors: Trapoom Ukarapol, Nut Chukamphaeng, Kunat Pipatanakul, Pakhapoom Sarapat,
- Abstract要約: ThaiSafetyBenchは、タイ語で書かれた1,954の悪意のあるプロンプトからなるオープンソースのベンチマークである。
このデータセットは、タイの文化的、社会的、文脈的なニュアンスに明確に根ざした一般的な有害なプロンプトと攻撃の両方をカバーしている。
以上の結果から,クローズド・ソース・モデルはオープンソース・モデルに比べて安全性が向上することが示された。
- 参考スコア(独自算出の注目度): 2.8390615310621943
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The safety evaluation of large language models (LLMs) remains largely centered on English, leaving non-English languages and culturally grounded risks underexplored. In this work, we investigate LLM safety in the context of the Thai language and culture and introduce ThaiSafetyBench, an open-source benchmark comprising 1,954 malicious prompts written in Thai. The dataset covers both general harmful prompts and attacks that are explicitly grounded in Thai cultural, social, and contextual nuances. Using ThaiSafetyBench, we evaluate 24 LLMs, with GPT-4.1 and Gemini-2.5-Pro serving as LLM-as-a-judge evaluators. Our results show that closed-source models generally demonstrate stronger safety performance than open-source counterparts, raising important concerns regarding the robustness of openly available models. Moreover, we observe a consistently higher Attack Success Rate (ASR) for Thai-specific, culturally contextualized attacks compared to general Thai-language attacks, highlighting a critical vulnerability in current safety alignment methods. To improve reproducibility and cost efficiency, we further fine-tune a DeBERTa-based harmful response classifier, which we name ThaiSafetyClassifier. The model achieves a weighted F1 score of 84.4%, matching GPT-4.1 judgments. We publicly release the fine-tuning weights and training scripts to support reproducibility. Finally, we introduce the ThaiSafetyBench leaderboard to provide continuously updated safety evaluations and encourage community participation. - ThaiSafetyBench HuggingFace Dataset: https://huggingface.co/datasets/typhoon-ai/ThaiSafetyBench - ThaiSafetyBench Github: https://github.com/trapoom555/ThaiSafetyBench - ThaiSafetyClassifier HuggingFace Model: https://huggingface.co/typhoon-ai/ThaiSafetyClassifier - ThaiSafetyBench Leaderboard: https://huggingface.co/spaces/typhoon-ai/ThaiSafetyBench-Leaderboard
- Abstract(参考訳): 大規模言語モデル(LLM)の安全性評価は、英語を中心に行われており、非英語と文化的に根ざしたリスクが過小評価されている。
本研究では,タイ語と文化の文脈におけるLLMの安全性を調査し,タイ語で書かれた1,954個の悪意のあるプロンプトからなるオープンソースベンチマークであるThaiSafetyBenchを紹介する。
このデータセットは、タイの文化的、社会的、文脈的なニュアンスに明確に根ざした一般的な有害なプロンプトと攻撃の両方をカバーしている。
タイのSafetyBench を用いて, GPT-4.1 と Gemini-2.5-Pro を LLM-as-a-judge 評価器として使用した 24 LLM の評価を行った。
以上の結果から,クローズド・ソース・モデルはオープンソース・モデルに比べて安全性が優れており,オープン・ソース・モデルの堅牢性に関する重要な懸念が浮き彫りにされている。
さらに,タイ語による一般的な攻撃と比較して,タイ語固有の文化的文脈による攻撃に対する攻撃成功率(ASR)は一貫して高く,現行の安全アライメント手法の重大な脆弱性を浮き彫りにしている。
再現性とコスト効率を向上させるため,DeBERTaベースの有害応答分類器をさらに微調整し,ThaiSafetyClassifierと命名した。
このモデルは重み付きF1スコア84.4%を獲得し、GPT-4.1判定と一致する。
再現性をサポートするための微調整とトレーニングスクリプトを公開しています。
最後に,ThaiSafetyBenchのリーダボードを導入し,継続的に更新された安全性評価とコミュニティ参加を促進する。
- ThaiSafetyBench HuggingFace Dataset: https://huggingface.co/datasets/typhoon-ai/ThaiSafetyBench Github: https://github.com/trapoom555/ThaiSafetyBench - ThaiSafetyClassifier HuggingFace Model: https://huggingface.co/typhoon-ai/ThaiSafetyClassifier - ThaiSafetyBench Leaderboard: https://huggingface.co/spaces/typhoingface.co/ThaiSafetyBench-Leaderboard
関連論文リスト
- A Safety Report on GPT-5.2, Gemini 3 Pro, Qwen3-VL, Grok 4.1 Fast, Nano Banana Pro, and Seedream 4.5 [101.4233736714284]
大規模言語モデル(LLM)とマルチモーダル大規模言語モデル(MLLM)は、言語とビジョンをまたいだ推論、認識、生成において大きな進歩をもたらした。
GPT-5.2, Gemini 3 Pro, Qwen3-VL, Grok 4.1 Fast, Nano Banana Pro, Seedream 4.5-assesing each across language, vision- language and image generation。
論文 参考訳(メタデータ) (2026-01-15T15:52:52Z) - Response-Based Knowledge Distillation for Multilingual Jailbreak Prevention Unwittingly Compromises Safety [3.8433556466595937]
大規模言語モデル (LLM) は世界中に展開されているが、その安全性は英語を中心に維持されている。
本稿では,多言語ジェイルブレイク防止における知識蒸留(KD)の新たな応用について紹介する。
プロプライエタリな教師モデルの拒絶行動を,Meta-Llama-3-8B-Instruct, Gemma-2-2B-IT, Qwen3-8Bの3つのオープンソース学生モデルに蒸留する。
論文 参考訳(メタデータ) (2025-12-08T06:48:17Z) - SEA-SafeguardBench: Evaluating AI Safety in SEA Languages and Cultures [36.95168918567729]
既存のマルチ言語安全ベンチマークは、しばしば機械翻訳された英語データに依存している。
SEA-SafeguardBenchは,SEAの最初の人間認証安全ベンチマークである。
8つの言語、21,640のサンプル、および3つのサブセット(ジェネラル、イン・ザ・ワイルド、コンテンツ生成)をカバーする。
論文 参考訳(メタデータ) (2025-12-05T07:57:57Z) - OutSafe-Bench: A Benchmark for Multimodal Offensive Content Detection in Large Language Models [54.80460603255789]
マルチモーダル時代に設計された,最も包括的なコンテンツ安全性評価テストスイートであるOutSafe-Benchを紹介する。
OutSafe-Benchには、4つのモダリティにまたがる大規模なデータセットが含まれており、18,000以上のバイリンガル(中国語と英語)テキストプロンプト、4500のイメージ、450のオーディオクリップ、450のビデオが9つの重要なコンテンツリスクカテゴリで体系的に注釈付けされている。
このデータセットに加えて,多次元クロスリスクスコア(Multidimensional Cross Risk Score, MCRS)も導入した。
論文 参考訳(メタデータ) (2025-11-13T13:18:27Z) - Towards Understanding the Safety Boundaries of DeepSeek Models: Evaluation and Findings [51.65890794988425]
本研究は,DeepSeekモデルの最初の包括的安全性評価である。
評価対象は,DeepSeekの最新の大規模言語モデル,マルチモーダル大規模言語モデル,テキスト・ツー・イメージモデルである。
論文 参考訳(メタデータ) (2025-03-19T10:44:37Z) - Typhoon: Thai Large Language Models [10.104705021561008]
タイ語(タイ語: Typhoon)は、タイ語向けに開発された大型言語モデルである。
本報告では,タイのLLM開発における課題と知見について述べる。
論文 参考訳(メタデータ) (2023-12-21T15:38:41Z) - SC-Safety: A Multi-round Open-ended Question Adversarial Safety
Benchmark for Large Language Models in Chinese [21.893992064105085]
大規模言語モデル(LLM)は、社会的知覚に悪影響を及ぼす有害なコンテンツを生成できる。
SuperCLUE-Safety (SC-Safety) は、20以上の安全サブディメンジョンをカバーする4912のオープンエンド質問を備えたマルチラウンドの敵対的ベンチマークである。
論文 参考訳(メタデータ) (2023-10-09T16:03:22Z) - All Languages Matter: On the Multilingual Safety of Large Language Models [96.47607891042523]
我々は、大規模言語モデル(LLM)のための最初の多言語安全ベンチマークを構築した。
XSafetyは、複数の言語ファミリーにまたがる10言語にわたる14種類の一般的な安全問題をカバーしている。
本稿では,ChatGPTの多言語安全性向上のための簡易かつ効果的なプロンプト手法を提案する。
論文 参考訳(メタデータ) (2023-10-02T05:23:34Z) - SafetyBench: Evaluating the Safety of Large Language Models [54.878612385780805]
SafetyBenchは、大規模言語モデル(LLM)の安全性を評価するための包括的なベンチマークである。
11,435 の多様な選択質問が 7 つの異なるカテゴリーの安全問題にまたがっている。
ゼロショット設定と少数ショット設定の両方で、中国語と英語のLLMを25回以上テストしたところ、GPT-4よりも大幅にパフォーマンス上の優位性を示しました。
論文 参考訳(メタデータ) (2023-09-13T15:56:50Z) - Safety Assessment of Chinese Large Language Models [51.83369778259149]
大規模言語モデル(LLM)は、侮辱や差別的なコンテンツを生成し、誤った社会的価値を反映し、悪意のある目的のために使用されることがある。
安全で責任があり倫理的なAIの展開を促進するため、LLMによる100万の強化プロンプトとレスポンスを含むセーフティプロンプトをリリースする。
論文 参考訳(メタデータ) (2023-04-20T16:27:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。