論文の概要: Taiwan Safety Benchmark and Breeze Guard: Toward Trustworthy AI for Taiwanese Mandarin
- arxiv url: http://arxiv.org/abs/2603.07286v1
- Date: Sat, 07 Mar 2026 17:13:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:14.205193
- Title: Taiwan Safety Benchmark and Breeze Guard: Toward Trustworthy AI for Taiwanese Mandarin
- Title(参考訳): 台湾の安全ベンチマークとブリーズガード:台湾のマンダリンに信頼できるAIを目指す
- Authors: Po-Chun Hsu, Meng-Hsi Chen, Tsu Ling Chao, Chia Tien Han, Da-shan Shiu,
- Abstract要約: 台湾のマンダリンの安全性能を評価するための標準化された評価スイートTS-Bench(台湾安全ベンチマーク)を紹介する。
TS-Benchには、金融詐欺、医療の誤報、社会的差別、政治的操作など、重要な領域にまたがる400の人為的なプロンプトが含まれている。
本稿では,Breeze 2から派生した8B安全モデルであるBreeze Guardについて紹介する。
- 参考スコア(独自算出の注目度): 8.569205385775936
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Global safety models exhibit strong performance across widely used benchmarks, yet their training data rarely captures the cultural and linguistic nuances of Taiwanese Mandarin. This limitation results in systematic blind spots when interpreting region-specific risks such as localized financial scams, culturally embedded hate speech, and misinformation patterns. To address these gaps, we introduce TS-Bench (Taiwan Safety Benchmark), a standardized evaluation suite for assessing safety performance in Taiwanese Mandarin. TS-Bench contains 400 human-curated prompts spanning critical domains including financial fraud, medical misinformation, social discrimination, and political manipulation. In parallel, we present Breeze Guard, an 8B safety model derived from Breeze 2, our previously released general-purpose Taiwanese Mandarin LLM with strong cultural grounding from its original pre-training corpus. Breeze Guard is obtained through supervised fine-tuning on a large-scale, human-verified synthesized dataset targeting Taiwan-specific harms. Our central hypothesis is that effective safety detection requires the cultural grounding already present in the base model; safety fine-tuning alone is insufficient to introduce new socio linguistic knowledge from scratch. Empirically, Breeze Guard significantly outperforms the leading 8B general-purpose safety model, Granite Guardian 3.3, on TS-Bench (+0.17 overall F1), with particularly large gains in high-context categories such as scam (+0.66 F1) and financial malpractice (+0.43 F1). While the model shows slightly lower performance on English-centric benchmarks (ToxicChat, AegisSafetyTest), this tradeoff is expected for a regionally specialized safety model optimized for Taiwanese Mandarin. Together, Breeze Guard and TS-Bench establish a new foundation for trustworthy AI deployment in Taiwan.
- Abstract(参考訳): グローバル安全モデルは広く使用されているベンチマークで強い性能を示すが、そのトレーニングデータは台湾のマンダリンの文化的・言語的なニュアンスを捉えることは滅多にない。
この制限は、局所的な金融詐欺、文化的に埋め込まれたヘイトスピーチ、誤情報パターンなどの地域固有のリスクを解釈する際に、系統的な盲点をもたらす。
これらのギャップに対処するために,台湾のマンダリンの安全性能を評価するための標準化された評価スイートTS-Bench(台湾安全ベンチマーク)を紹介した。
TS-Benchには、金融詐欺、医療の誤報、社会的差別、政治的操作など、重要な領域にまたがる400の人為的なプロンプトが含まれている。
本稿では,Breeze 2から派生した8B安全モデルであるBreeze Guardについて紹介する。
ブレーズガードは、台湾固有の害を対象とする大規模で検証された人為的な合成データセットの教師付き微調整によって得られる。
我々の中心的な仮説は、効果的な安全性検出には、既にベースモデルに存在する文化的な基盤が必要であり、安全性の微調整だけでは、ゼロから新しい社会言語知識を導入するには不十分である、というものである。
ブレーゼガードは8Bの一般的な安全モデルであるグラナイト・ガーディアン3.3をTS-ベンチ(全体のF1は+0.17)で上回り、特に詐欺(+0.66 F1)や財政的不正(+0.43 F1)のような高文脈のカテゴリーで大きく上回っている。
このモデルは、英語中心のベンチマーク(ToxicChat、AegisSafetyTest)では若干性能が低いが、台湾のマンダリン向けに最適化された地域に特化した安全モデルでは、このトレードオフが期待できる。
Breeze GuardとTS-Benchは共に、台湾における信頼できるAI展開のための新しい基盤を設立した。
関連論文リスト
- ThaiSafetyBench: Assessing Language Model Safety in Thai Cultural Contexts [2.8390615310621943]
ThaiSafetyBenchは、タイ語で書かれた1,954の悪意のあるプロンプトからなるオープンソースのベンチマークである。
このデータセットは、タイの文化的、社会的、文脈的なニュアンスに明確に根ざした一般的な有害なプロンプトと攻撃の両方をカバーしている。
以上の結果から,クローズド・ソース・モデルはオープンソース・モデルに比べて安全性が向上することが示された。
論文 参考訳(メタデータ) (2026-03-05T09:35:50Z) - SEA-Guard: Culturally Grounded Multilingual Safeguard for Southeast Asia [36.95168918567729]
リソースが限られ、ネイティブアノテータが不足しているため、大規模な文化的基盤を持つデータセットの構築は困難である。
本稿では,東南アジアにおける真正かつ地域固有の安全データセットを高度に作成するための新しいエージェントデータ生成フレームワークを提案する。
SEA-Guardファミリーは、SEA文化の文脈に根ざした最初の多言語セーフガードモデルである。
論文 参考訳(メタデータ) (2026-02-02T04:20:35Z) - A Safety Report on GPT-5.2, Gemini 3 Pro, Qwen3-VL, Grok 4.1 Fast, Nano Banana Pro, and Seedream 4.5 [101.4233736714284]
大規模言語モデル(LLM)とマルチモーダル大規模言語モデル(MLLM)は、言語とビジョンをまたいだ推論、認識、生成において大きな進歩をもたらした。
GPT-5.2, Gemini 3 Pro, Qwen3-VL, Grok 4.1 Fast, Nano Banana Pro, Seedream 4.5-assesing each across language, vision- language and image generation。
論文 参考訳(メタデータ) (2026-01-15T15:52:52Z) - CSSBench: Evaluating the Safety of Lightweight LLMs against Chinese-Specific Adversarial Patterns [43.09570813322625]
本研究では,中国における大規模言語モデル(LLM)の安全性を評価するために,CSSBenchを導入した。
私たちのベンチマークでは、違法な活動やコンプライアンス、プライバシーの漏洩、健康と医療の誤報、詐欺と憎悪、公共と政治の安全など、実際の中国のシナリオで一般的な6つのドメインをカバーしています。
以上の結果から,中国固有の対数パターンは軽量LLMにとって重要な課題であることが明らかとなった。
論文 参考訳(メタデータ) (2026-01-02T06:21:41Z) - SEA-SafeguardBench: Evaluating AI Safety in SEA Languages and Cultures [36.95168918567729]
既存のマルチ言語安全ベンチマークは、しばしば機械翻訳された英語データに依存している。
SEA-SafeguardBenchは,SEAの最初の人間認証安全ベンチマークである。
8つの言語、21,640のサンプル、および3つのサブセット(ジェネラル、イン・ザ・ワイルド、コンテンツ生成)をカバーする。
論文 参考訳(メタデータ) (2025-12-05T07:57:57Z) - All Languages Matter: On the Multilingual Safety of Large Language Models [96.47607891042523]
我々は、大規模言語モデル(LLM)のための最初の多言語安全ベンチマークを構築した。
XSafetyは、複数の言語ファミリーにまたがる10言語にわたる14種類の一般的な安全問題をカバーしている。
本稿では,ChatGPTの多言語安全性向上のための簡易かつ効果的なプロンプト手法を提案する。
論文 参考訳(メタデータ) (2023-10-02T05:23:34Z) - SafetyBench: Evaluating the Safety of Large Language Models [54.878612385780805]
SafetyBenchは、大規模言語モデル(LLM)の安全性を評価するための包括的なベンチマークである。
11,435 の多様な選択質問が 7 つの異なるカテゴリーの安全問題にまたがっている。
ゼロショット設定と少数ショット設定の両方で、中国語と英語のLLMを25回以上テストしたところ、GPT-4よりも大幅にパフォーマンス上の優位性を示しました。
論文 参考訳(メタデータ) (2023-09-13T15:56:50Z) - Safety Assessment of Chinese Large Language Models [51.83369778259149]
大規模言語モデル(LLM)は、侮辱や差別的なコンテンツを生成し、誤った社会的価値を反映し、悪意のある目的のために使用されることがある。
安全で責任があり倫理的なAIの展開を促進するため、LLMによる100万の強化プロンプトとレスポンスを含むセーフティプロンプトをリリースする。
論文 参考訳(メタデータ) (2023-04-20T16:27:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。