論文の概要: IndoSafety: Culturally Grounded Safety for LLMs in Indonesian Languages
- arxiv url: http://arxiv.org/abs/2506.02573v1
- Date: Tue, 03 Jun 2025 07:53:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:35.416336
- Title: IndoSafety: Culturally Grounded Safety for LLMs in Indonesian Languages
- Title(参考訳): IndoSafety: インドネシア語におけるLDMの文化的安全性
- Authors: Muhammad Falensi Azmi, Muhammad Dehan Al Kautsar, Alfan Farizki Wicaksono, Fajri Koto,
- Abstract要約: IndoSafetyは、インドネシアの文脈に合わせた、最初の高品質で人間認証された安全評価データセットである。
IndoSafetyは、インドネシアの社会文化的文脈を捉えた分類を開発するために、事前の安全枠組みを拡張して構築されている。
- 参考スコア(独自算出の注目度): 6.4212082894269535
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although region-specific large language models (LLMs) are increasingly developed, their safety remains underexplored, particularly in culturally diverse settings like Indonesia, where sensitivity to local norms is essential and highly valued by the community. In this work, we present IndoSafety, the first high-quality, human-verified safety evaluation dataset tailored for the Indonesian context, covering five language varieties: formal and colloquial Indonesian, along with three major local languages: Javanese, Sundanese, and Minangkabau. IndoSafety is constructed by extending prior safety frameworks to develop a taxonomy that captures Indonesia's sociocultural context. We find that existing Indonesian-centric LLMs often generate unsafe outputs, particularly in colloquial and local language settings, while fine-tuning on IndoSafety significantly improves safety while preserving task performance. Our work highlights the critical need for culturally grounded safety evaluation and provides a concrete step toward responsible LLM deployment in multilingual settings. Warning: This paper contains example data that may be offensive, harmful, or biased.
- Abstract(参考訳): 地域固有の大規模言語モデル (LLMs) はますます発展しているが、その安全性はいまだ過小評価されている。特にインドネシアのような文化的に多様な環境では、地域の規範に対する感受性が重要であり、コミュニティから高い評価を受けている。
IndoSafetyはインドネシアの文脈に合わせた最初の高品質で人間認証された安全評価データセットで、インドネシア語と公用語の5種類の言語と、ジャワ語、スンダ語、ミナンカバウの3つの主要言語をカバーしています。
IndoSafetyは、インドネシアの社会文化的文脈を捉えた分類を開発するために、事前の安全枠組みを拡張して構築されている。
IndoSafetyの微調整はタスク性能を保ちながら安全性を著しく向上させる一方、既存のインドネシア中心のLCMは、特に口語やローカル言語の設定において、安全でないアウトプットを生成することが多い。
本研究は,文化的根拠に基づく安全性評価の重要課題を強調し,多言語環境におけるLCM導入の責任を負うための具体的なステップを提供する。
警告: 本論文は、攻撃的、有害、偏見のあるサンプルデータを含む。
関連論文リスト
- Qorgau: Evaluating LLM Safety in Kazakh-Russian Bilingual Contexts [40.0358736497799]
大規模言語モデル(LLM)は有害なコンテンツを生成する可能性があることが知られている。
本稿では,カザフ語とロシア語の安全性評価に特化して設計された新しいデータセットであるQorgauを紹介する。
論文 参考訳(メタデータ) (2025-02-19T11:33:22Z) - Arabic Dataset for LLM Safeguard Evaluation [62.96160492994489]
本研究では,アラビア語における大言語モデル(LLM)の安全性と,その言語的・文化的複雑さについて考察する。
本稿では, 直接攻撃, 間接攻撃, センシティブな単語による無害な要求を含む5,799の質問からなるアラブ地域固有の安全評価データセットを提案する。
論文 参考訳(メタデータ) (2024-10-22T14:12:43Z) - Cendol: Open Instruction-tuned Generative Large Language Models for Indonesian Languages [55.963648108438555]
大規模言語モデル(LLM)は、様々なドメインや言語で顕著な人間のような能力を示す。
我々は、デコーダのみとエンコーダ-デコーダアーキテクチャの両方を含むインドネシアのLLMのコレクションであるCendolを紹介する。
さまざまなタスクにまたがってCendolの有効性を強調し、20%の改善を実現し、その一般化能力を実証した。
論文 参考訳(メタデータ) (2024-04-09T09:04:30Z) - All Languages Matter: On the Multilingual Safety of Large Language Models [96.47607891042523]
我々は、大規模言語モデル(LLM)のための最初の多言語安全ベンチマークを構築した。
XSafetyは、複数の言語ファミリーにまたがる10言語にわたる14種類の一般的な安全問題をカバーしている。
本稿では,ChatGPTの多言語安全性向上のための簡易かつ効果的なプロンプト手法を提案する。
論文 参考訳(メタデータ) (2023-10-02T05:23:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。