論文の概要: SEA-Guard: Culturally Grounded Multilingual Safeguard for Southeast Asia
- arxiv url: http://arxiv.org/abs/2602.01618v1
- Date: Mon, 02 Feb 2026 04:20:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.896371
- Title: SEA-Guard: Culturally Grounded Multilingual Safeguard for Southeast Asia
- Title(参考訳): SEA-Guard: 文化的基盤を持つ東南アジアの多言語保護
- Authors: Panuthep Tasawong, Jian Gang Ngui, Alham Fikri Aji, Trevor Cohn, Peerat Limkonchotiwat,
- Abstract要約: リソースが限られ、ネイティブアノテータが不足しているため、大規模な文化的基盤を持つデータセットの構築は困難である。
本稿では,東南アジアにおける真正かつ地域固有の安全データセットを高度に作成するための新しいエージェントデータ生成フレームワークを提案する。
SEA-Guardファミリーは、SEA文化の文脈に根ざした最初の多言語セーフガードモデルである。
- 参考スコア(独自算出の注目度): 36.95168918567729
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Culturally aware safeguards are crucial for AI alignment in real-world settings, where safety extends beyond common sense and encompasses diverse local values, norms, and region-specific regulations. However, building large-scale, culturally grounded datasets is challenging due to limited resources and a scarcity of native annotators. Consequently, many safeguard models rely on machine translation of English datasets, often missing regional and cultural nuances. We present a novel agentic data-generation framework to scalably create authentic, region-specific safety datasets for Southeast Asia (SEA). On this foundation, we introduce the SEA-Guard family, the first multilingual safeguard models grounded in SEA cultural contexts. Evaluated across multiple benchmarks and cultural variants, SEA-Guard consistently outperforms existing safeguards at detecting regionally sensitive or harmful content while maintaining strong general safety performance.
- Abstract(参考訳): 文化的に意識された安全は、現実の環境においてAIのアライメントにとって不可欠である。
しかし、限られたリソースとネイティブアノテータの不足のため、大規模で文化的な基盤を持つデータセットの構築は困難である。
その結果、多くのセーフガードモデルは英語データセットの機械翻訳に依存しており、しばしば地域や文化のニュアンスを欠いている。
本稿では,東南アジア(SEA)のための,真正かつ地域固有の安全データセットを高度に作成するためのエージェントデータ生成フレームワークを提案する。
本財団では,SEA文化的文脈を基盤とした最初の多言語セーフガードモデルであるSEA-Guardファミリーを紹介する。
複数のベンチマークと文化的バリエーションで評価され、SEA-Guardは、強い総合安全性能を維持しながら、地域的に敏感または有害なコンテンツを検知する既存の安全ガードを一貫して上回っている。
関連論文リスト
- UbuntuGuard: A Culturally-Grounded Policy Benchmark for Equitable AI Safety in African Languages [18.40701733030824]
現在のガーディアンモデルは、主に西洋中心で、高リソース言語に最適化されている。
我々はUbuntuGuardを紹介した。これは155のドメインエキスパートによって書かれた敵クエリから構築された、アフリカ初のポリシーベースの安全ベンチマークだ。
論文 参考訳(メタデータ) (2026-01-19T03:37:56Z) - SEA-SafeguardBench: Evaluating AI Safety in SEA Languages and Cultures [36.95168918567729]
既存のマルチ言語安全ベンチマークは、しばしば機械翻訳された英語データに依存している。
SEA-SafeguardBenchは,SEAの最初の人間認証安全ベンチマークである。
8つの言語、21,640のサンプル、および3つのサブセット(ジェネラル、イン・ザ・ワイルド、コンテンツ生成)をカバーする。
論文 参考訳(メタデータ) (2025-12-05T07:57:57Z) - AssurAI: Experience with Constructing Korean Socio-cultural Datasets to Discover Potential Risks of Generative AI [50.802995291689086]
我々は、生成AIの安全性を評価するための、韓国の新たな品質管理マルチモーダルデータセットAssurAIを紹介する。
韓国の社会文化的文脈における普遍的な害と関連性の両方をカバーするために,確立された枠組みから適応した,35の異なるAIリスク要因の分類法を定義した。
AssurAIは、テキスト、画像、ビデオ、オーディオにまたがる11,480のインスタンスからなる大規模な韓国のマルチモーダルデータセットである。
論文 参考訳(メタデータ) (2025-11-20T13:59:42Z) - CultureGuard: Towards Culturally-Aware Dataset and Guard Model for Multilingual Safety Applications [5.151690536714851]
CultureGuardは、文化的に整列した高品質な安全データセットを複数の言語でキュレートするための新しいソリューションです。
提案手法では,文化データ分離,文化データ適応,機械翻訳,品質フィルタリングという,4段階の合成データ生成とフィルタリングパイプラインを導入している。
得られたデータセットであるNemotron-Safety-Guard-Dataset-v3は9言語で386,661のサンプルで構成され、Llama-3.1-Nemotron-Safety-Guard-8B-v3をLoRAベースの微調整で訓練する。
論文 参考訳(メタデータ) (2025-08-03T10:35:05Z) - IndoSafety: Culturally Grounded Safety for LLMs in Indonesian Languages [6.4212082894269535]
IndoSafetyは、インドネシアの文脈に合わせた、最初の高品質で人間認証された安全評価データセットである。
IndoSafetyは、インドネシアの社会文化的文脈を捉えた分類を開発するために、事前の安全枠組みを拡張して構築されている。
論文 参考訳(メタデータ) (2025-06-03T07:53:55Z) - Multimodal Cultural Safety: Evaluation Frameworks and Alignment Strategies [58.88053690412802]
大規模視覚言語モデル(LVLM)は、観光アシスタントのようなグローバルに分散したアプリケーションにますます導入されている。
CROSSは、LVLMの文化的安全性推論能力を評価するために設計されたベンチマークである。
実験モデルと推論モデルを含む21種類のLVLMを評価した。
論文 参考訳(メタデータ) (2025-05-20T23:20:38Z) - MrGuard: A Multilingual Reasoning Guardrail for Universal LLM Safety [56.77103365251923]
大規模言語モデル(LLM)は、ジェイルブレイクのような敵の攻撃を受けやすい。
この脆弱性は、多言語セーフティアライメントされたデータが制限される多言語設定で悪化する。
素早い分類のための多言語ガードレールを提案する。
論文 参考訳(メタデータ) (2025-04-21T17:15:06Z) - SafeWorld: Geo-Diverse Safety Alignment [107.84182558480859]
大規模言語モデル(LLM)を評価するために特別に設計された新しいベンチマークであるSafeWorldを紹介する。
SafeWorldには2,342のユーザクエリが含まれており、それぞれ50か国と493のリージョン/ラストから、高品質で人間認証された文化規範と法的ポリシーを基礎としている。
トレーニングされたSafeWorldLMは、GPT-4oを含む競合モデルの3つの評価次元を大きなマージンで上回ります。
論文 参考訳(メタデータ) (2024-12-09T13:31:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。