論文の概要: Improving Methodologies for LLM Evaluations Across Global Languages
- arxiv url: http://arxiv.org/abs/2601.15706v1
- Date: Thu, 22 Jan 2026 07:18:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-23 21:37:20.521872
- Title: Improving Methodologies for LLM Evaluations Across Global Languages
- Title(参考訳): グローバル言語全体を対象としたLCM評価手法の改善
- Authors: Akriti Vij, Benjamin Chua, Darshini Ramiah, En Qi Ng, Mahran Morsidi, Naga Nikshith Gangarapu, Sharmini Johnson, Vanessa Wilfred, Vikneswaran Kumaran, Wan Sie Lee, Wenzhuo Yang, Yongsen Zheng, Bill Black, Boming Xia, Frank Sun, Hao Zhang, Qinghua Lu, Suyu Ma, Yue Liu, Chi-kiu Lo, Fatemeh Azadi, Isar Nejadgholi, Sowmya Vajjala, Agnes Delaborde, Nicolas Rolin, Tom Seimandi, Akiko Murakami, Haruto Ishi, Satoshi Sekine, Takayuki Semitsu, Tasuku Sasaki, Angela Kinuthia, Jean Wangari, Michael Michie, Stephanie Kasaon, Hankyul Baek, Jaewon Noh, Kihyuk Nam, Sang Seo, Sungpil Shin, Taewhi Lee, Yongsu Kim, Daisy Newbold-Harrop, Jessica Wang, Mahmoud Ghanem, Vy Hong,
- Abstract要約: このエクササイズは、安全行動が言語によってどのように異なるかを示しています。
また、多言語安全性評価を改善するための洞察も生み出した。
この研究は、先進的なAIシステムの多言語安全テストのための共有フレームワークに向けた最初のステップである。
- 参考スコア(独自算出の注目度): 19.63570354411416
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As frontier AI models are deployed globally, it is essential that their behaviour remains safe and reliable across diverse linguistic and cultural contexts. To examine how current model safeguards hold up in such settings, participants from the International Network for Advanced AI Measurement, Evaluation and Science, including representatives from Singapore, Japan, Australia, Canada, the EU, France, Kenya, South Korea and the UK conducted a joint multilingual evaluation exercise. Led by Singapore AISI, two open-weight models were tested across ten languages spanning high and low resourced groups: Cantonese English, Farsi, French, Japanese, Korean, Kiswahili, Malay, Mandarin Chinese and Telugu. Over 6,000 newly translated prompts were evaluated across five harm categories (privacy, non-violent crime, violent crime, intellectual property and jailbreak robustness), using both LLM-as-a-judge and human annotation. The exercise shows how safety behaviours can vary across languages. These include differences in safeguard robustness across languages and harm types and variation in evaluator reliability (LLM-as-judge vs. human review). Further, it also generated methodological insights for improving multilingual safety evaluations, such as the need for culturally contextualised translations, stress-tested evaluator prompts and clearer human annotation guidelines. This work represents an initial step toward a shared framework for multilingual safety testing of advanced AI systems and calls for continued collaboration with the wider research community and industry.
- Abstract(参考訳): フロンティアAIモデルは世界中に展開されているため、その振る舞いはさまざまな言語や文化の文脈で安全で信頼性が保たれることが不可欠である。
このような状況下で、現在のモデルセーフガードがどのように機能するかを調べるため、シンガポール、日本、オーストラリア、カナダ、EU、フランス、ケニア、韓国、英国からの代表者を含む、高度なAI測定・評価・科学のための国際ネットワークの参加者は、共同で多言語評価演習を実施した。
シンガポールAISIが主導した2つのオープンウェイトモデルは、カントン英語、ファージ、フランス語、日本語、韓国語、キスワヒリ、マレー語、中国語、テルグ語という、10の言語でテストされた。
5つの危害カテゴリー(民事、非暴力犯罪、暴力犯罪、知的財産、ジェイルブレイク堅牢性)で、LSM-as-a-judgeとヒューマンアノテーションの両方を用いて、6,000以上の新たに翻訳されたプロンプトが評価された。
このエクササイズは、安全行動が言語によってどのように異なるかを示しています。
これらには、言語間の安全の堅牢性の違い、有害なタイプ、評価者の信頼性の変化(LLM-as-judge vs. Human Review)が含まれる。
さらに、文化的文脈の翻訳の必要性、ストレステストによる評価プロンプト、より明確な人間のガイドラインガイドラインなど、多言語的安全性評価を改善するための方法論的な洞察も生み出した。
この研究は、先進的なAIシステムの多言語安全テストのための共有フレームワークへの最初のステップであり、より広範な研究コミュニティや業界との継続的なコラボレーションを求めている。
関連論文リスト
- MMA-ASIA: A Multilingual and Multimodal Alignment Framework for Culturally-Grounded Evaluation [91.22008265721952]
MMA-ASIAは、アジア8か国と10か国を対象とする人為的、多言語的、マルチモーダルなベンチマークに重点を置いている。
これは、テキスト、画像(視覚的質問応答)、音声の3つのモードにまたがる入力レベルで整列された最初のデータセットである。
i) 国間の文化的認識格差、(ii) 言語間の整合性、(iii) 言語間の整合性、(iv) 文化知識の一般化、(v) 基礎的妥当性を評価する5次元評価プロトコルを提案する。
論文 参考訳(メタデータ) (2025-10-07T14:12:12Z) - LinguaSafe: A Comprehensive Multilingual Safety Benchmark for Large Language Models [22.273388934888278]
私たちのデータセットは、ハンガリー語からマレー語まで、12言語で45万のエントリで構成されています。
我々のベンチマークは、詳細な安全性評価のための総合的なメトリクススイートを提供する。
論文 参考訳(メタデータ) (2025-08-18T08:59:01Z) - Humans overrely on overconfident language models, across languages [32.71245803698373]
5言語にわたる多言語言語(ミス)校正,過信,過信のリスクについて検討した。
私たちの研究によると、言語全体で過度に信頼されるリスクが高いことが分かりました。
論文 参考訳(メタデータ) (2025-07-08T18:01:01Z) - PolyGuard: A Multilingual Safety Moderation Tool for 17 Languages [27.318299273902984]
PolyGUARDは、LLM(Large Language Models)世代を保護するための、最先端の多言語安全モデルである。
これまでに17言語にまたがる190万のサンプルを含む、最大規模の多言語安全訓練コーパスで訓練されている。
PolyGUARDPROMPTSは、安全ガードレールの評価のための29Kサンプルを用いた高品質な多言語ベンチマークである。
論文 参考訳(メタデータ) (2025-04-06T06:09:21Z) - LLMs Lost in Translation: M-ALERT uncovers Cross-Linguistic Safety Inconsistencies [63.10843814055688]
M-ALERTは5つの言語における大規模言語モデルの安全性を評価するベンチマークである。
M-ALERTには言語毎に15kの高品質なプロンプトが含まれており、合計で75k、カテゴリワイドアノテーションがある。
39種類のLLMに関する実験は,言語固有の安全性解析の重要性を強調した。
論文 参考訳(メタデータ) (2024-12-19T16:46:54Z) - ALERT: A Comprehensive Benchmark for Assessing Large Language Models' Safety through Red Teaming [64.86326523181553]
ALERTは、新しいきめ細かいリスク分類に基づいて安全性を評価するための大規模なベンチマークである。
脆弱性を特定し、改善を通知し、言語モデルの全体的な安全性を高めることを目的としている。
論文 参考訳(メタデータ) (2024-04-06T15:01:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。