論文の概要: SEA-HELM: Southeast Asian Holistic Evaluation of Language Models
- arxiv url: http://arxiv.org/abs/2502.14301v1
- Date: Thu, 20 Feb 2025 06:32:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-21 14:29:47.409214
- Title: SEA-HELM: Southeast Asian Holistic Evaluation of Language Models
- Title(参考訳): SEA-HELM:東南アジアの言語モデルの全体論的評価
- Authors: Yosephine Susanto, Adithya Venkatadri Hulagadri, Jann Railey Montalan, Jian Gang Ngui, Xian Bin Yong, Weiqi Leong, Hamsawardhini Rengarajan, Peerat Limkonchotiwat, Yifan Mai, William Chandra Tjhi,
- Abstract要約: SEA-HELMは、東南アジア(SEA)地域の言語に対する包括的で信頼性の高い評価スイートである。
1)NLPクラシック、(2)LDM特化、(3)SEA言語学、(4)SEA文化、(5)安全の5つの中核柱から構成される。
SEA-HELMは現在、フィリピン、インドネシア、タミル、タイ、ベトナムをサポートしている。
- 参考スコア(独自算出の注目度): 2.119348427296952
- License:
- Abstract: With the rapid emergence of novel capabilities in Large Language Models (LLMs), the need for rigorous multilingual and multicultural benchmarks that are integrated has become more pronounced. Though existing LLM benchmarks are capable of evaluating specific capabilities of LLMs in English as well as in various mid- to low-resource languages, including those in the Southeast Asian (SEA) region, a comprehensive and authentic evaluation suite for the SEA languages has not been developed thus far. Here, we present SEA-HELM, a holistic linguistic and cultural LLM evaluation suite that emphasizes SEA languages, comprising five core pillars: (1) NLP Classics, (2) LLM-specifics, (3) SEA Linguistics, (4) SEA Culture, (5) Safety. SEA-HELM currently supports Filipino, Indonesian, Tamil, Thai, and Vietnamese. We also introduce the SEA-HELM leaderboard, which allows users to understand models' multilingual and multicultural performance in a systematic and user-friendly manner.
- Abstract(参考訳): LLM(Large Language Models)の新機能が急速に出現するにつれて、統合された厳密な多言語および多文化ベンチマークの必要性が高まっている。
既存のLLMベンチマークは、東南アジア (SEA) 地域を含む様々な中・低リソース言語と同様に、英語におけるLLMの特定の能力を評価することができるが、SEA言語に対する総合的かつ真の評価スイートは開発されていない。
本稿では,(1)NLP古典,(2)LLM特化,(3)SEA言語,(4)SEA文化,(5)安全の5つの柱からなる,総合言語的・文化的LLM評価スイートであるSEA-HELMについて述べる。
SEA-HELMは現在、フィリピン、インドネシア、タミル、タイ、ベトナムをサポートしている。
また、SEA-HELMリーダーボードを導入し、モデルの多言語的・多文化的なパフォーマンスを体系的でユーザフレンドリな方法で理解できるようにする。
関連論文リスト
- All Languages Matter: Evaluating LMMs on Culturally Diverse 100 Languages [73.93600813999306]
ALM-benchは、100言語にわたるLMMを評価するための、これまでで最大かつ最も包括的な取り組みである。
様々な言語でテキストと組み合わせた文化的に多様なイメージを理解し、推論する能力をテストすることで、既存のモデルに挑戦する。
このベンチマークは、真/偽、複数選択、オープンな質問など、さまざまな質問フォーマットを備えた、堅牢でニュアンスの高い評価フレームワークを提供する。
論文 参考訳(メタデータ) (2024-11-25T15:44:42Z) - Adapting Multilingual LLMs to Low-Resource Languages using Continued Pre-training and Synthetic Corpus [0.9674145073701153]
ヒンディー語と英語の両方をサポートするバイリンガルSLMであるNemotron-Mini-Hindi 4Bを紹介する。
ベースモデルとインストラクションモデルの両方がヒンディー語のベンチマークで最先端の結果が得られることを示す。
論文 参考訳(メタデータ) (2024-10-18T18:35:19Z) - Better to Ask in English: Evaluation of Large Language Models on English, Low-resource and Cross-Lingual Settings [12.507989493130175]
GPT-4, Llama 2 および Gemini は, 東南アジアの他の低リソース言語と比較して, 英語での有効性が評価されている。
GPT-4はLlama 2とGeminiを5つのプロンプト設定と全言語で上回ったことを示唆している。
論文 参考訳(メタデータ) (2024-10-17T02:12:30Z) - SeaLLMs 3: Open Foundation and Chat Multilingual Large Language Models for Southeast Asian Languages [77.75535024869224]
東南アジアの言語に合わせたSeaLLMsモデルファミリーの最新版SeaLLMs 3を紹介します。
SeaLLMs 3は、英語、中国語、インドネシア語、ベトナム語、タイ語、タガログ語、マレー語、ビルマ語、クメール語、ラオス語、タミル語、ジャワ語など、この地域で話される言語全般をカバーすることで、このギャップを埋めることを目指している。
我々のモデルは、世界的知識、数学的推論、翻訳、命令の追従といったタスクに優れており、同様の大きさのモデルで最先端の性能を達成する。
論文 参考訳(メタデータ) (2024-07-29T03:26:22Z) - Language-Specific Neurons: The Key to Multilingual Capabilities in Large Language Models [117.20416338476856]
大規模言語モデル(LLM)は、特別にキュレートされた多言語並列コーパスで事前訓練されることなく、顕著な多言語機能を示す。
LLM内の言語特異的ニューロンを識別するための新しい検出手法である言語アクティベーション確率エントロピー(LAPE)を提案する。
以上の結果から,LLMが特定の言語を処理できる能力は,神経細胞のサブセットが少なすぎるためであることが示唆された。
論文 参考訳(メタデータ) (2024-02-26T09:36:05Z) - OMGEval: An Open Multilingual Generative Evaluation Benchmark for Large
Language Models [59.54423478596468]
OMGEvalは、オープンソースの多言語生成テストセットであり、異なる言語におけるLLMの能力を評価することができる。
各言語について、OMGEvalは804のオープンエンド質問を提供し、LLMの重要な機能を幅広くカバーしている。
具体的には、OMGEvalの現在のバージョンには5つの言語(Zh, Ru, Fr, Es, Ar)が含まれている。
論文 参考訳(メタデータ) (2024-02-21T04:42:41Z) - Zero-Shot Cross-Lingual Reranking with Large Language Models for
Low-Resource Languages [51.301942056881146]
アフリカ語における言語間情報検索システムにおいて,大規模言語モデル (LLM) がリランカーとしてどのように機能するかを検討する。
私たちの実装は、英語と4つのアフリカの言語(ハウサ語、ソマリ語、スワヒリ語、ヨルバ語)を対象としています。
我々は、英語のクェリとアフリカの言葉の文節による言語横断的な格付けについて検討する。
論文 参考訳(メタデータ) (2023-12-26T18:38:54Z) - SeaLLMs -- Large Language Models for Southeast Asia [76.50157503379086]
東南アジア(SEA)言語に焦点を当てた,革新的な言語モデルであるSeaLLMを紹介した。
SeaLLMはLlama-2モデルに基づいて構築され、さらに拡張語彙、特殊命令、アライメントチューニングによる事前訓練が継続されている。
包括的評価により,SeaLLM-13bモデルは言語タスクやアシスタントスタイルの指示追従能力に優れた性能を示した。
論文 参考訳(メタデータ) (2023-12-01T17:17:56Z) - BHASA: A Holistic Southeast Asian Linguistic and Cultural Evaluation
Suite for Large Language Models [0.06597195879147556]
BHASA (英語: BHASA) は、東南アジアにおける大規模言語モデル(LLM)のための総合言語・文化評価スイートである。
1)自然言語理解(NLU)、生成(NLG)、推論(NLR)の8つのタスクをカバーするNLPベンチマーク,(2)LINDSEA, 構文, 意味学, 実用学などの言語現象を網羅する言語診断ツールキット, (3) 文化的表現と感受性の両方を探索する文化的診断データセットである。
論文 参考訳(メタデータ) (2023-09-12T09:31:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。