論文の概要: La Leaderboard: A Large Language Model Leaderboard for Spanish Varieties and Languages of Spain and Latin America
- arxiv url: http://arxiv.org/abs/2507.00999v1
- Date: Tue, 01 Jul 2025 17:50:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:59.769383
- Title: La Leaderboard: A Large Language Model Leaderboard for Spanish Varieties and Languages of Spain and Latin America
- Title(参考訳): La Leaderboard: スペインとラテンアメリカのさまざまな言語と言語のための大規模言語モデルリーダーボード
- Authors: María Grandury, Javier Aula-Blasco, Júlia Falcão, Clémentine Fourrier, Miguel González, Gonzalo Martínez, Gonzalo Santamaría, Rodrigo Agerri, Nuria Aldama, Luis Chiruzzo, Javier Conde, Helena Gómez, Marta Guerrero, Guido Ivetta, Natalia López, Flor Miriam Plaza-del-Arco, María Teresa Martín-Valdivia, Helena Montoro, Carmen Muñoz, Pedro Reviriego, Leire Rosado, Alejandro Vaca, María Estrella Vallecillo-Rodríguez, Jorge Vallego, Irune Zubiaga,
- Abstract要約: 生成型大規模言語モデルを評価するための,初のオープンソースリーダボードであるLa Leaderboardを紹介します。
この初期バージョンはバスク語、カタルーニャ語、ガリシア語、および様々なスペイン語の66のデータセットを組み合わせている。
ダウンストリームタスク毎に最適な評価設定を選択するためのガイダンスを含め、我々の方法論を説明します。
- 参考スコア(独自算出の注目度): 33.48097838499165
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Leaderboards showcase the current capabilities and limitations of Large Language Models (LLMs). To motivate the development of LLMs that represent the linguistic and cultural diversity of the Spanish-speaking community, we present La Leaderboard, the first open-source leaderboard to evaluate generative LLMs in languages and language varieties of Spain and Latin America. La Leaderboard is a community-driven project that aims to establish an evaluation standard for everyone interested in developing LLMs for the Spanish-speaking community. This initial version combines 66 datasets in Basque, Catalan, Galician, and different Spanish varieties, showcasing the evaluation results of 50 models. To encourage community-driven development of leaderboards in other languages, we explain our methodology, including guidance on selecting the most suitable evaluation setup for each downstream task. In particular, we provide a rationale for using fewer few-shot examples than typically found in the literature, aiming to reduce environmental impact and facilitate access to reproducible results for a broader research community.
- Abstract(参考訳): リーダーボードでは、Large Language Models(LLM)の現在の機能と制限が紹介されている。
スペイン語コミュニティの言語的・文化的多様性を表す LLM の開発を動機付けるため,スペイン・ラテンアメリカの言語・言語品種における生成 LLM の評価を行う,初のオープンソースリーダーボードである La Leaderboard を提示する。
La Leaderboardはコミュニティ主導のプロジェクトであり、スペイン語圏のコミュニティ向けにLSMを開発することに関心のある人のための評価標準を確立することを目的としている。
この初期バージョンはバスク語、カタルーニャ語、ガリシア語、および様々なスペイン語の66のデータセットを組み合わせており、50モデルの評価結果を示している。
コミュニティ主導の他の言語におけるリーダーボードの開発を促進するために,下流の各タスクに最適な評価設定を選択するためのガイダンスを含め,我々の方法論を説明する。
特に,本論文では,環境への影響を減らし,より広い研究コミュニティにおいて再現性のある結果へのアクセスを容易にすることを目的として,典型的には少ないサンプルを使用するための理論的根拠を提供する。
関連論文リスト
- Evaluating Large Language Model with Knowledge Oriented Language Specific Simple Question Answering [73.73820209993515]
KoLasSimpleQAは,Large Language Models (LLMs) の多言語事実能力を評価する最初のベンチマークである。
既存の研究に触発されて、単一知識点カバレッジ、絶対的客観性、独特な答え、時間的安定性といった特徴を備えた質問セットを作成しました。
その結果,2つの領域間に大きな性能差が認められた。
論文 参考訳(メタデータ) (2025-05-22T12:27:02Z) - CODEOFCONDUCT at Multilingual Counterspeech Generation: A Context-Aware Model for Robust Counterspeech Generation in Low-Resource Languages [1.9263811967110864]
本稿では,MCG-COING-2025共有タスクにおいて大きな成功を収めた,頑健な対音声生成のための文脈認識モデルを提案する。
多言語データセットに微調整されたシミュレーションアニーリングアルゴリズムを活用することで、モデルはヘイトスピーチに対する現実的に正確な応答を生成する。
4つの言語で最先端のパフォーマンスを実証し、バスク語で第1位、イタリア語で第2位、英語とスペイン語で第3位にランク付けしました。
論文 参考訳(メタデータ) (2025-01-01T03:36:31Z) - The Rise and Down of Babel Tower: Investigating the Evolution Process of Multilingual Code Large Language Model [59.357993924917]
本研究では,大規模言語モデル(LLM)における事前学習過程における多言語機能の進化について検討する。
本稿では,LLMが新たな言語能力を習得する過程全体を記述したBabel Tower仮説を提案する。
本論文では,多言語コードLLMのための事前学習コーパスを最適化する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-12-10T08:28:57Z) - The #Somos600M Project: Generating NLP resources that represent the diversity of the languages from LATAM, the Caribbean, and Spain [0.0]
LATAM、カリブ海、スペインの言語は人工知能(AI)システムで表現する必要があるため、私たちは#Somos600Mプロジェクトを立ち上げた。
世界の人口の7.5%にも拘わらず、インストラクション・チューン・大型言語モデル(LLM)のデータセットは公開されていない。
我々は、教育と評価データセットの最初のバージョンを国際オープンソースコミュニティとして作成する方法について紹介する。
論文 参考訳(メタデータ) (2024-07-01T23:01:41Z) - OMGEval: An Open Multilingual Generative Evaluation Benchmark for Large
Language Models [59.54423478596468]
OMGEvalは、オープンソースの多言語生成テストセットであり、異なる言語におけるLLMの能力を評価することができる。
各言語について、OMGEvalは804のオープンエンド質問を提供し、LLMの重要な機能を幅広くカバーしている。
具体的には、OMGEvalの現在のバージョンには5つの言語(Zh, Ru, Fr, Es, Ar)が含まれている。
論文 参考訳(メタデータ) (2024-02-21T04:42:41Z) - DIALIGHT: Lightweight Multilingual Development and Evaluation of
Task-Oriented Dialogue Systems with Large Language Models [76.79929883963275]
DIALIGHTは多言語タスク指向対話(ToD)システムの開発と評価のためのツールキットである。
ローカル発話レベルとグローバル対話レベルの両方において、人間のきめ細かい評価のためのセキュアでユーザフレンドリーなWebインターフェースを備えている。
評価の結果, PLMの微調整により精度とコヒーレンスが向上する一方, LLMベースのシステムは多様で類似した応答を生成するのに優れていた。
論文 参考訳(メタデータ) (2024-01-04T11:27:48Z) - PLUG: Leveraging Pivot Language in Cross-Lingual Instruction Tuning [46.153828074152436]
我々は、低リソース言語における命令チューニングを強化するために、ピボット言語ガイド生成手法を提案する。
モデルを訓練して、まずピボット言語で命令を処理し、次にターゲット言語で応答を生成する。
提案手法は,LLMの命令追従能力が平均29%向上したことを示す。
論文 参考訳(メタデータ) (2023-11-15T05:28:07Z) - Evaluation Benchmarks for Spanish Sentence Representations [24.162683655834847]
本稿では,スペイン語のSentEvalとスペイン語のDiscoEvalを紹介する。
さらに,最近トレーニング済みのスペイン語モデルの評価と分析を行い,その能力と限界を明らかにした。
論文 参考訳(メタデータ) (2022-04-15T17:53:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。