論文の概要: Latxa: An Open Language Model and Evaluation Suite for Basque
- arxiv url: http://arxiv.org/abs/2403.20266v1
- Date: Fri, 29 Mar 2024 16:16:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-01 15:05:12.223073
- Title: Latxa: An Open Language Model and Evaluation Suite for Basque
- Title(参考訳): Latxa: バスクのオープン言語モデルと評価スイート
- Authors: Julen Etxaniz, Oscar Sainz, Naiara Perez, Itziar Aldabe, German Rigau, Eneko Agirre, Aitor Ormazabal, Mikel Artetxe, Aitor Soroa,
- Abstract要約: 私たちはLatxaを紹介します。Latxaは、70億から700億のパラメータからなるバスクの大規模言語モデルのファミリーです。
Basqueの高品質なベンチマークの不足に対処するため、さらに4つの選択肢評価データセットを導入します。
広範囲な評価において、Latxaは、私たちが比較した過去のすべてのオープンモデルよりも大きなマージンで優れています。
- 参考スコア(独自算出の注目度): 42.134709146773226
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce Latxa, a family of large language models for Basque ranging from 7 to 70 billion parameters. Latxa is based on Llama 2, which we continue pretraining on a new Basque corpus comprising 4.3M documents and 4.2B tokens. Addressing the scarcity of high-quality benchmarks for Basque, we further introduce 4 multiple choice evaluation datasets: EusProficiency, comprising 5,169 questions from official language proficiency exams; EusReading, comprising 352 reading comprehension questions; EusTrivia, comprising 1,715 trivia questions from 5 knowledge areas; and EusExams, comprising 16,774 questions from public examinations. In our extensive evaluation, Latxa outperforms all previous open models we compare to by a large margin. In addition, it is competitive with GPT-4 Turbo in language proficiency and understanding, despite lagging behind in reading comprehension and knowledge-intensive tasks. Both the Latxa family of models, as well as our new pretraining corpora and evaluation datasets, are publicly available under open licenses at https://github.com/hitz-zentroa/latxa. Our suite enables reproducible research on methods to build LLMs for low-resource languages.
- Abstract(参考訳): 私たちはLatxaを紹介します。Latxaは、70億から700億のパラメータからなるバスクの大規模言語モデルのファミリーです。
LatxaはLlama 2をベースにしており、我々は4.3Mの文書と4.2Bのトークンからなる新しいバスクのコーパスで事前訓練を続けている。
バスク語検定の5,169問からなるEus Proficiency,352問からなるEusReading,5つの知識領域から1,715問からなるEusTrivia,公試から16,774問からなるEusExamsの4つの選択肢評価データセットを紹介する。
広範囲な評価において、Latxaは、私たちが比較した過去のすべてのオープンモデルよりも大きなマージンで優れています。
さらに、言語能力と理解力はGPT-4 Turboと競合するが、理解力と知識集約的なタスクは遅れている。
Latxaのモデルファミリと、新たな事前トレーニングコーパスと評価データセットは、https://github.com/hitz-zentroa/latxa.comで公開されている。
我々のスイートは、低リソース言語のためのLLMを構築する方法の再現可能な研究を可能にする。
関連論文リスト
- Herald: A Natural Language Annotated Lean 4 Dataset [15.42247133378869]
本稿では,Mathlib4コーパス(形式言語Lean 4における数学の統一ライブラリ)を自然言語に翻訳するための新しいフレームワークを提案する。
私たちはこのパイプラインの結果をHeraldとしてMathlib4で発表します(階層とレトリバルベースのトランスレーショナルリーン)。
また,Heraldを微調整したHerald Translatorを提案する。
論文 参考訳(メタデータ) (2024-10-09T10:11:24Z) - TurkishMMLU: Measuring Massive Multitask Language Understanding in Turkish [54.51310112013655]
本稿では,最初のマルチタスク,複数選択のトルコQAベンチマーク,トルコMMLUを紹介する。
トルコMMLUには1万以上の質問があり、トルコの高校教育カリキュラムとは9つの異なるテーマをカバーしている。
多言語オープンソース(Gemma、Llama、MT5)、クローズドソース(GPT 4o、Claude、Gemini)、トルコ適応モデル(Trendyolなど)を含む20以上のLLMを評価した。
論文 参考訳(メタデータ) (2024-07-17T08:28:55Z) - IrokoBench: A New Benchmark for African Languages in the Age of Large Language Models [18.260317326787035]
本報告では,16種類の低リソースアフリカ言語を対象とした人文翻訳ベンチマークデータセットであるIrokoBenchについて紹介する。
IrokoBenchを使って10のオープンおよび4つのプロプライエタリ言語モデルでゼロショット、少数ショット、および翻訳テストの設定(テストセットを英語に翻訳する)を評価します。
オープンモデルとプロプライエタリモデルの間には大きなパフォーマンスギャップが見られ、最高パフォーマンスのオープンモデルであるAya-101は、最高のパフォーマンスのプロプライエタリモデルであるGPT-4oのパフォーマンスの58%に過ぎません。
論文 参考訳(メタデータ) (2024-06-05T15:23:08Z) - ArabicMMLU: Assessing Massive Multitask Language Understanding in Arabic [51.922112625469836]
アラビア語における最初のマルチタスク言語理解ベンチマークである、データセット名を提案する。
我々のデータは、現代標準アラビア語(MSA)における40のタスクと14,575のマルチチョイス質問で構成されており、地域の母語話者と協調して慎重に構築されている。
35モデルについて評価した結果,特にオープンソースモデルにおいて,改善の余地がかなり高いことが判明した。
論文 参考訳(メタデータ) (2024-02-20T09:07:41Z) - The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants [80.4837840962273]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。
このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-08-31T17:43:08Z) - tmn at SemEval-2023 Task 9: Multilingual Tweet Intimacy Detection using
XLM-T, Google Translate, and Ensemble Learning [2.28438857884398]
本稿では,SemEval-2023 Task 9: Multilingual Tweet Intimacy Analysisのために設計されたトランスフォーマーベースのシステムについて述べる。
このタスクの目的は、ツイートの親密さを1(全く親密ではない)から5(非常に親密)まで予測することであった。
論文 参考訳(メタデータ) (2023-04-08T15:50:16Z) - SERENGETI: Massively Multilingual Language Models for Africa [5.945320097465418]
SERENGETIは517のアフリカの言語と言語を包含する多言語言語モデルである。
我々は、20のデータセットにまたがる8つの自然言語理解タスクに関する新しいモデルを評価し、4-23のアフリカの言語をカバーする4mPLMと比較した。
論文 参考訳(メタデータ) (2022-12-21T05:54:14Z) - MIA 2022 Shared Task: Evaluating Cross-lingual Open-Retrieval Question
Answering for 16 Diverse Languages [54.002969723086075]
16言語に類型的に多様である言語における言語横断的オープン-検索型問合せシステムの評価を行った。
反復的にマイニングされた多様な負の例を利用する最良のシステムは32.2 F1となり、ベースラインを4.5ポイント上回る。
第2のベストシステムは文書検索にエンティティを意識した文脈表現を使用し、タミル(20.8 F1)の大幅な改善を実現している。
論文 参考訳(メタデータ) (2022-07-02T06:54:10Z) - FQuAD: French Question Answering Dataset [0.4759823735082845]
フランス語質問回答データセット(FQuAD)について紹介する。
FQuADは、ウィキペディアの記事の集合に関する質問と回答のフランス語のNative Readingデータセットである。
テストセット上でF1スコア92.2、正確なマッチング比82.1を達成するベースラインモデルを訓練する。
論文 参考訳(メタデータ) (2020-02-14T15:23:38Z) - CoVoST: A Diverse Multilingual Speech-To-Text Translation Corpus [57.641761472372814]
CoVoSTは11言語から英語への多言語による音声からテキストへの翻訳コーパスである。
11,000人以上の話者と60以上のアクセントで多様化した。
CoVoSTはCC0ライセンスでリリースされており、無料で利用できる。
論文 参考訳(メタデータ) (2020-02-04T14:35:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。