Fugu-MT 論文翻訳(概要): The #Somos600M Project: Generating NLP resources that represent the diversity of the languages from LATAM, the Caribbean, and Spain

論文の概要: The #Somos600M Project: Generating NLP resources that represent the diversity of the languages from LATAM, the Caribbean, and Spain

arxiv url: http://arxiv.org/abs/2407.17479v1
Date: Mon, 1 Jul 2024 23:01:41 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-28 18:09:38.418668
Title: The #Somos600M Project: Generating NLP resources that represent the diversity of the languages from LATAM, the Caribbean, and Spain
Title（参考訳）: The #Somos600M Project: Generating NLP resources which represent the diversity of the languages from LATAM, the Caribbean, and Spain
Authors: María Grandury,
Abstract要約: LATAM、カリブ海、スペインの言語は人工知能(AI)システムで表現する必要があるため、私たちは#Somos600Mプロジェクトを立ち上げた。世界の人口の7.5%にも拘わらず、インストラクション・チューン・大型言語モデル(LLM)のデータセットは公開されていない。我々は、教育と評価データセットの最初のバージョンを国際オープンソースコミュニティとして作成する方法について紹介する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We are 600 million Spanish speakers. We launched the #Somos600M Project because the diversity of the languages from LATAM, the Caribbean and Spain needs to be represented in Artificial Intelligence (AI) systems. Despite being the 7.5% of the world population, there is no open dataset to instruction-tune large language models (LLMs), nor a leaderboard to evaluate and compare them. In this paper, we present how we have created as an international open-source community the first versions of the instruction and evaluation datasets, indispensable resources for the advancement of Natural Language Processing (NLP) in our languages.
Abstract（参考訳）: 私たちは6億人のスペイン語話者です。 LATAM、カリブ海、スペインの言語は人工知能(AI)システムで表現する必要があるため、私たちは#Somos600Mプロジェクトを立ち上げた。世界の人口の7.5%にも拘わらず、LLM(インストラクション・チューン・大型言語モデル)のオープンデータセットや、それらを評価・比較するためのリーダーボードは存在しない。本稿では,我々の言語における自然言語処理(NLP)の発展に欠かせない資源である指導・評価データセットの最初のバージョンを,国際オープンソースコミュニティとして構築する方法について述べる。

関連論文リスト

La Leaderboard: A Large Language Model Leaderboard for Spanish Varieties and Languages of Spain and Latin America [33.48097838499165]
生成型大規模言語モデルを評価するための,初のオープンソースリーダボードであるLa Leaderboardを紹介します。この初期バージョンはバスク語、カタルーニャ語、ガリシア語、および様々なスペイン語の66のデータセットを組み合わせている。ダウンストリームタスク毎に最適な評価設定を選択するためのガイダンスを含め、我々の方法論を説明します。
論文参考訳（メタデータ） (2025-07-01T17:50:48Z)
FormosanBench: Benchmarking Low-Resource Austronesian Languages in the Era of Large Language Models [1.2403152094314245]
我々は,低リソースオーストロネシア言語上での大規模言語モデル(LLM)を評価するための最初のベンチマークであるFORMOSANBENCHを紹介する。 FORMOSANBENCHを用いて,ゼロショット,10ショット,微調整設定におけるモデル性能を評価する。この結果から,高リソース言語とFormosan言語の間には,大幅な性能差が認められた。
論文参考訳（メタデータ） (2025-06-12T07:02:28Z)
Harnessing Transfer Learning from Swahili: Advancing Solutions for Comorian Dialects [0.0]
バントゥー語族に属する4つの言語や方言のグループであるComorianのためのNLP技術の先駆者を目指しています。我々のアプローチは、人間が母国語と異なる言語をほとんど、あるいは全く使わずに理解できれば、このプロセスを機械でモデル化することは、完全に可能であるという仮説に動機付けられています。
論文参考訳（メタデータ） (2024-12-09T22:47:41Z)
Tagengo: A Multilingual Chat Dataset [3.8073142980733]
74言語で70k以上のプロンプト応答対の高品質なデータセットを提示する。このデータセットを使って、最先端のオープンソースLLMをトレーニングし、マルチ言語でチャットします。
論文参考訳（メタデータ） (2024-05-21T09:06:36Z)
Aya Model: An Instruction Finetuned Open-Access Multilingual Language Model [33.87586041774359]
Ayaは101言語で命令に従う多言語生成言語モデルであり、50%以上が低リソースであると考えられている。 99言語にまたがる多言語evalの最先端性を広げる広範な評価スイートを導入する。我々は、最適微調整混合物組成、データプルーニング、およびモデルの毒性、バイアス、安全性について詳細な調査を行う。
論文参考訳（メタデータ） (2024-02-12T17:34:13Z)
Aya Dataset: An Open-Access Collection for Multilingual Instruction Tuning [49.79783940841352]
既存のデータセットはほとんどが英語で書かれている。私たちは世界中の言語に精通した話者と協力して、指示と完了の自然な例を集めています。既存のデータセットを114言語でテンプレート化し、翻訳することで、5億1300万のインスタンスを含む、これまでで最も広範な多言語コレクションを作成します。
論文参考訳（メタデータ） (2024-02-09T18:51:49Z)
NusaWrites: Constructing High-Quality Corpora for Underrepresented and Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文参考訳（メタデータ） (2023-09-19T14:42:33Z)
PolyLM: An Open Source Polyglot Large Language Model [57.64420154135178]
我々は6400億(B)トークンでトレーニングされた多言語大言語モデル(LLM)であるPolyLMについて述べる。その多言語的能力を高めるために,1) バイリンガルデータをトレーニングデータに統合し,2) 事前学習中に英語以外のデータの比率を30%から60%に引き上げるカリキュラム学習戦略を採用する。さらに,モデル微調整のために,132.7Kの多言語命令を自動的に生成する多言語自己指示手法を提案する。
論文参考訳（メタデータ） (2023-07-12T09:00:37Z)
Neural Machine Translation for the Indigenous Languages of the Americas: An Introduction [102.13536517783837]
アメリカ大陸のほとんどの言語は、もしあるならば、並列データと単言語データしか持たない。これらの言語におけるNLPコミュニティの関心が高まった結果、最近の進歩、発見、オープンな質問について論じる。
論文参考訳（メタデータ） (2023-06-11T23:27:47Z)
NusaX: Multilingual Parallel Sentiment Dataset for 10 Indonesian Local Languages [100.59889279607432]
インドネシアにおける言語の資源開発に重点を置いている。インドネシアのほとんどの言語は絶滅危惧種に分類され、一部は絶滅している。インドネシアで10の低リソース言語を対象とした,最初の並列リソースを開発した。
論文参考訳（メタデータ） (2022-05-31T17:03:50Z)
\`It\`ak\'ur\`oso: Exploiting Cross-Lingual Transferability for Natural Language Generation of Dialogues in Low-Resource, African Languages [0.9511471519043974]
本研究では,最先端のモノリンガルモデル(SoTA)から6つのアフリカ語への言語間移動の可能性について検討する。言語はスワヒリ語、ヴロフ語、ハウサ語、ナイジェリア語、ピジン語、キンヤルワンダ語、ヨルバ語である。結果は、深い単言語モデルが言語にまたがって一般化する抽象性を学ぶという仮説が成り立つことを示している。
論文参考訳（メタデータ） (2022-04-17T20:23:04Z)
AllWOZ: Towards Multilingual Task-Oriented Dialog Systems for All [41.10368284872525]
本稿では8言語をカバーする多言語タスク指向顧客サービスダイアログであるAllWOZを提案する。メタ学習にmT5を適用することで,多言語データセットのベンチマークを作成する。
論文参考訳（メタデータ） (2021-12-15T18:30:51Z)
SIGMORPHON 2020 Shared Task 0: Typologically Diverse Morphological Inflection [81.85463892070085]
形態的回帰に関するSIGMORPHON 2020の課題は、型的に異なる言語にまたがるシステムの一般化能力を調査することを目的としている。システムは45言語と5つの言語ファミリーのデータを使用して開発され、追加の45言語と10の言語ファミリー(合計13言語)のデータで微調整され、90言語すべてで評価された。
論文参考訳（メタデータ） (2020-06-20T13:24:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。