論文の概要: Indigenous Languages Spoken in Argentina: A Survey of NLP and Speech Resources
- arxiv url: http://arxiv.org/abs/2501.09943v2
- Date: Fri, 07 Feb 2025 18:35:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:25:53.083296
- Title: Indigenous Languages Spoken in Argentina: A Survey of NLP and Speech Resources
- Title(参考訳): アルゼンチンで発生した先住民族の言語:NLPと音声資源に関する調査
- Authors: Belu Ticona, Fernando Carranza, Viviana Cotik,
- Abstract要約: アルゼンチンには、少なくとも40の異なる言語を含む、大きながほとんど知られていない先住民族の言語多様性がある。
我々はアルゼンチンで話される先住民族の言語を体系化し、それらを7つの言語族に分類する。
それぞれについて、最新のアルゼンチンの国勢調査に基づいて、全国の先住民の人口規模を推定する。
- 参考スコア(独自算出の注目度): 45.07333085270152
- License:
- Abstract: Argentina has a large yet little-known Indigenous linguistic diversity, encompassing at least 40 different languages. The majority of these languages are at risk of disappearing, resulting in a significant loss of world heritage and cultural knowledge. Currently, unified information on speakers and computational tools is lacking for these languages. In this work, we present a systematization of the Indigenous languages spoken in Argentina, classifying them into seven language families: Mapuche, Tup\'i-Guaran\'i, Guaycur\'u, Quechua, Mataco-Mataguaya, Aymara, and Chon. For each one, we present an estimation of the national Indigenous population size, based on the most recent Argentinian census. We discuss potential reasons why the census questionnaire design may underestimate the actual number of speakers. We also provide a concise survey of computational resources available for these languages, whether or not they were specifically developed for Argentinian varieties.
- Abstract(参考訳): アルゼンチンには、少なくとも40の異なる言語を含む、大きながほとんど知られていない先住民族の言語多様性がある。
これらの言語の大部分は消滅の危険にさらされており、世界遺産や文化的な知識が著しく失われている。
現在、これらの言語には話者と計算ツールの統一された情報が欠けている。
本研究では,アルゼンチンで話される先住民族の言語を体系化し,マプチー語,トゥイ・グアラン語,グアイクル語,ケチュア語,マタコ・マタグア語,アイマラ語,チョン語に分類する。
それぞれについて、最新のアルゼンチンの国勢調査に基づいて、全国の先住民の人口規模を推定する。
本研究は, アンケート調査設計が実際の話者数を過小評価する可能性について論じる。
また、これらの言語で利用可能な計算資源について、アルゼンチンの品種向けに特別に開発されたかどうかを簡潔に調査する。
関連論文リスト
- Curated Datasets and Neural Models for Machine Translation of Informal Registers between Mayan and Spanish Vernaculars [2.2061683015812026]
我々はグアテマラとメキシコ南部で話されているいくつかのマヤ語言語でコーパスを開発し、キュレートし、公開する。
データセットは、その地域の支配的な言語であるスペイン語と平行している。
我々は、可能な限り多くのリソースとマヤ語で訓練されたニューラルマシン翻訳モデルを提示し、データセットでのみ評価する。
論文 参考訳(メタデータ) (2024-04-11T12:09:47Z) - Kallaama: A Transcribed Speech Dataset about Agriculture in the Three Most Widely Spoken Languages in Senegal [0.0]
Kallaamaプロジェクトは、音声技術開発のための国語コーパスの作成と普及を目的としている。
プロジェクトはセネガル人の主要言語であるWolof、Pulaar、Sereerの3つに焦点を当てている。
上記各言語における農業に関する125時間の記録を含む音声データセットを作成した。
論文 参考訳(メタデータ) (2024-04-02T14:31:14Z) - Content-Localization based Neural Machine Translation for Informal
Dialectal Arabic: Spanish/French to Levantine/Gulf Arabic [5.2957928879391]
本稿では,AI能力を活用して,高リソース言語を低リソース言語/方言にローカライズするフレームワークを提案する。
私たちはスペイン語とフランス語からアラビア語の方言へ/または/から、並列翻訳データセットを提供する最初の作品です。
論文 参考訳(メタデータ) (2023-12-12T01:42:41Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Neural Machine Translation for the Indigenous Languages of the Americas:
An Introduction [102.13536517783837]
アメリカ大陸のほとんどの言語は、もしあるならば、並列データと単言語データしか持たない。
これらの言語におけるNLPコミュニティの関心が高まった結果、最近の進歩、発見、オープンな質問について論じる。
論文 参考訳(メタデータ) (2023-06-11T23:27:47Z) - Making a MIRACL: Multilingual Information Retrieval Across a Continuum
of Languages [62.730361829175415]
MIRACLは、WSDM 2023 Cupチャレンジのために構築した多言語データセットです。
18の言語にまたがるアドホック検索に焦点を当てている。
我々の目標は、言語連続体における検索を改善する研究を加速させることです。
論文 参考訳(メタデータ) (2022-10-18T16:47:18Z) - NusaX: Multilingual Parallel Sentiment Dataset for 10 Indonesian Local
Languages [100.59889279607432]
インドネシアにおける言語の資源開発に重点を置いている。
インドネシアのほとんどの言語は絶滅危惧種に分類され、一部は絶滅している。
インドネシアで10の低リソース言語を対象とした,最初の並列リソースを開発した。
論文 参考訳(メタデータ) (2022-05-31T17:03:50Z) - Language Resources and Technologies for Non-Scheduled and Endangered
Indian Languages [0.9137554315375919]
インドの非スケジュール言語および絶滅危惧言語で利用可能な言語資源と技術の調査。
インド憲法第8条に記載されている22の言語のうち、他の言語で利用可能な実質的な資源や技術はほとんどない。
論文 参考訳(メタデータ) (2022-04-06T13:33:24Z) - Harnessing Cross-lingual Features to Improve Cognate Detection for
Low-resource Languages [50.82410844837726]
言語間単語埋め込みを用いた14言語間のコニャートの検出を実証する。
インドの12言語からなる挑戦的データセットを用いて,コニャート検出手法の評価を行った。
我々は,コグネート検出のためのFスコアで最大18%の改善点を観察した。
論文 参考訳(メタデータ) (2021-12-16T11:17:58Z) - The first large scale collection of diverse Hausa language datasets [0.0]
ハウサ語はサハラ以南のアフリカ諸言語の中でよく研究され文書化された言語と考えられている。
1億人以上がこの言語を話すと推定されている。
言語の公式な形式と非公式な形式の両方からなる、拡張されたデータセットのコレクションを提供する。
論文 参考訳(メタデータ) (2021-02-13T19:34:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。