論文の概要: Indigenous Languages Spoken in Argentina: A Survey of NLP and Speech Resources
- arxiv url: http://arxiv.org/abs/2501.09943v1
- Date: Fri, 17 Jan 2025 03:47:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-20 14:00:01.238815
- Title: Indigenous Languages Spoken in Argentina: A Survey of NLP and Speech Resources
- Title(参考訳): アルゼンチンで発生した先住民族の言語:NLPと音声資源に関する調査
- Authors: Belu Ticona, Fernando Carranza, Viviana Cotik,
- Abstract要約: アルゼンチンで話される先住民族の言語の体系化について述べる。
マプーチェ語、トゥピ・グアラニ語、グアユ語、ケチュア語、マタコ・マタグア語、アイマラ語、チョン語である。
- 参考スコア(独自算出の注目度): 45.07333085270152
- License:
- Abstract: Argentina has a diverse, yet little-known, Indigenous language heritage. Most of these languages are at risk of disappearing, resulting in a significant loss of world heritage and cultural knowledge. Currently, no unified information on speakers and computational tools is available for these languages. In this work, we present a systematization of the Indigenous languages spoken in Argentina, along with national demographic data on the country's Indigenous population. The languages are classified into seven families: Mapuche, Tup\'i-Guaran\'i, Guaycur\'u, Quechua, Mataco-Mataguaya, Aymara, and Chon. We also provide an introductory survey of the computational resources available for these languages, whether or not they are specifically developed for Argentine varieties.
- Abstract(参考訳): アルゼンチンには多様だがほとんど知られていない先住民族の言語遺産がある。
これらの言語のほとんどは消滅の危険にさらされており、世界遺産や文化的な知識が著しく失われている。
現在、これらの言語で話者と計算ツールに関する統一された情報は提供されていない。
本研究では、アルゼンチンで話される先住民族の言語体系化と、アルゼンチンの先住民族の人口統計データについて述べる。
マプチェ語、トゥイ・グアラ語、グアイクル語、ケチュア語、マタコ・マタグア語、アイマラ語、チョン語である。
また、アルゼンチンの品種に特化して開発されているか否かにかかわらず、これらの言語で利用可能な計算資源について紹介する。
関連論文リスト
- Curated Datasets and Neural Models for Machine Translation of Informal Registers between Mayan and Spanish Vernaculars [2.2061683015812026]
我々はグアテマラとメキシコ南部で話されているいくつかのマヤ語言語でコーパスを開発し、キュレートし、公開する。
データセットは、その地域の支配的な言語であるスペイン語と平行している。
我々は、可能な限り多くのリソースとマヤ語で訓練されたニューラルマシン翻訳モデルを提示し、データセットでのみ評価する。
論文 参考訳(メタデータ) (2024-04-11T12:09:47Z) - Kallaama: A Transcribed Speech Dataset about Agriculture in the Three Most Widely Spoken Languages in Senegal [0.0]
Kallaamaプロジェクトは、音声技術開発のための国語コーパスの作成と普及を目的としている。
プロジェクトはセネガル人の主要言語であるWolof、Pulaar、Sereerの3つに焦点を当てている。
上記各言語における農業に関する125時間の記録を含む音声データセットを作成した。
論文 参考訳(メタデータ) (2024-04-02T14:31:14Z) - Content-Localization based Neural Machine Translation for Informal
Dialectal Arabic: Spanish/French to Levantine/Gulf Arabic [5.2957928879391]
本稿では,AI能力を活用して,高リソース言語を低リソース言語/方言にローカライズするフレームワークを提案する。
私たちはスペイン語とフランス語からアラビア語の方言へ/または/から、並列翻訳データセットを提供する最初の作品です。
論文 参考訳(メタデータ) (2023-12-12T01:42:41Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Neural Machine Translation for the Indigenous Languages of the Americas:
An Introduction [102.13536517783837]
アメリカ大陸のほとんどの言語は、もしあるならば、並列データと単言語データしか持たない。
これらの言語におけるNLPコミュニティの関心が高まった結果、最近の進歩、発見、オープンな質問について論じる。
論文 参考訳(メタデータ) (2023-06-11T23:27:47Z) - Making a MIRACL: Multilingual Information Retrieval Across a Continuum
of Languages [62.730361829175415]
MIRACLは、WSDM 2023 Cupチャレンジのために構築した多言語データセットです。
18の言語にまたがるアドホック検索に焦点を当てている。
我々の目標は、言語連続体における検索を改善する研究を加速させることです。
論文 参考訳(メタデータ) (2022-10-18T16:47:18Z) - NusaX: Multilingual Parallel Sentiment Dataset for 10 Indonesian Local
Languages [100.59889279607432]
インドネシアにおける言語の資源開発に重点を置いている。
インドネシアのほとんどの言語は絶滅危惧種に分類され、一部は絶滅している。
インドネシアで10の低リソース言語を対象とした,最初の並列リソースを開発した。
論文 参考訳(メタデータ) (2022-05-31T17:03:50Z) - Language Resources and Technologies for Non-Scheduled and Endangered
Indian Languages [0.9137554315375919]
インドの非スケジュール言語および絶滅危惧言語で利用可能な言語資源と技術の調査。
インド憲法第8条に記載されている22の言語のうち、他の言語で利用可能な実質的な資源や技術はほとんどない。
論文 参考訳(メタデータ) (2022-04-06T13:33:24Z) - Harnessing Cross-lingual Features to Improve Cognate Detection for
Low-resource Languages [50.82410844837726]
言語間単語埋め込みを用いた14言語間のコニャートの検出を実証する。
インドの12言語からなる挑戦的データセットを用いて,コニャート検出手法の評価を行った。
我々は,コグネート検出のためのFスコアで最大18%の改善点を観察した。
論文 参考訳(メタデータ) (2021-12-16T11:17:58Z) - The first large scale collection of diverse Hausa language datasets [0.0]
ハウサ語はサハラ以南のアフリカ諸言語の中でよく研究され文書化された言語と考えられている。
1億人以上がこの言語を話すと推定されている。
言語の公式な形式と非公式な形式の両方からなる、拡張されたデータセットのコレクションを提供する。
論文 参考訳(メタデータ) (2021-02-13T19:34:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。