論文の概要: Indigenous Languages Spoken in Argentina: A Survey of NLP and Speech Resources
- arxiv url: http://arxiv.org/abs/2501.09943v2
- Date: Fri, 07 Feb 2025 18:35:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:25:53.083296
- Title: Indigenous Languages Spoken in Argentina: A Survey of NLP and Speech Resources
- Title(参考訳): アルゼンチンで発生した先住民族の言語:NLPと音声資源に関する調査
- Authors: Belu Ticona, Fernando Carranza, Viviana Cotik,
- Abstract要約: アルゼンチンには、少なくとも40の異なる言語を含む、大きながほとんど知られていない先住民族の言語多様性がある。
我々はアルゼンチンで話される先住民族の言語を体系化し、それらを7つの言語族に分類する。
それぞれについて、最新のアルゼンチンの国勢調査に基づいて、全国の先住民の人口規模を推定する。
- 参考スコア(独自算出の注目度): 45.07333085270152
- License:
- Abstract: Argentina has a large yet little-known Indigenous linguistic diversity, encompassing at least 40 different languages. The majority of these languages are at risk of disappearing, resulting in a significant loss of world heritage and cultural knowledge. Currently, unified information on speakers and computational tools is lacking for these languages. In this work, we present a systematization of the Indigenous languages spoken in Argentina, classifying them into seven language families: Mapuche, Tup\'i-Guaran\'i, Guaycur\'u, Quechua, Mataco-Mataguaya, Aymara, and Chon. For each one, we present an estimation of the national Indigenous population size, based on the most recent Argentinian census. We discuss potential reasons why the census questionnaire design may underestimate the actual number of speakers. We also provide a concise survey of computational resources available for these languages, whether or not they were specifically developed for Argentinian varieties.
- Abstract(参考訳): アルゼンチンには、少なくとも40の異なる言語を含む、大きながほとんど知られていない先住民族の言語多様性がある。
これらの言語の大部分は消滅の危険にさらされており、世界遺産や文化的な知識が著しく失われている。
現在、これらの言語には話者と計算ツールの統一された情報が欠けている。
本研究では,アルゼンチンで話される先住民族の言語を体系化し,マプチー語,トゥイ・グアラン語,グアイクル語,ケチュア語,マタコ・マタグア語,アイマラ語,チョン語に分類する。
それぞれについて、最新のアルゼンチンの国勢調査に基づいて、全国の先住民の人口規模を推定する。
本研究は, アンケート調査設計が実際の話者数を過小評価する可能性について論じる。
また、これらの言語で利用可能な計算資源について、アルゼンチンの品種向けに特別に開発されたかどうかを簡潔に調査する。
関連論文リスト
- Is It Navajo? Accurate Language Detection in Endangered Athabaskan Languages [34.78841410279943]
ナヴァホのような絶滅危惧言語は、現代の言語技術では著しく不足している。
本研究では、現在ネイティブアメリカン言語をサポートしていないGoogleの言語識別(LangID)ツールを評価する。
論文 参考訳(メタデータ) (2025-01-27T04:43:18Z) - Harnessing Transfer Learning from Swahili: Advancing Solutions for Comorian Dialects [0.0]
バントゥー語族に属する4つの言語や方言のグループであるComorianのためのNLP技術の先駆者を目指しています。
我々のアプローチは、人間が母国語と異なる言語をほとんど、あるいは全く使わずに理解できれば、このプロセスを機械でモデル化することは、完全に可能であるという仮説に動機付けられています。
論文 参考訳(メタデータ) (2024-12-09T22:47:41Z) - Curated Datasets and Neural Models for Machine Translation of Informal Registers between Mayan and Spanish Vernaculars [2.2061683015812026]
我々はグアテマラとメキシコ南部で話されているいくつかのマヤ語言語でコーパスを開発し、キュレートし、公開する。
データセットは、その地域の支配的な言語であるスペイン語と平行している。
我々は、可能な限り多くのリソースとマヤ語で訓練されたニューラルマシン翻訳モデルを提示し、データセットでのみ評価する。
論文 参考訳(メタデータ) (2024-04-11T12:09:47Z) - What Do Dialect Speakers Want? A Survey of Attitudes Towards Language Technology for German Dialects [60.8361859783634]
我々はドイツ語に関連する方言と地域言語に関する話者を調査した。
回答者は特に、方言入力で動作する潜在的なNLPツールを好んでいる。
論文 参考訳(メタデータ) (2024-02-19T09:15:28Z) - Quantifying the Dialect Gap and its Correlates Across Languages [69.18461982439031]
この研究は、明らかな相違を明らかにし、マインドフルなデータ収集を通じてそれらに対処する可能性のある経路を特定することによって、方言NLPの分野を強化する基盤となる。
論文 参考訳(メタデータ) (2023-10-23T17:42:01Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Neural Machine Translation for the Indigenous Languages of the Americas:
An Introduction [102.13536517783837]
アメリカ大陸のほとんどの言語は、もしあるならば、並列データと単言語データしか持たない。
これらの言語におけるNLPコミュニティの関心が高まった結果、最近の進歩、発見、オープンな質問について論じる。
論文 参考訳(メタデータ) (2023-06-11T23:27:47Z) - Making a MIRACL: Multilingual Information Retrieval Across a Continuum
of Languages [62.730361829175415]
MIRACLは、WSDM 2023 Cupチャレンジのために構築した多言語データセットです。
18の言語にまたがるアドホック検索に焦点を当てている。
我々の目標は、言語連続体における検索を改善する研究を加速させることです。
論文 参考訳(メタデータ) (2022-10-18T16:47:18Z) - \`It\`ak\'ur\`oso: Exploiting Cross-Lingual Transferability for Natural
Language Generation of Dialogues in Low-Resource, African Languages [0.9511471519043974]
本研究では,最先端のモノリンガルモデル(SoTA)から6つのアフリカ語への言語間移動の可能性について検討する。
言語はスワヒリ語、ヴロフ語、ハウサ語、ナイジェリア語、ピジン語、キンヤルワンダ語、ヨルバ語である。
結果は、深い単言語モデルが言語にまたがって一般化する抽象性を学ぶという仮説が成り立つことを示している。
論文 参考訳(メタデータ) (2022-04-17T20:23:04Z) - The first large scale collection of diverse Hausa language datasets [0.0]
ハウサ語はサハラ以南のアフリカ諸言語の中でよく研究され文書化された言語と考えられている。
1億人以上がこの言語を話すと推定されている。
言語の公式な形式と非公式な形式の両方からなる、拡張されたデータセットのコレクションを提供する。
論文 参考訳(メタデータ) (2021-02-13T19:34:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。