論文の概要: Development of Word Embeddings for Uzbek Language
- arxiv url: http://arxiv.org/abs/2009.14384v1
- Date: Wed, 30 Sep 2020 01:52:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 23:27:11.060838
- Title: Development of Word Embeddings for Uzbek Language
- Title(参考訳): ウズベク語における単語埋め込みの開発
- Authors: B. Mansurov and A. Mansurov
- Abstract要約: ウズベク語のキリル変種に対する単語埋め込みの開発プロセスを共有する。
その結果、Word2vec、GloVe、fastTextアルゴリズムでトレーニングされたワードベクトルの最初の公開セットとなった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we share the process of developing word embeddings for the
Cyrillic variant of the Uzbek language. The result of our work is the first
publicly available set of word vectors trained on the word2vec, GloVe, and
fastText algorithms using a high-quality web crawl corpus developed in-house.
The developed word embeddings can be used in many natural language processing
downstream tasks.
- Abstract(参考訳): 本稿では,ウズベク語のキリル文字変形のための単語埋め込みの開発プロセスについて述べる。
我々の研究成果は、社内で開発された高品質なWebクロールコーパスを使用して、ワード2vec、GloVe、fastTextアルゴリズムでトレーニングされたワードベクトルの最初の公開セットである。
開発された単語埋め込みは、多くの自然言語処理下流タスクで使用できる。
関連論文リスト
- A Novel Cartography-Based Curriculum Learning Method Applied on RoNLI: The First Romanian Natural Language Inference Corpus [71.77214818319054]
自然言語推論は自然言語理解のプロキシである。
ルーマニア語のNLIコーパスは公開されていない。
58Kの訓練文対からなるルーマニア初のNLIコーパス(RoNLI)を紹介する。
論文 参考訳(メタデータ) (2024-05-20T08:41:15Z) - Creating a morphological and syntactic tagged corpus for the Uzbek
language [0.0]
ウズベク語の構文的および形態学的タグ付けコーパスを作成するための新しい音声部分(POS)と構文的タグセットを開発する。
開発したアノテーションツールとソフトウェアに基づいて,タグ付きコーパス生成の第1段階の経験結果を共有する。
論文 参考訳(メタデータ) (2022-10-27T07:44:12Z) - The Open corpus of the Veps and Karelian languages: overview and
applications [52.77024349608834]
The Open Corpus of the Veps and Karelian Languages (VepKar)は、2009年に設立されたVepsの拡張である。
VepKarコーパスは、カレリア語とヴェプス語のテキスト、それにリンクされた多機能辞書、高度な検索システムを備えたソフトウェアで構成されている。
今後の計画には、音声録音を扱うための音声モジュールと、形態解析出力を用いた構文タグ付けモジュールの開発が含まれる。
論文 参考訳(メタデータ) (2022-06-08T13:05:50Z) - Deconstructing word embedding algorithms [17.797952730495453]
我々は、最もよく知られた単語埋め込みアルゴリズムのいくつかについて振り返りを提案する。
本研究では,Word2vec,GloVe,その他を共通形式に分解し,実演語埋め込みに必要な共通条件を明らかにした。
論文 参考訳(メタデータ) (2020-11-12T14:23:35Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - RUSSE'2020: Findings of the First Taxonomy Enrichment Task for the
Russian language [70.27072729280528]
本稿では,ロシア語の分類学的豊か化に関する最初の共有課題の結果について述べる。
16チームがこのタスクに参加し、半数以上が提供されたベースラインを上回った。
論文 参考訳(メタデータ) (2020-05-22T13:30:37Z) - Cross-Lingual Word Embeddings for Turkic Languages [1.418033127602866]
言語間の単語埋め込みは、リソース豊富な言語から低リソース言語に知識を移すことができる。
トルコ語、ウズベク語、アゼリ語、カザフ語、キルギス語に言語間単語を埋め込む方法を示す。
論文 参考訳(メタデータ) (2020-05-17T18:57:23Z) - A Survey on Contextual Embeddings [48.04732268018772]
文脈埋め込みは、各単語を文脈に基づく表現として割り当て、様々な文脈にまたがる単語の使用を捉え、言語間で伝達される知識を符号化する。
本稿では,既存の文脈埋め込みモデル,言語間多言語事前学習,下流タスクへの文脈埋め込みの適用,モデル圧縮,モデル解析についてレビューする。
論文 参考訳(メタデータ) (2020-03-16T15:22:22Z) - Word Sense Disambiguation for 158 Languages using Word Embeddings Only [80.79437083582643]
文脈における単語感覚の曖昧さは人間にとって容易であるが、自動的アプローチでは大きな課題である。
本稿では,学習前の標準単語埋め込みモデルを入力として,完全に学習した単語認識のインベントリを誘導する手法を提案する。
この手法を用いて、158の言語に対して、事前訓練されたfastText単語の埋め込みに基づいて、センスインベントリのコレクションを誘導する。
論文 参考訳(メタデータ) (2020-03-14T14:50:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。