論文の概要: "A Passage to India": Pre-trained Word Embeddings for Indian Languages
- arxiv url: http://arxiv.org/abs/2112.13800v1
- Date: Mon, 27 Dec 2021 17:31:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-28 16:44:20.656981
- Title: "A Passage to India": Pre-trained Word Embeddings for Indian Languages
- Title(参考訳): 『インドへの旅』:インド語への事前教育語埋め込み
- Authors: Kumar Saurav, Kumar Saunack, Diptesh Kanojia, Pushpak Bhattacharyya
- Abstract要約: 既存のアプローチを使って、14のインドの言語に複数の単語を埋め込みます。
これらすべての言語への組み込みを単一のリポジトリに配置します。
8つの異なるアプローチを使って、合計436のモデルをリリースします。
- 参考スコア(独自算出の注目度): 30.607474624873014
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dense word vectors or 'word embeddings' which encode semantic properties of
words, have now become integral to NLP tasks like Machine Translation (MT),
Question Answering (QA), Word Sense Disambiguation (WSD), and Information
Retrieval (IR). In this paper, we use various existing approaches to create
multiple word embeddings for 14 Indian languages. We place these embeddings for
all these languages, viz., Assamese, Bengali, Gujarati, Hindi, Kannada,
Konkani, Malayalam, Marathi, Nepali, Odiya, Punjabi, Sanskrit, Tamil, and
Telugu in a single repository. Relatively newer approaches that emphasize
catering to context (BERT, ELMo, etc.) have shown significant improvements, but
require a large amount of resources to generate usable models. We release
pre-trained embeddings generated using both contextual and non-contextual
approaches. We also use MUSE and XLM to train cross-lingual embeddings for all
pairs of the aforementioned languages. To show the efficacy of our embeddings,
we evaluate our embedding models on XPOS, UPOS and NER tasks for all these
languages. We release a total of 436 models using 8 different approaches. We
hope they are useful for the resource-constrained Indian language NLP. The
title of this paper refers to the famous novel 'A Passage to India' by E.M.
Forster, published initially in 1924.
- Abstract(参考訳): センセーショナルな単語ベクトルや単語の埋め込みは、機械翻訳(MT)、質問回答(QA)、単語センスの曖昧さ(WSD)、情報検索(IR)といったNLPタスクに不可欠なものになっている。
本稿では,14のインドの言語に複数の単語を埋め込む手法について述べる。
これらすべての言語に対して、viz., assamese, bengali, gujarati, hindi, kannada, konkani, malayalam, marathi, nepali, odiya, punjabi, sanskrit, tamil, teluguの埋め込みを単一のリポジトリに配置します。
比較的新しいアプローチでは、コンテキストへのキャタリング(BERT、ELMoなど)が大幅に改善されているが、使用可能なモデルを生成するには大量のリソースが必要である。
文脈的手法と非文脈的手法の両方を用いて事前学習した埋め込みを生成する。
また、MUSEとXLMを使って、上記の言語のすべてのペアに対して言語間埋め込みをトレーニングしています。
組込みの有効性を示すために、これらすべての言語に対するxpos、upos、nerタスクの組込みモデルを評価します。
8つの異なるアプローチで合計436モデルをリリースします。
資源制約のあるインド語NLPに役立てることを願っている。
本書の題名は1924年に出版されたE・M・フォースターの有名な小説「インドへの旅」にちなむ。
関連論文リスト
- NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - IndicTrans2: Towards High-Quality and Accessible Machine Translation
Models for all 22 Scheduled Indian Languages [37.758476568195256]
インドは10億人以上の人々が話す4つの主要言語族の言語と共に豊かな言語風景を持っている。
これらの言語のうち22はインド憲法に記載されている(予定言語として参照)。
論文 参考訳(メタデータ) (2023-05-25T17:57:43Z) - Machine Translation by Projecting Text into the Same
Phonetic-Orthographic Space Using a Common Encoding [3.0422770070015295]
本稿では,言語類似性を利用した共通多言語ラテン文字符号化(WX表記法)を提案する。
提案手法を類似言語対の実験により検証する。
また、遠距離とゼロショットの言語ペアで最大1BLEUポイントの改善も行います。
論文 参考訳(メタデータ) (2023-05-21T06:46:33Z) - L3Cube-MahaNLP: Marathi Natural Language Processing Datasets, Models,
and Library [1.14219428942199]
インドで3番目に人気のある言語であるにもかかわらず、マラタイ語は有用なNLP資源を欠いている。
L3Cube-MahaNLPでは,マラウイの自然言語処理のためのリソースとライブラリの構築を目標としている。
我々は、感情分析、名前付きエンティティ認識、ヘイトスピーチ検出などの教師付きタスクのためのデータセットとトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2022-05-29T17:51:00Z) - Expanding Pretrained Models to Thousands More Languages via
Lexicon-based Adaptation [133.7313847857935]
我々の研究は、NLPメソッドが現在の技術で不足している何千もの言語にどのように適応できるかを強調した。
3つのタスクにまたがる19の非表現言語に対して、我々の手法は、それぞれ追加のモノリンガルテキストによる最大5点と15点の改善をもたらす。
論文 参考訳(メタデータ) (2022-03-17T16:48:22Z) - L3Cube-MahaCorpus and MahaBERT: Marathi Monolingual Corpus, Marathi BERT
Language Models, and Resources [1.14219428942199]
我々は、L3Cube-MahaCorpusを、異なるインターネットソースから取り除かれたマラタイのモノリンガルデータセットとして提示する。
既存のMarathiモノリンガルコーパスを24.8M文と289Mトークンで拡張する。
下流分類とNERタスクにおけるこれらのリソースの有効性を示す。
論文 参考訳(メタデータ) (2022-02-02T17:35:52Z) - Challenge Dataset of Cognates and False Friend Pairs from Indian
Languages [54.6340870873525]
コニャートは異なる言語で同じテキストの複数の変種に存在する。
本稿では,12言語を対象とした2つのコグネートデータセットの作成について述べる。
論文 参考訳(メタデータ) (2021-12-17T14:23:43Z) - Harnessing Cross-lingual Features to Improve Cognate Detection for
Low-resource Languages [50.82410844837726]
言語間単語埋め込みを用いた14言語間のコニャートの検出を実証する。
インドの12言語からなる挑戦的データセットを用いて,コニャート検出手法の評価を行った。
我々は,コグネート検出のためのFスコアで最大18%の改善点を観察した。
論文 参考訳(メタデータ) (2021-12-16T11:17:58Z) - Experimental Evaluation of Deep Learning models for Marathi Text
Classification [0.0]
CNN, LSTM, ULMFiT, BERT ベースのモデルを, 2つの公開 Marathi テキスト分類データセットで評価する。
CNNとLSTMに基づく基本単層モデルとFastTextの埋め込みは、利用可能なデータセット上でBERTベースのモデルと同等に動作することを示す。
論文 参考訳(メタデータ) (2021-01-13T06:21:27Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。