論文の概要: AI4Bharat-IndicNLP Corpus: Monolingual Corpora and Word Embeddings for
Indic Languages
- arxiv url: http://arxiv.org/abs/2005.00085v1
- Date: Thu, 30 Apr 2020 20:21:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 04:50:18.127944
- Title: AI4Bharat-IndicNLP Corpus: Monolingual Corpora and Word Embeddings for
Indic Languages
- Title(参考訳): AI4Bharat-IndicNLP Corpus: 単言語コーパスと単語埋め込み
- Authors: Anoop Kunchukuttan, Divyanshu Kakwani, Satish Golla, Gokul N.C., Avik
Bhattacharyya, Mitesh M. Khapra, Pratyush Kumar
- Abstract要約: IndicNLPコーパス(IndicNLPコーパス、IndicNLPコーパス、IndicNLPコーパス、IndicNLPコーパス、IndicNLPコーパス、IndicNLPコーパス、IndicNLPコーパス、IndicNLPコーパス、IndicNLPコーパス、IndicNLPコーパス、IndicNLPコーパス、IndicNLPコーパス、IndicNLPコーパス、In
これらのコーパスでトレーニングされた事前訓練された単語埋め込みを共有します。
IndicNLPの埋め込みは、複数の評価タスクにおいて、利用可能な事前訓練済みの埋め込みよりも大幅に優れていた。
- 参考スコア(独自算出の注目度): 15.425783311152117
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present the IndicNLP corpus, a large-scale, general-domain corpus
containing 2.7 billion words for 10 Indian languages from two language
families. We share pre-trained word embeddings trained on these corpora. We
create news article category classification datasets for 9 languages to
evaluate the embeddings. We show that the IndicNLP embeddings significantly
outperform publicly available pre-trained embedding on multiple evaluation
tasks. We hope that the availability of the corpus will accelerate Indic NLP
research. The resources are available at
https://github.com/ai4bharat-indicnlp/indicnlp_corpus.
- Abstract(参考訳): 2つの言語族から10のインディアン言語に対して270億の単語を含む大規模一般ドメインコーパスであるindicnlpコーパスを提案する。
これらのコーパスでトレーニングされた単語埋め込みを共有します。
埋め込みを評価するため,9言語を対象としたニュース記事分類データセットを作成する。
IndicNLPの埋め込みは、複数の評価タスクで利用可能な事前学習型埋め込みよりも大幅に優れていた。
コーパスが利用可能になることで、Indic NLP研究が加速することを期待します。
リソースはhttps://github.com/ai4bharat-indicnlp/indicnlp_corpusで入手できる。
関連論文リスト
- Low-Resource Named Entity Recognition with Cross-Lingual, Character-Level Neural Conditional Random Fields [68.17213992395041]
低リソースのエンティティ認識は、まだNLPでは未解決の問題である。
そこで我々は,高リソース言語と低リソース言語の両方の名前付きエンティティを共同で予測するために,文字レベルのニューラルCRFを訓練する。
論文 参考訳(メタデータ) (2024-04-14T23:44:49Z) - DIALECTBENCH: A NLP Benchmark for Dialects, Varieties, and Closely-Related Languages [49.38663048447942]
DIALECTBENCHは,NLPの品種に対する大規模ベンチマークとして初めて提案される。
これにより、異なる言語でNLPシステムの性能を総合的に評価することができる。
標準言語と非標準言語間の性能格差の相当な証拠を提供する。
論文 参考訳(メタデータ) (2024-03-16T20:18:36Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Harnessing Cross-lingual Features to Improve Cognate Detection for
Low-resource Languages [50.82410844837726]
言語間単語埋め込みを用いた14言語間のコニャートの検出を実証する。
インドの12言語からなる挑戦的データセットを用いて,コニャート検出手法の評価を行った。
我々は,コグネート検出のためのFスコアで最大18%の改善点を観察した。
論文 参考訳(メタデータ) (2021-12-16T11:17:58Z) - IndicBART: A Pre-trained Model for Natural Language Generation of Indic
Languages [24.638109544527104]
IndicBARTは、11のIndic言語と英語に焦点を当てた、多言語でシーケンスからシーケンスまでの事前訓練モデルである。
IndicBARTをニューラルネットワーク変換(NMT)と極端な要約という2つのNLGタスクで評価する。
論文 参考訳(メタデータ) (2021-09-07T07:08:33Z) - ParCourE: A Parallel Corpus Explorer for a Massively Multilingual Corpus [2.7036498789349244]
多言語NLPの進展には,言語の種類的特性の研究が不可欠である。
私たちはParCourEという,1334の言語をカバーする,単語を並べた並列コーパスを閲覧できるオンラインツールを提供しています。
論文 参考訳(メタデータ) (2021-07-14T12:16:21Z) - Samanantar: The Largest Publicly Available Parallel Corpora Collection
for 11 Indic Languages [4.3857077920223295]
Samanantarは、Indic言語で利用可能な最大の並列コーパスコレクションである。
このコレクションには、英語と11のIndic言語の間の合計4970万の文対が含まれている。
論文 参考訳(メタデータ) (2021-04-12T16:18:20Z) - Monolingual and Parallel Corpora for Kangri Low Resource Language [0.0]
本稿では,国連教育科学文化機関(unesco)に登録されているヒマカリ低資源絶滅危惧言語kangri(iso 639-3xnr)のデータセットを提案する。
コーパスは1,81,552のモノリンガルと27,362のヒンディー・カングリ・パラレルコーパスを含む。
論文 参考訳(メタデータ) (2021-03-22T05:52:51Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - Anchor-based Bilingual Word Embeddings for Low-Resource Languages [76.48625630211943]
良質な単言語単語埋め込み(MWEs)は、大量のラベルのないテキストを持つ言語向けに構築することができる。
MWEは、数千の単語変換ペアだけでバイリンガル空間に整列することができる。
本稿では,高資源言語におけるベクトル空間を出発点とするBWEの構築手法を提案する。
論文 参考訳(メタデータ) (2020-10-23T19:17:00Z) - A Multilingual Parallel Corpora Collection Effort for Indian Languages [43.62422999765863]
インドではヒンディー語、テルグ語、タミル語、マラヤラム語、グジャラート語、ウルドゥー語、ベンガル語、オリヤ語、マラティー語、パンジャービ語、英語の10言語に平行なコーパスを提示する。
コーパスは、言語間でコンテンツを共有するオンラインソースからコンパイルされる。
論文 参考訳(メタデータ) (2020-07-15T14:00:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。