論文の概要: iNLTK: Natural Language Toolkit for Indic Languages
- arxiv url: http://arxiv.org/abs/2009.12534v2
- Date: Sat, 10 Oct 2020 07:46:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-14 08:44:12.767889
- Title: iNLTK: Natural Language Toolkit for Indic Languages
- Title(参考訳): inltk: インデックス言語のための自然言語ツールキット
- Authors: Gaurav Arora
- Abstract要約: iNLTKは、トレーニング済みの言語モデルと、データ拡張、テキスト類似性、センテンス埋め込み、ワード埋め込み、トークン化、テキスト生成のためのアウト・オブ・ボックスサポートからなるオープンソースのNLPライブラリである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present iNLTK, an open-source NLP library consisting of pre-trained
language models and out-of-the-box support for Data Augmentation, Textual
Similarity, Sentence Embeddings, Word Embeddings, Tokenization and Text
Generation in 13 Indic Languages. By using pre-trained models from iNLTK for
text classification on publicly available datasets, we significantly outperform
previously reported results. On these datasets, we also show that by using
pre-trained models and data augmentation from iNLTK, we can achieve more than
95% of the previous best performance by using less than 10% of the training
data. iNLTK is already being widely used by the community and has 40,000+
downloads, 600+ stars and 100+ forks on GitHub. The library is available at
https://github.com/goru001/inltk.
- Abstract(参考訳): iNLTKは、訓練済みの言語モデルと、データ拡張、テキスト類似性、文の埋め込み、単語埋め込み、トークン化、テキスト生成のためのアウト・オブ・ボックスのサポートで構成されるオープンソースのNLPライブラリである。
公開データセットのテキスト分類にiNLTKの事前学習モデルを用いることで,従来報告した結果よりも有意に優れていた。
これらのデータセットについて,事前トレーニングされたモデルとinltkのデータ拡張を用いることで,トレーニングデータの10%未満を用いて,前回のベストパフォーマンスの95%以上を達成できることを示す。
iNLTKはすでにコミュニティで広く使われており、GitHubには40,000以上のダウンロード、600以上のスター、100以上のフォークがある。
ライブラリはhttps://github.com/goru001/inltkで入手できる。
関連論文リスト
- Pretraining Data and Tokenizer for Indic LLM [1.7729311045335219]
我々は,多言語Indic大言語モデル構築のためのデータ準備のための新しいアプローチを開発する。
われわれの厳密なデータ取得は、Common Crawl、Indic Book、ニュース記事、Wikipediaなど、オープンソースとプロプライエタリなソースにまたがっている。
Indic言語毎に、冗長で低品質なテキストコンテンツを効果的に除去するカスタムプリプロセッシングパイプラインを設計する。
論文 参考訳(メタデータ) (2024-07-17T11:06:27Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Pre-Training to Learn in Context [138.0745138788142]
言語モデルが文脈で学習するために明示的に訓練されていないため、コンテキスト内学習の能力は十分に活用されていない。
In-Context Learning のための PICL (Pre-training for In-Context Learning) を提案する。
実験の結果,PICLはベースラインよりも効率が高く,タスクの汎用性が高く,約4倍のパラメータを持つ言語モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-05-16T03:38:06Z) - V\=arta: A Large-Scale Headline-Generation Dataset for Indic Languages [21.018996007110324]
このデータセットには14の異なるIndic言語(および英語)の480万のニュース記事が含まれている。
私たちの知る限りでは、現在利用可能なIndic言語のキュレートされた記事のコレクションとしては、これが最大です。
論文 参考訳(メタデータ) (2023-05-10T03:07:17Z) - WikiGoldSK: Annotated Dataset, Baselines and Few-Shot Learning
Experiments for Slovak Named Entity Recognition [0.0]
WikiGoldSKは,スロバキアのNERデータセットを初めてラベル付けした人体である。
我々は、最先端の多言語事前学習言語モデルを評価することで、それをベンチマークする。
数ショットの実験を行い、標準データセットのトレーニングがより良い結果をもたらすことを示す。
論文 参考訳(メタデータ) (2023-04-08T14:37:52Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - LaoPLM: Pre-trained Language Models for Lao [3.2146309563776416]
事前訓練された言語モデル(PLM)は、コンテキストにおける異なるレベルの概念をキャプチャし、普遍的な言語表現を生成する。
PTMは、ほとんどのNLPアプリケーションで広く使われているが、Lao NLP研究ではあまり使われていない。
ラオス語の資源管理状況を軽減するために,テキスト分類データセットを構築した。
本稿では,ラオスにおけるトランスフォーマーベースのPTMを,BERT-small,BERT-base,ELECTRA-small,ELECTRA-baseの4つのバージョンで提案する。
論文 参考訳(メタデータ) (2021-10-12T11:13:07Z) - Paraphrastic Representations at Scale [134.41025103489224]
私たちは、英語、アラビア語、ドイツ語、フランス語、スペイン語、ロシア語、トルコ語、中国語の訓練されたモデルをリリースします。
我々はこれらのモデルを大量のデータでトレーニングし、元の論文から大幅に性能を向上した。
論文 参考訳(メタデータ) (2021-04-30T16:55:28Z) - Self-Training Pre-Trained Language Models for Zero- and Few-Shot
Multi-Dialectal Arabic Sequence Labeling [7.310390479801139]
データスカース変種の性能を改善するため、ゼロおよび少数ショットシナリオで事前訓練された言語モデル。
我々の研究は、MSAリソースのみを活用するDAモデルを開発する機会を開く。
論文 参考訳(メタデータ) (2021-01-12T21:29:30Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - CoVoST: A Diverse Multilingual Speech-To-Text Translation Corpus [57.641761472372814]
CoVoSTは11言語から英語への多言語による音声からテキストへの翻訳コーパスである。
11,000人以上の話者と60以上のアクセントで多様化した。
CoVoSTはCC0ライセンスでリリースされており、無料で利用できる。
論文 参考訳(メタデータ) (2020-02-04T14:35:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。