論文の概要: Spark NLP: Natural Language Understanding at Scale
- arxiv url: http://arxiv.org/abs/2101.10848v1
- Date: Tue, 26 Jan 2021 15:11:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-14 07:53:06.572953
- Title: Spark NLP: Natural Language Understanding at Scale
- Title(参考訳): Spark NLP: スケールでの自然言語理解
- Authors: Veysel Kocaman, David Talby
- Abstract要約: Spark NLPは、Apache Spark ML上に構築された自然言語処理(NLP)ライブラリである。
マシンラーニングパイプラインに、シンプルで高性能で正確なNLPアノテーションを提供します。
クラスタ内でシームレスに使用できるほぼすべてのNLPタスクとモジュールをサポートしています。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Spark NLP is a Natural Language Processing (NLP) library built on top of
Apache Spark ML. It provides simple, performant and accurate NLP annotations
for machine learning pipelines that can scale easily in a distributed
environment. Spark NLP comes with 1100 pre trained pipelines and models in more
than 192 languages. It supports nearly all the NLP tasks and modules that can
be used seamlessly in a cluster. Downloaded more than 2.7 million times and
experiencing nine times growth since January 2020, Spark NLP is used by 54% of
healthcare organizations as the worlds most widely used NLP library in the
enterprise.
- Abstract(参考訳): Spark NLPは、Apache Spark ML上に構築された自然言語処理(NLP)ライブラリである。
分散環境で容易にスケール可能な機械学習パイプラインに、シンプルで高性能で正確なnlpアノテーションを提供する。
Spark NLPには、192以上の言語で1100以上の事前トレーニングパイプラインとモデルが含まれている。
クラスタ内でシームレスに使用できるほぼすべてのNLPタスクとモジュールをサポートしています。
ダウンロード数は270万回を超え、2020年1月から9倍の成長を遂げたSpark NLPは、企業で最も広く使用されているNLPライブラリとして、54%のヘルスケア組織で使用されています。
関連論文リスト
- Implicit Discourse Relation Classification For Nigerian Pidgin [14.883782513177092]
ナイジェリアのピジン(NP)は1億人近い人々によって話されているが、比較的少ないNLP資源とコーパスを持っている。
我々は、オープンソースのIDRCツールを使用してラベルをバックプロジェクションし、NPのための合成談話コーパスを作成し、PDTBとPDTBラベルをプロジェクションする。
ネイティブ」NP分類を学習する後者のアプローチは、ベースラインを13.27%、f$_1$スコアで33.98%上回っている。
論文 参考訳(メタデータ) (2024-06-26T22:10:15Z) - DIALECTBENCH: A NLP Benchmark for Dialects, Varieties, and Closely-Related Languages [49.38663048447942]
DIALECTBENCHは,NLPの品種に対する大規模ベンチマークとして初めて提案される。
これにより、異なる言語でNLPシステムの性能を総合的に評価することができる。
標準言語と非標準言語間の性能格差の相当な証拠を提供する。
論文 参考訳(メタデータ) (2024-03-16T20:18:36Z) - VNLP: Turkish NLP Package [0.0]
VNLPは、トルコ語のための最先端自然言語処理(NLP)パッケージである。
テキスト分割やテキスト正規化といった最も単純なタスクから、テキストやトークンの分類モデルといったより高度なタスクまで、幅広いツールが含まれている。
VNLPには、オープンソースのGitHubリポジトリ、ReadtheDocsドキュメント、便利なインストールのためのPyPiパッケージ、Python、コマンドラインAPIがある。
論文 参考訳(メタデータ) (2024-03-02T20:46:56Z) - XNLP: An Interactive Demonstration System for Universal Structured NLP [90.42606755782786]
我々は,LLMを利用して汎用XNLPを実現する,高度なXNLPデモプラットフォームを提案する。
全体として、我々のシステムは、ユニバーサルXNLPモデリング、ハイパフォーマンス、解釈可能性、スケーラビリティ、対話性など、様々な面で進歩し、コミュニティ内で多様なXNLPタスクを探索するための統一されたプラットフォームを提供する。
論文 参考訳(メタデータ) (2023-08-03T16:13:05Z) - HugNLP: A Unified and Comprehensive Library for Natural Language
Processing [14.305751154503133]
本稿では,HugingFace Transformersのバックエンドを備えた自然言語処理(NLP)ライブラリであるHugNLPを紹介する。
HugNLPは、モデル、プロセッサ、アプリケーションを含む階層構造で構成され、異なるNLPタスクで事前訓練された言語モデル(PLM)の学習プロセスを統一する。
論文 参考訳(メタデータ) (2023-02-28T03:38:26Z) - Solo-learn: A Library of Self-supervised Methods for Visual
Representation Learning [83.02597612195966]
solo-learnは視覚表現学習のための自己指導型のメソッドのライブラリである。
Pythonで実装され、PytorchとPytorch Lightningを使用して、このライブラリは研究と業界のニーズの両方に適合する。
論文 参考訳(メタデータ) (2021-08-03T22:19:55Z) - Large-Scale News Classification using BERT Language Model: Spark NLP
Approach [1.933681537640272]
MapReduceは大規模計算の並列化を可能にし、テキスト処理の効率を向上させることができる。
我々は、事前訓練されたモデルを用いて、細調整されたBERTを用いて、ニューストピックの大きなテキストを分類する。
BERTを用いた全てのモデルの精度平均とトレーニング時間は0.9187と35分であり、Spark NLPパイプラインを使用したBERTは0.8444と9分である。
論文 参考訳(メタデータ) (2021-07-14T15:42:15Z) - FedNLP: A Research Platform for Federated Learning in Natural Language
Processing [55.01246123092445]
NLPのフェデレーションラーニングのための研究プラットフォームであるFedNLPを紹介します。
FedNLPは、テキスト分類、シーケンスタグ付け、質問応答、Seq2seq生成、言語モデリングなど、NLPで一般的なタスクの定式化をサポートしている。
FedNLPによる予備実験では、分散型データセットと集中型データセットの学習には大きなパフォーマンスギャップが存在することが明らかになった。
論文 参考訳(メタデータ) (2021-04-18T11:04:49Z) - A Data-Centric Framework for Composable NLP Workflows [109.51144493023533]
アプリケーションドメインにおける経験的自然言語処理システム(例えば、ヘルスケア、ファイナンス、教育)は、複数のコンポーネント間の相互運用を伴う。
我々は,このような高度なNLPの高速な開発を支援するために,統一的なオープンソースフレームワークを構築した。
論文 参考訳(メタデータ) (2021-03-02T16:19:44Z) - Biomedical Named Entity Recognition at Scale [6.85316573653194]
7つの公開バイオメディカル・ベンチマークで新しい最先端の結果を得られる1つのトレーニング可能なNERモデルを提案する。
このモデルは、オープンソースのSpark NLPライブラリの一部として、プロダクショングレードのコードベースで自由に利用できる。
論文 参考訳(メタデータ) (2020-11-12T11:10:17Z) - FewJoint: A Few-shot Learning Benchmark for Joint Language Understanding [55.38905499274026]
機械学習は、機械学習における重要なステップの1つだ。
FewJointは、NLP用のFew-Shot Learningベンチマークである。
論文 参考訳(メタデータ) (2020-09-17T08:17:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。