論文の概要: NLP Workbench: Efficient and Extensible Integration of State-of-the-art
Text Mining Tools
- arxiv url: http://arxiv.org/abs/2303.01410v1
- Date: Thu, 2 Mar 2023 16:59:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-03 13:25:56.742621
- Title: NLP Workbench: Efficient and Extensible Integration of State-of-the-art
Text Mining Tools
- Title(参考訳): NLP Workbench:最先端テキストマイニングツールの効率的で拡張可能な統合
- Authors: Peiran Yao, Matej Kosmajac, Abeer Waheed, Kostyantyn Guzhva, Natalie
Hervieux, Denilson Barbosa
- Abstract要約: 非専門家は、最先端のテキストマイニングモデルを用いて大規模コーパスのセマンティック理解を得ることができる。
このプラットフォームは、最新のトレーニング済みモデルと、アカデミアのオープンソースシステムの上に構築されている。
- 参考スコア(独自算出の注目度): 6.197644109088143
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: NLP Workbench is a web-based platform for text mining that allows non-expert
users to obtain semantic understanding of large-scale corpora using
state-of-the-art text mining models. The platform is built upon latest
pre-trained models and open source systems from academia that provide semantic
analysis functionalities, including but not limited to entity linking,
sentiment analysis, semantic parsing, and relation extraction. Its extensible
design enables researchers and developers to smoothly replace an existing model
or integrate a new one. To improve efficiency, we employ a microservice
architecture that facilitates allocation of acceleration hardware and
parallelization of computation. This paper presents the architecture of NLP
Workbench and discusses the challenges we faced in designing it. We also
discuss diverse use cases of NLP Workbench and the benefits of using it over
other approaches. The platform is under active development, with its source
code released under the MIT license. A website and a short video demonstrating
our platform are also available.
- Abstract(参考訳): NLP WorkbenchはテキストマイニングのためのWebベースのプラットフォームで、専門家でないユーザが最先端のテキストマイニングモデルを使用して大規模コーパスの意味的理解を得ることができる。
プラットフォームは、エンティティリンク、感情分析、意味解析、関係抽出を含む意味分析機能を提供する、学界の最新の事前学習されたモデルとオープンソースシステム上に構築されている。
その拡張可能な設計により、研究者や開発者は既存のモデルをスムーズに置き換えたり、新しいモデルを統合できる。
高速化のために,アクセラレーションハードウェアの割り当てと計算の並列化を容易にするマイクロサービスアーキテクチャを採用している。
本稿では,NLP Workbenchのアーキテクチャを概説し,その設計に直面する課題について論じる。
また、NLP Workbenchの多様なユースケースや、他のアプローチに対する利用メリットについても論じる。
プラットフォームは現在開発中で、ソースコードはMITライセンスで公開されている。
当社のプラットフォームをデモするWebサイトやショートビデオも利用可能です。
関連論文リスト
- CMULAB: An Open-Source Framework for Training and Deployment of Natural Language Processing Models [59.91221728187576]
本稿では,NLPモデルのモデル展開と連続的なヒューマン・イン・ザ・ループの微調整を簡単にするオープンソースフレームワークであるCMU言語バックエンドを紹介する。
CMULABは、マルチ言語モデルのパワーを活用して、音声認識、OCR、翻訳、構文解析などの既存のツールを新しい言語に迅速に適応し、拡張することができる。
論文 参考訳(メタデータ) (2024-04-03T02:21:46Z) - Institutional Platform for Secure Self-Service Large Language Model Exploration [0.0]
論文では、データセットキュレーション、モデルトレーニング、セキュア推論、テキストベースの特徴抽出を含む、システムのアーキテクチャと重要な特徴について概説する。
プラットフォームはセキュアなLLMサービスの提供、プロセスとデータ分離の強調、エンドツーエンドの暗号化、ロールベースのリソース認証を目指している。
論文 参考訳(メタデータ) (2024-02-01T10:58:10Z) - Mini-GPTs: Efficient Large Language Models through Contextual Pruning [0.0]
本稿では,コンテキストプルーニングによるMini-GPTの開発における新しいアプローチを提案する。
我々は、米国法、医学Q&A、スカイリム対話、英台湾翻訳、経済記事など、多種多様な複雑なデータセットにこの技術を適用している。
論文 参考訳(メタデータ) (2023-12-20T00:48:13Z) - SoTaNa: The Open-Source Software Development Assistant [81.86136560157266]
SoTaNaはオープンソースのソフトウェア開発アシスタントだ。
ソフトウェア工学の分野のための高品質な命令ベースのデータを生成する。
オープンソースの基盤モデルであるLLaMAを強化するためにパラメータ効率のよい微調整アプローチを採用している。
論文 参考訳(メタデータ) (2023-08-25T14:56:21Z) - GAIA Search: Hugging Face and Pyserini Interoperability for NLP Training
Data Exploration [97.68234051078997]
我々はPyseriniを、オープンソースのAIライブラリとアーティファクトのHugging Faceエコシステムに統合する方法について論じる。
Jupyter NotebookベースのウォークスルーがGitHubで公開されている。
GAIA Search - 前述した原則に従って構築された検索エンジンで、人気の高い4つの大規模テキストコレクションへのアクセスを提供する。
論文 参考訳(メタデータ) (2023-06-02T12:09:59Z) - A Data-Centric Framework for Composable NLP Workflows [109.51144493023533]
アプリケーションドメインにおける経験的自然言語処理システム(例えば、ヘルスケア、ファイナンス、教育)は、複数のコンポーネント間の相互運用を伴う。
我々は,このような高度なNLPの高速な開発を支援するために,統一的なオープンソースフレームワークを構築した。
論文 参考訳(メタデータ) (2021-03-02T16:19:44Z) - Modular approach to data preprocessing in ALOHA and application to a
smart industry use case [0.0]
データ前処理と変換パイプラインをサポートするために、ALOHAツールフローに統合されたモジュラーアプローチに対処する。
提案手法の有効性を示すために,キーワードスポッティングのユースケースに関する実験結果を示す。
論文 参考訳(メタデータ) (2021-02-02T06:48:51Z) - Edge-assisted Democratized Learning Towards Federated Analytics [67.44078999945722]
本稿では,エッジ支援型民主化学習機構であるEdge-DemLearnの階層的学習構造を示す。
また、Edge-DemLearnを柔軟なモデルトレーニングメカニズムとして検証し、リージョンに分散制御と集約の方法論を構築する。
論文 参考訳(メタデータ) (2020-12-01T11:46:03Z) - N-LTP: An Open-source Neural Language Technology Platform for Chinese [68.58732970171747]
textttN-は、中国の6つの基本的なNLPタスクをサポートする、オープンソースのニューラルネットワークテクノロジプラットフォームである。
textttN-は、中国のタスク間で共有知識をキャプチャする利点がある共有事前学習モデルを使用することで、マルチタスクフレームワークを採用する。
論文 参考訳(メタデータ) (2020-09-24T11:45:39Z) - CLEVR Parser: A Graph Parser Library for Geometric Learning on Language
Grounded Image Scenes [2.750124853532831]
CLEVRデータセットは、機械学習(ML)と自然言語処理(NLP)ドメインにおいて、言語基盤の視覚的推論で広く使用されている。
本稿では,CLEVR用のグラフライブラリについて述べる。オブジェクト中心属性と関係抽出の機能を提供し,デュアルモーダル性のための構造グラフ表現の構築を行う。
図書館の下流利用と応用について論じるとともに,NLP研究コミュニティにおける研究の促進について論じる。
論文 参考訳(メタデータ) (2020-09-19T03:32:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。