論文の概要: A Data-Centric Framework for Composable NLP Workflows
- arxiv url: http://arxiv.org/abs/2103.01834v2
- Date: Wed, 3 Mar 2021 02:57:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-06 10:00:52.887542
- Title: A Data-Centric Framework for Composable NLP Workflows
- Title(参考訳): 構成可能なNLPワークフローのためのデータセンタフレームワーク
- Authors: Zhengzhong Liu, Guanxiong Ding, Avinash Bukkittu, Mansi Gupta, Pengzhi
Gao, Atif Ahmed, Shikun Zhang, Xin Gao, Swapnil Singhavi, Linwei Li, Wei Wei,
Zecong Hu, Haoran Shi, Xiaodan Liang, Teruko Mitamura, Eric P. Xing, and
Zhiting Hu
- Abstract要約: アプリケーションドメインにおける経験的自然言語処理システム(例えば、ヘルスケア、ファイナンス、教育)は、複数のコンポーネント間の相互運用を伴う。
我々は,このような高度なNLPの高速な開発を支援するために,統一的なオープンソースフレームワークを構築した。
- 参考スコア(独自算出の注目度): 109.51144493023533
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Empirical natural language processing (NLP) systems in application domains
(e.g., healthcare, finance, education) involve interoperation among multiple
components, ranging from data ingestion, human annotation, to text retrieval,
analysis, generation, and visualization. We establish a unified open-source
framework to support fast development of such sophisticated NLP workflows in a
composable manner. The framework introduces a uniform data representation to
encode heterogeneous results by a wide range of NLP tasks. It offers a large
repository of processors for NLP tasks, visualization, and annotation, which
can be easily assembled with full interoperability under the unified
representation. The highly extensible framework allows plugging in custom
processors from external off-the-shelf NLP and deep learning libraries. The
whole framework is delivered through two modularized yet integratable
open-source projects, namely Forte1 (for workflow infrastructure and NLP
function processors) and Stave2 (for user interaction, visualization, and
annotation).
- Abstract(参考訳): アプリケーションドメインにおける経験的自然言語処理(NLP)システム(例えば、医療、金融、教育)は、データの取り込み、人間のアノテーション、テキスト検索、分析、生成、可視化など、さまざまなコンポーネント間の相互運用を含む。
このような高度なNLPワークフローの迅速な開発を支援するために,我々は統一されたオープンソースフレームワークを構築している。
このフレームワークは、幅広いNLPタスクによって異種結果をエンコードするための統一データ表現を導入している。
nlpタスク、ビジュアライゼーション、アノテーションのためのプロセッサの大規模なリポジトリを提供しており、統一表現の下で完全な相互運用性で簡単に組み立てることができる。
拡張性の高いフレームワークにより、外部の既製のNLPとディープラーニングライブラリからカスタムプロセッサをプラグインできる。
フレームワーク全体は,2つのモジュール化された統合可能なオープンソースプロジェクト,すなわちforte1(ワークフローインフラストラクチャとnlp関数プロセッサ)とstave2(ユーザインタラクション,可視化,アノテーション)を通じて提供される。
- 全文 参考訳へのリンク
関連論文リスト
- i-Code: An Integrative and Composable Multimodal Learning Framework [99.56065789066027]
i-Codeは、視覚、音声、言語を統一的で汎用的なベクトル表現に柔軟に組み合わせられる自己教師型事前学習フレームワークである。
システム全体は、マスク付きモダリティ・ユニット・モデリングやクロスモダリティ・コントラスト・ラーニングなどの新しい目的により、エンドツーエンドで事前訓練されている。
実験の結果、i-Codeは5つのビデオ理解タスクとGLUE NLPベンチマークで最先端技術を上回る性能を示し、最大11%改善した。
論文 参考訳(メタデータ) (2022-05-03T23:38:50Z) - Nemo: Guiding and Contextualizing Weak Supervision for Interactive Data
Programming [77.38174112525168]
私たちは、WS 学習パイプラインの全体的な生産性を、一般的な WS 監督アプローチと比較して平均20%(最大 47% のタスク)改善する、エンドツーエンドのインタラクティブなスーパービジョンシステムである Nemo を紹介します。
論文 参考訳(メタデータ) (2022-03-02T19:57:32Z) - A Flexible Clustering Pipeline for Mining Text Intentions [6.599344783327053]
Verint Intent Manager内にフレキシブルでスケーラブルなクラスタリングパイプラインを作成します。
言語モデルの微調整、高性能なk-NNライブラリ、コミュニティ検出技術を統合する。
VIMアプリケーションにデプロイされるように、このクラスタリングパイプラインは高品質な結果を生成する。
論文 参考訳(メタデータ) (2022-02-01T22:54:18Z) - HuSpaCy: an industrial-strength Hungarian natural language processing
toolkit [0.0]
言語処理パイプラインは、最先端の補題化、形態素合成分析、エンティティ認識、単語埋め込みによって構成されるべきである。
本稿では,ハンガリー語処理パイプラインのHuSpaCyを紹介する。
論文 参考訳(メタデータ) (2022-01-06T07:49:45Z) - Multi-Task Learning in Natural Language Processing: An Overview [10.410505713770021]
マルチタスク学習(MTL)は、関連するタスクの有用な情報を利用して、複数のタスクにおける同時パフォーマンス改善を実現する。
NLPタスクで使用されるMTLアーキテクチャをまずレビューし、それらを並列アーキテクチャ、階層アーキテクチャ、モジュールアーキテクチャ、生成逆アーキテクチャを含む4つのクラスに分類する。
マルチタスクモデルを適切に訓練するために,損失構成,データサンプリング,タスクスケジューリングの最適化手法を提案する。
論文 参考訳(メタデータ) (2021-09-19T14:51:51Z) - ELIT: Emory Language and Information Toolkit [15.340540198612826]
ELITは、コアタスクのためのトランスフォーマーベースのエンドツーエンドモデルを提供する包括的なフレームワークである。
ELITは効率のよいマルチタスク学習(MTL)モデルを備えており、レムマティゼーション、部分音声タグ付け、名前付きエンティティ認識、依存性解析、候補解析、セマンティックロールラベリング、AMR解析など、多くの下流タスクがある。
論文 参考訳(メタデータ) (2021-09-08T19:50:07Z) - Leveraging Language to Learn Program Abstractions and Search Heuristics [66.28391181268645]
LAPS(Language for Abstraction and Program Search)は、自然言語アノテーションを用いて、ライブラリとニューラルネットワークによる合成のための検索モデルの共同学習をガイドする手法である。
最先端のライブラリ学習システム(DreamCoder)に統合されると、LAPSは高品質なライブラリを生成し、検索効率と一般化を改善する。
論文 参考訳(メタデータ) (2021-06-18T15:08:47Z) - FedNLP: A Research Platform for Federated Learning in Natural Language
Processing [55.01246123092445]
NLPのフェデレーションラーニングのための研究プラットフォームであるFedNLPを紹介します。
FedNLPは、テキスト分類、シーケンスタグ付け、質問応答、Seq2seq生成、言語モデリングなど、NLPで一般的なタスクの定式化をサポートしている。
FedNLPによる予備実験では、分散型データセットと集中型データセットの学習には大きなパフォーマンスギャップが存在することが明らかになった。
論文 参考訳(メタデータ) (2021-04-18T11:04:49Z) - Structured Prediction as Translation between Augmented Natural Languages [109.50236248762877]
本研究では,構造化予測言語の課題を解決するために,新しいフレームワークであるTANL(Translation between Augmented Natural Languages)を提案する。
タスク固有の差別を訓練することで問題に取り組む代わりに、拡張自然言語間の翻訳タスクとして位置づける。
提案手法は, タスク固有のモデルに適合するか, 性能に優れ, 特に, 共同エンティティと関係抽出に関する新たな最先端結果が得られる。
論文 参考訳(メタデータ) (2021-01-14T18:32:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。