論文の概要: N-LTP: An Open-source Neural Language Technology Platform for Chinese
- arxiv url: http://arxiv.org/abs/2009.11616v4
- Date: Thu, 23 Sep 2021 11:09:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-15 04:49:05.588805
- Title: N-LTP: An Open-source Neural Language Technology Platform for Chinese
- Title(参考訳): N-LTP: 中国語のためのオープンソースのニューラルネットワーク技術プラットフォーム
- Authors: Wanxiang Che, Yunlong Feng, Libo Qin, Ting Liu
- Abstract要約: textttN-は、中国の6つの基本的なNLPタスクをサポートする、オープンソースのニューラルネットワークテクノロジプラットフォームである。
textttN-は、中国のタスク間で共有知識をキャプチャする利点がある共有事前学習モデルを使用することで、マルチタスクフレームワークを採用する。
- 参考スコア(独自算出の注目度): 68.58732970171747
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce \texttt{N-LTP}, an open-source neural language technology
platform supporting six fundamental Chinese NLP tasks: {lexical analysis}
(Chinese word segmentation, part-of-speech tagging, and named entity
recognition), {syntactic parsing} (dependency parsing), and {semantic parsing}
(semantic dependency parsing and semantic role labeling). Unlike the existing
state-of-the-art toolkits, such as \texttt{Stanza}, that adopt an independent
model for each task, \texttt{N-LTP} adopts the multi-task framework by using a
shared pre-trained model, which has the advantage of capturing the shared
knowledge across relevant Chinese tasks. In addition, a knowledge distillation
method \cite{DBLP:journals/corr/abs-1907-04829} where the single-task model
teaches the multi-task model is further introduced to encourage the multi-task
model to surpass its single-task teacher. Finally, we provide a collection of
easy-to-use APIs and a visualization tool to make users to use and view the
processing results more easily and directly. To the best of our knowledge, this
is the first toolkit to support six Chinese NLP fundamental tasks. Source code,
documentation, and pre-trained models are available at
\url{https://github.com/HIT-SCIR/ltp}.
- Abstract(参考訳): 我々は,中国語の6つの基本的なNLPタスクをサポートする,オープンソースのニューラルネットワークプラットフォームである‘texttt{N-LTP}’(中国語の単語セグメント化,音声タグ付け,名前付きエンティティ認識), {syntactic parsing}(依存性解析), {semantic parsing}(意味的依存関係解析と意味的役割ラベル付け)を紹介した。
タスク毎に独立したモデルを採用する \textt{stanza}のような既存の最先端ツールキットとは異なり、 \texttt{n-ltp} は、関連する中国のタスク間で共有知識を取得する利点を持つ共有事前学習モデルを使用することで、マルチタスクフレームワークを採用する。
さらに,マルチタスクモデルを指導する知識蒸留法である「cite{DBLP:journals/corr/abs-1907-04829}」を導入し,マルチタスクモデルがマルチタスクモデルを上回ることを奨励する。
最後に、使い易いAPIのコレクションと視覚化ツールを提供し、ユーザーが処理結果をより簡単に、そして直接閲覧できるようにします。
我々の知る限りでは、6つの中国NLPの基本タスクをサポートする最初のツールキットである。
ソースコード、ドキュメンテーション、および事前訓練されたモデルは、 \url{https://github.com/HIT-SCIR/ltp}で入手できる。
関連論文リスト
- A Novel Cartography-Based Curriculum Learning Method Applied on RoNLI: The First Romanian Natural Language Inference Corpus [71.77214818319054]
自然言語推論は自然言語理解のプロキシである。
ルーマニア語のNLIコーパスは公開されていない。
58Kの訓練文対からなるルーマニア初のNLIコーパス(RoNLI)を紹介する。
論文 参考訳(メタデータ) (2024-05-20T08:41:15Z) - CMULAB: An Open-Source Framework for Training and Deployment of Natural Language Processing Models [59.91221728187576]
本稿では,NLPモデルのモデル展開と連続的なヒューマン・イン・ザ・ループの微調整を簡単にするオープンソースフレームワークであるCMU言語バックエンドを紹介する。
CMULABは、マルチ言語モデルのパワーを活用して、音声認識、OCR、翻訳、構文解析などの既存のツールを新しい言語に迅速に適応し、拡張することができる。
論文 参考訳(メタデータ) (2024-04-03T02:21:46Z) - Multi-Task Learning for Front-End Text Processing in TTS [15.62497569424995]
テキストから音声のフロントエンドで一般的に解決される3つのタスクを共同で実行するためのマルチタスク学習(MTL)モデルを提案する。
我々のフレームワークは、共有表現を学習するトランクを持つ木のような構造を利用し、その後にタスク固有ヘッドを分離する。
論文 参考訳(メタデータ) (2024-01-12T02:13:21Z) - A deep Natural Language Inference predictor without language-specific
training data [44.26507854087991]
本研究では,言語固有の訓練データセットを使わずに,目的言語における文のペア間の推論関係(NLI)に対処するためのNLP手法を提案する。
我々は、同じトレーニング済みモデルの2つのインスタンスとともに、手動で翻訳される汎用翻訳データセットを利用する。
このモデルは、機械翻訳Stanford NLIテストデータセット、機械翻訳Multi-Genre NLIテストデータセット、手動翻訳RTE3-ITAテストデータセットで評価されている。
論文 参考訳(メタデータ) (2023-09-06T10:20:59Z) - FonMTL: Towards Multitask Learning for the Fon Language [1.9370453715137865]
本稿では,Fon言語のための自然言語処理におけるモデル機能向上のための,マルチタスク学習のための最初の爆発的アプローチを提案する。
我々は2つの言語モデルヘッドをエンコーダとして利用して入力の共有表現を構築し,各タスクに対して線形層ブロックを用いて分類する。
Fon の NER および POS タスクの結果は,複数言語で事前訓練された言語モデルに対して,単一タスクで微調整された言語モデルと比較して,競争力(あるいはより優れた)性能を示す。
論文 参考訳(メタデータ) (2023-08-28T03:26:21Z) - Cross-Lingual NER for Financial Transaction Data in Low-Resource
Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。
我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。
わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文 参考訳(メタデータ) (2023-07-16T00:45:42Z) - XTREME-UP: A User-Centric Scarce-Data Benchmark for Under-Represented
Languages [105.54207724678767]
データ不足は、多言語NLPシステムの開発において重要な問題である。
我々はXTREME-UPを提案する。XTREME-UPはゼロショットではなく、希少なデータシナリオに焦点を当てたベンチマークである。
XTREME-UPは、88言語にまたがる言語モデルが、9つのキーとなるユーザー中心技術上で機能する能力を評価する。
論文 参考訳(メタデータ) (2023-05-19T18:00:03Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z) - Zero-Shot Cross-Lingual Transfer with Meta Learning [45.29398184889296]
英語以外の言語ではほとんど、あるいは全くデータがない場合に、複数の言語でのトレーニングモデルの設定を同時に検討する。
メタラーニングを用いて、この挑戦的な設定にアプローチできることが示される。
我々は、標準教師付きゼロショットのクロスランガルと、異なる自然言語理解タスクのための数ショットのクロスランガル設定を用いて実験を行った。
論文 参考訳(メタデータ) (2020-03-05T16:07:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。