論文の概要: fastHan: A BERT-based Multi-Task Toolkit for Chinese NLP
- arxiv url: http://arxiv.org/abs/2009.08633v2
- Date: Mon, 31 May 2021 03:54:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-17 02:49:05.090019
- Title: fastHan: A BERT-based Multi-Task Toolkit for Chinese NLP
- Title(参考訳): fastHan: 中国NLP用のBERTベースのマルチタスクツールキット
- Authors: Zhichao Geng, Hang Yan, Xipeng Qiu, Xuanjing Huang
- Abstract要約: fastHanは、中国語の自然言語処理における4つの基本的なタスクのためのオープンソースツールキットである。
fastHanのバックボーンは、pruned BERTをベースとしたマルチタスクモデルである。
ジョイントモデルは4つのタスクからなる13のコーパスで訓練され評価され、SOTA(State-of-the-art)性能に近づいた。
- 参考スコア(独自算出の注目度): 92.62540332053013
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present fastHan, an open-source toolkit for four basic tasks in Chinese
natural language processing: Chinese word segmentation (CWS), Part-of-Speech
(POS) tagging, named entity recognition (NER), and dependency parsing. The
backbone of fastHan is a multi-task model based on a pruned BERT, which uses
the first 8 layers in BERT. We also provide a 4-layer base model compressed
from the 8-layer model. The joint-model is trained and evaluated on 13 corpora
of four tasks, yielding near state-of-the-art (SOTA) performance in dependency
parsing and NER, achieving SOTA performance in CWS and POS. Besides, fastHan's
transferability is also strong, performing much better than popular
segmentation tools on a non-training corpus. To better meet the need of
practical application, we allow users to use their own labeled data to further
fine-tune fastHan. In addition to its small size and excellent performance,
fastHan is user-friendly. Implemented as a python package, fastHan isolates
users from the internal technical details and is convenient to use. The project
is released on Github.
- Abstract(参考訳): 我々は、中国語の自然言語処理における4つの基本的なタスクのためのオープンソースツールキットであるfastHanについて紹介する: 中国語の単語分割(CWS)、POSタグ付け、名前付きエンティティ認識(NER)、依存性解析。
fastHanのバックボーンは、BERTの最初の8つのレイヤを使用するpruned BERTをベースとしたマルチタスクモデルである。
また,8層モデルから圧縮した4層ベースモデルも提供する。
4つのタスクからなる13のコーパスを用いて,依存性解析およびNERにおけるSOTA性能を向上し,CWSおよびPOSにおけるSOTA性能を達成した。
さらに、fasthanの転送性も強く、非トレーニングコーパスで一般的なセグメンテーションツールよりもはるかに優れている。
実用的なアプリケーションのニーズをよりよく満たすため、ユーザは独自のラベル付きデータを使用して、さらに微調整されたfasthanを使用できる。
小型で優れたパフォーマンスに加えて、fastHanはユーザフレンドリーである。
pythonパッケージとして実装されたfastHanは、内部の技術詳細からユーザを隔離し、使いやすくする。
プロジェクトはgithubで公開されている。
関連論文リスト
- knn-seq: Efficient, Extensible kNN-MT Framework [11.421689052786467]
k-nearest-neighbor machine translation (kNN-MT)は、デコード中の翻訳例を利用して、事前訓練された機械翻訳(NMT)モデルの翻訳品質を高める。
そのサイズのため、データストアからサンプルの構築と検索の両方に計算コストがかかる。
数十億規模の大規模データストアでも効率的に動作するように設計された研究者や開発者にとって,効率的なkNN-MTフレームワークであるknn-seqを提案する。
論文 参考訳(メタデータ) (2023-10-18T21:56:04Z) - Chinese Open Instruction Generalist: A Preliminary Release [33.81265396916227]
本研究では,4つのサブタスクの固有特性に適応した各種手法による中国語指導データセットの作成を目的としたプロジェクトを提案する。
我々は、品質を保証するために手作業でチェックされた約200万の中国語のインストラクションチューニングサンプルを収集した。
既存の英語と中国語の命令コーパスを要約し、新たに構築された中国語の命令コーパスの潜在的な応用を簡潔に述べる。
論文 参考訳(メタデータ) (2023-04-17T04:45:06Z) - HuSpaCy: an industrial-strength Hungarian natural language processing
toolkit [0.0]
言語処理パイプラインは、最先端の補題化、形態素合成分析、エンティティ認識、単語埋め込みによって構成されるべきである。
本稿では,ハンガリー語処理パイプラインのHuSpaCyを紹介する。
論文 参考訳(メタデータ) (2022-01-06T07:49:45Z) - Switch Point biased Self-Training: Re-purposing Pretrained Models for
Code-Switching [44.034300203700234]
コードスイッチングは、多言語コミュニティにおけるコミュニケーションの容易さから、ユビキタスな現象である。
スイッチポイントバイアスを用いて既存の事前学習モデルを再利用するための自己学習手法を提案する。
本手法は,スイッチポイント性能のギャップを小さくすることで,両タスクにおいて良好に機能する。
論文 参考訳(メタデータ) (2021-11-01T19:42:08Z) - Paraphrastic Representations at Scale [134.41025103489224]
私たちは、英語、アラビア語、ドイツ語、フランス語、スペイン語、ロシア語、トルコ語、中国語の訓練されたモデルをリリースします。
我々はこれらのモデルを大量のデータでトレーニングし、元の論文から大幅に性能を向上した。
論文 参考訳(メタデータ) (2021-04-30T16:55:28Z) - N-LTP: An Open-source Neural Language Technology Platform for Chinese [68.58732970171747]
textttN-は、中国の6つの基本的なNLPタスクをサポートする、オープンソースのニューラルネットワークテクノロジプラットフォームである。
textttN-は、中国のタスク間で共有知識をキャプチャする利点がある共有事前学習モデルを使用することで、マルチタスクフレームワークを採用する。
論文 参考訳(メタデータ) (2020-09-24T11:45:39Z) - Real-Time Execution of Large-scale Language Models on Mobile [49.32610509282623]
BERTの最良のモデル構造は,特定のデバイスに適合する計算サイズである。
我々のフレームワークは、モバイルデバイスのリソース仕様とリアルタイム仕様の両方を満たすための特定モデルを保証することができる。
具体的には、当社のモデルはCPUでは5.2倍、GPUでは4.1倍、BERTベースでは0.5-2%の精度損失がある。
論文 参考訳(メタデータ) (2020-09-15T01:59:17Z) - Building Low-Resource NER Models Using Non-Speaker Annotation [58.78968578460793]
言語横断的な手法はこれらの懸念に対処する上で顕著な成功を収めた。
本稿では,Non-Speaker''(NS)アノテーションを用いた低リソース名前付きエンティティ認識(NER)モデル構築のための補完的アプローチを提案する。
NSアノテータの使用は、現代の文脈表現上に構築された言語間メソッドよりも、一貫した結果が得られることを示す。
論文 参考訳(メタデータ) (2020-06-17T03:24:38Z) - Soft Gazetteers for Low-Resource Named Entity Recognition [78.00856159473393]
本稿では、英語知識ベースからユビキタスに利用可能な情報をニューラル名付きエンティティ認識モデルに組み込む「ソフトガゼッタ」を提案する。
4つの低リソース言語に対する実験により,F1得点の4点の平均的改善が示された。
論文 参考訳(メタデータ) (2020-05-04T21:58:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。