論文の概要: Trankit: A Light-Weight Transformer-based Toolkit for Multilingual
Natural Language Processing
- arxiv url: http://arxiv.org/abs/2101.03289v4
- Date: Thu, 11 Mar 2021 04:27:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-09 12:15:53.497110
- Title: Trankit: A Light-Weight Transformer-based Toolkit for Multilingual
Natural Language Processing
- Title(参考訳): Trankit:多言語自然言語処理のための軽量トランスフォーマーベースのツールキット
- Authors: Minh Van Nguyen, Viet Lai, Amir Pouran Ben Veyseh, and Thien Huu
Nguyen
- Abstract要約: Trankitは多言語自然言語処理のための軽量トランスフォーマーベースのツールキット
100言語以上の基本的なNLPタスクのためのトレーニング可能なパイプラインと56言語のための90の事前トレーニングパイプラインを提供する。
Trankitは、文のセグメンテーション、音声の一部タグ付け、形態的特徴タグ付け、依存性解析よりも、以前の多言語NLPパイプラインを大幅に上回る。
- 参考スコア(独自算出の注目度): 22.38792093462942
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We introduce Trankit, a light-weight Transformer-based Toolkit for
multilingual Natural Language Processing (NLP). It provides a trainable
pipeline for fundamental NLP tasks over 100 languages, and 90 pretrained
pipelines for 56 languages. Built on a state-of-the-art pretrained language
model, Trankit significantly outperforms prior multilingual NLP pipelines over
sentence segmentation, part-of-speech tagging, morphological feature tagging,
and dependency parsing while maintaining competitive performance for
tokenization, multi-word token expansion, and lemmatization over 90 Universal
Dependencies treebanks. Despite the use of a large pretrained transformer, our
toolkit is still efficient in memory usage and speed. This is achieved by our
novel plug-and-play mechanism with Adapters where a multilingual pretrained
transformer is shared across pipelines for different languages. Our toolkit
along with pretrained models and code are publicly available at:
https://github.com/nlp-uoregon/trankit. A demo website for our toolkit is also
available at: http://nlp.uoregon.edu/trankit. Finally, we create a demo video
for Trankit at: https://youtu.be/q0KGP3zGjGc.
- Abstract(参考訳): 我々は,多言語自然言語処理(NLP)のための軽量トランスフォーマーベースのツールキットであるTrankitを紹介する。
100言語以上の基本的なNLPタスクのためのトレーニング可能なパイプラインと56言語のための90の事前トレーニングパイプラインを提供する。
最先端の事前訓練言語モデルに基づいて構築されたTrankitは、文のセグメンテーション、部分音声タグ付け、形態的特徴タグ付け、依存性解析などよりも、90以上のUniversal Dependenciesツリーバンク上で、トークン化、複数ワードのトークン拡張、レムマティゼーションの競合性能を維持しながら、先行の多言語NLPパイプラインよりも大幅に優れています。
大規模な事前学習トランスフォーマーは使用していますが、ツールキットは依然としてメモリ使用量と速度において効率的です。
これは、多言語で事前訓練されたトランスフォーマーを、異なる言語用のパイプライン間で共有する、Adaptersを使った新しいプラグアンドプレイ機構によって実現されている。
私たちのツールキットとトレーニング済みのモデルとコードは、https://github.com/nlp-uoregon/trankit.com/で公開されています。
私たちのツールキットのデモwebサイトも、http://nlp.uoregon.edu/trankitで閲覧できます。
最後に、trankitのデモビデオをhttps://youtu.be/q0kgp3zgjgcで作成します。
関連論文リスト
- Hindi to English: Transformer-Based Neural Machine Translation [0.0]
我々は,インド語ヒンディー語から英語への翻訳のためにトランスフォーマーモデルを訓練し,機械翻訳(NMT)システムを開発した。
トレーニングデータを増強し、語彙を作成するために、バックトランスレーションを実装した。
これにより、IIT Bombay English-Hindi Corpusのテストセットで、最先端のBLEUスコア24.53を達成することができました。
論文 参考訳(メタデータ) (2023-09-23T00:00:09Z) - The VolcTrans System for WMT22 Multilingual Machine Translation Task [24.300726424411007]
VolcTransは、複数のソースのデータに基づいてトレーニングされたトランスフォーマーベースの多言語モデルである。
一連のルールはバイリンガルテキストとモノリンガルテキストの両方をきれいにする。
このシステムは17.3 BLEU、21.9 spBLEU、41.9 chrF2++を平均して達成している。
論文 参考訳(メタデータ) (2022-10-20T21:18:03Z) - Language-Family Adapters for Low-Resource Multilingual Neural Machine
Translation [129.99918589405675]
自己超越で訓練された大規模多言語モデルは、幅広い自然言語処理タスクにおいて最先端の結果を達成する。
マルチリンガルな微調整は低リソース言語のパフォーマンスを向上させるが、モデル全体を変更する必要があるため、極めて高価である。
言語間移動を容易にするため,mBART-50上で言語ファミリーアダプタを訓練する。
論文 参考訳(メタデータ) (2022-09-30T05:02:42Z) - Continual Learning in Multilingual NMT via Language-Specific Embeddings [92.91823064720232]
共有語彙を小さな言語固有の語彙に置き換え、新しい言語の並列データに新しい埋め込みを微調整する。
元のモデルのパラメータは変更されていないため、初期言語の性能は劣化しない。
論文 参考訳(メタデータ) (2021-10-20T10:38:57Z) - Lightweight Adapter Tuning for Multilingual Speech Translation [47.89784337058167]
適応モジュールはNLPのファインチューニングの代替として最近導入された。
本稿では,多言語音声翻訳用アダプタの包括的解析を提案する。
論文 参考訳(メタデータ) (2021-06-02T20:51:42Z) - XLM-T: Scaling up Multilingual Machine Translation with Pretrained
Cross-lingual Transformer Encoders [89.0059978016914]
そこで本稿では,既製のクロスリンガルトランスフォーマでモデルを初期化し,多言語並列データで微調整するXLM-Tを提案する。
この単純な方法は,10対のWMTデータセットと94対のOPUS-100コーパスにおいて,大幅な改善を実現する。
論文 参考訳(メタデータ) (2020-12-31T11:16:51Z) - Pre-training Multilingual Neural Machine Translation by Leveraging
Alignment Information [72.2412707779571]
mRASPは、汎用多言語ニューラルマシン翻訳モデルを事前訓練するためのアプローチである。
我々は,低,中,豊かな資源を含む多種多様な環境における42の翻訳方向の実験を行い,エキゾチックな言語対への変換を行った。
論文 参考訳(メタデータ) (2020-10-07T03:57:54Z) - Glancing Transformer for Non-Autoregressive Neural Machine Translation [58.87258329683682]
単一パス並列生成モデルにおける単語相互依存の学習法を提案する。
単一パスの並列デコードだけで、GLATは8~15倍のスピードアップで高品質な翻訳を生成することができる。
論文 参考訳(メタデータ) (2020-08-18T13:04:03Z) - Segatron: Segment-Aware Transformer for Language Modeling and
Understanding [79.84562707201323]
本稿では,セグメンテーション対応トランスフォーマー(Segatron)を提案する。
本稿ではまず,Transformerベースの言語モデルであるTransformer-XLにセグメント認識機構を導入する。
WikiText-103データセット上で17.1パープレキシティを実現することにより,Transformer-XLベースモデルと大規模モデルをさらに改善できることがわかった。
論文 参考訳(メタデータ) (2020-04-30T17:38:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。