論文の概要: PhoNLP: A joint multi-task learning model for Vietnamese part-of-speech
tagging, named entity recognition and dependency parsing
- arxiv url: http://arxiv.org/abs/2101.01476v2
- Date: Thu, 8 Apr 2021 17:31:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-11 11:38:19.041249
- Title: PhoNLP: A joint multi-task learning model for Vietnamese part-of-speech
tagging, named entity recognition and dependency parsing
- Title(参考訳): PhoNLP: ベトナム語音声タギングのための多タスク共同学習モデル : エンティティ認識と依存性解析
- Authors: Linh The Nguyen, Dat Quoc Nguyen
- Abstract要約: PhoNLPと名づけられた最初のマルチタスク学習モデルを提案し,ベトナムの音声合成(POS)タグ付け,エンティティ認識(NER)と依存性解析を行った。
ベトナムのベンチマークデータセットの実験は、PhoNLPが最先端の結果を生成することを示している。
- 参考スコア(独自算出の注目度): 8.558842542068778
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present the first multi-task learning model -- named PhoNLP -- for joint
Vietnamese part-of-speech (POS) tagging, named entity recognition (NER) and
dependency parsing. Experiments on Vietnamese benchmark datasets show that
PhoNLP produces state-of-the-art results, outperforming a single-task learning
approach that fine-tunes the pre-trained Vietnamese language model PhoBERT
(Nguyen and Nguyen, 2020) for each task independently. We publicly release
PhoNLP as an open-source toolkit under the Apache License 2.0. Although we
specify PhoNLP for Vietnamese, our PhoNLP training and evaluation command
scripts in fact can directly work for other languages that have a pre-trained
BERT-based language model and gold annotated corpora available for the three
tasks of POS tagging, NER and dependency parsing. We hope that PhoNLP can serve
as a strong baseline and useful toolkit for future NLP research and
applications to not only Vietnamese but also the other languages. Our PhoNLP is
available at: https://github.com/VinAIResearch/PhoNLP
- Abstract(参考訳): PhoNLPと名づけられた最初のマルチタスク学習モデルを提案し,ベトナムの音声合成(POS)タグ付け,エンティティ認識(NER)と依存性解析を行った。
ベトナムのベンチマークデータセットの実験では、PhoNLPが最先端の結果を生成し、訓練済みのベトナム語モデルであるPhoBERT(Nguyen and Nguyen, 2020)を個別に微調整する単一タスク学習アプローチよりも優れていた。
PhoNLPはApache License 2.0の下でオープンソースツールキットとして公開しています。
我々はベトナム語でPhoNLPを指定するが、我々のPhoNLPトレーニングおよび評価コマンドスクリプトは、実際に、トレーニング済みのBERT言語モデルとPOSタグ付け、NER、依存性解析の3つのタスクで利用できるゴールドアノテートコーパスを持つ他の言語で直接動作する。
我々はPhoNLPがベトナム語だけでなく他の言語にも、将来のNLP研究や応用のための強力なベースラインとして役立つことを願っている。
私たちのPhoNLPは、https://github.com/VinAIResearch/PhoNLPで利用可能です。
関連論文リスト
- A Novel Cartography-Based Curriculum Learning Method Applied on RoNLI: The First Romanian Natural Language Inference Corpus [71.77214818319054]
自然言語推論は自然言語理解のプロキシである。
ルーマニア語のNLIコーパスは公開されていない。
58Kの訓練文対からなるルーマニア初のNLIコーパス(RoNLI)を紹介する。
論文 参考訳(メタデータ) (2024-05-20T08:41:15Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - ViSoBERT: A Pre-Trained Language Model for Vietnamese Social Media Text
Processing [1.1765925931670576]
ベトナムのソーシャルメディアテキストであるViSoBERTに対して,最初のモノリンガル事前学習言語モデルを提案する。
我々の実験では、ViSoBERTはパラメータがはるかに少ないため、ベトナムのソーシャルメディアタスクにおける過去の最先端モデルを上回ることが示されている。
論文 参考訳(メタデータ) (2023-10-17T11:34:50Z) - Binding Language Models in Symbolic Languages [146.3027328556881]
Binderはトレーニング不要のニューラルシンボリックフレームワークで、タスク入力をプログラムにマッピングする。
解析の段階では、Codexは元のプログラミング言語では答えられないタスク入力の一部を特定することができる。
実行段階では、CodexはAPI呼び出しで適切なプロンプトを与えられた万能機能を実行することができる。
論文 参考訳(メタデータ) (2022-10-06T12:55:17Z) - COVID-19 Named Entity Recognition for Vietnamese [6.17059264011429]
ベトナムで最初の手作業によるcovid-19ドメイン固有データセットについて紹介する。
私たちのデータセットは、新たに定義されたエンティティタイプを持つ名前付きエンティティ認識タスクにアノテートされます。
当社のデータセットには、既存のベトナムのNERデータセットと比較して最大数のエンティティが含まれています。
論文 参考訳(メタデータ) (2021-04-08T16:35:34Z) - CPM: A Large-scale Generative Chinese Pre-trained Language Model [76.65305358932393]
我々は,大規模な中国語学習データに基づく生成事前学習を備えた中国語事前学習言語モデル(CPM)をリリースする。
CPMは、数ショット(ゼロショットでも)学習の設定において、多くのNLPタスクで強力なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-12-01T11:32:56Z) - A Pilot Study of Text-to-SQL Semantic Parsing for Vietnamese [11.782566169354725]
ベトナムにおける大規模なテキスト・ソース・セマンティック・パーシング・データセットについて紹介する。
ベトナム語の単語の自動区分けにより,両方のベースラインの構文解析結果が改善されることが判明した。
PhoBERT for Vietnamは、最近の最高の多言語言語モデルXLM-Rよりも高いパフォーマンスを実現している。
論文 参考訳(メタデータ) (2020-10-05T09:54:51Z) - N-LTP: An Open-source Neural Language Technology Platform for Chinese [68.58732970171747]
textttN-は、中国の6つの基本的なNLPタスクをサポートする、オープンソースのニューラルネットワークテクノロジプラットフォームである。
textttN-は、中国のタスク間で共有知識をキャプチャする利点がある共有事前学習モデルを使用することで、マルチタスクフレームワークを採用する。
論文 参考訳(メタデータ) (2020-09-24T11:45:39Z) - FewJoint: A Few-shot Learning Benchmark for Joint Language Understanding [55.38905499274026]
機械学習は、機械学習における重要なステップの1つだ。
FewJointは、NLP用のFew-Shot Learningベンチマークである。
論文 参考訳(メタデータ) (2020-09-17T08:17:12Z) - PhoBERT: Pre-trained language models for Vietnamese [11.685916685552982]
PhoBERTはベトナムで事前訓練された最初の大規模モノリンガル言語モデルである。
実験結果から, PhoBERT は最新の学習済み多言語モデル XLM-R よりも一貫して優れていた。
我々はPhoBERTをリリースし、ベトナムのNLPの今後の研究と下流の応用を促進する。
論文 参考訳(メタデータ) (2020-03-02T10:21:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。