論文の概要: An Experimental Investigation of Part-Of-Speech Taggers for Vietnamese
- arxiv url: http://arxiv.org/abs/2206.06992v1
- Date: Tue, 14 Jun 2022 17:07:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-15 14:53:36.452507
- Title: An Experimental Investigation of Part-Of-Speech Taggers for Vietnamese
- Title(参考訳): ベトナムにおけるパートオフ音声タガーの実験的検討
- Authors: Tuan-Phong Nguyen, Quoc-Tuan Truong, Xuan-Nam Nguyen, Anh-Cuong Le
- Abstract要約: 自然言語処理(NLP)におけるPOSタグ付けの役割
我々は、広く使われている2つのツールキットであるClearNLPとStanford POS Taggerの技術を活用し、ベトナム向けの2つの新しいPOSタグを開発した。
- 参考スコア(独自算出の注目度): 4.243926243206826
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Part-of-speech (POS) tagging plays an important role in Natural Language
Processing (NLP). Its applications can be found in many NLP tasks such as named
entity recognition, syntactic parsing, dependency parsing and text chunking. In
the investigation conducted in this paper, we utilize the technologies of two
widely-used toolkits, ClearNLP and Stanford POS Tagger, as well as develop two
new POS taggers for Vietnamese, then compare them to three well-known
Vietnamese taggers, namely JVnTagger, vnTagger and RDRPOSTagger. We make a
systematic comparison to find out the tagger having the best performance. We
also design a new feature set to measure the performance of the statistical
taggers. Our new taggers built from Stanford Tagger and ClearNLP with the new
feature set can outperform all other current Vietnamese taggers in term of
tagging accuracy. Moreover, we also analyze the affection of some features to
the performance of statistical taggers. Lastly, the experimental results also
reveal that the transformation-based tagger, RDRPOSTagger, can run
significantly faster than any other statistical tagger.
- Abstract(参考訳): POSタグ付けは自然言語処理(NLP)において重要な役割を担っている。
そのアプリケーションは、名前付きエンティティ認識、構文解析、依存性解析、テキストチャンキングなど、多くのNLPタスクで見ることができる。
本稿では,広く使われている2つのツールキットであるClearNLPとStanford POS Taggerの技術を活用し,ベトナム向けの新しいPOSタグを開発し,JVnTagger,vnTagger,RDRPOSTaggerの3つのベトナムのタグと比較する。
システム的な比較を行い,最も優れた性能を持つタグを見つけ出す。
また,統計タグの性能を測定するための新機能セットも設計した。
われわれの新しいタガーはstanford taggerとclearnlpから作られており、新しい機能セットにより、タグ付け精度の面で他のベトナムのタガーを上回ることができる。
さらに,統計タグの性能に対する特徴の影響についても分析した。
最後に、実験結果から、変換ベースのタグであるRDRPOSTaggerが、他の統計タグよりもはるかに高速に動作できることが明らかになった。
関連論文リスト
- Rethinking and Improving Multi-task Learning for End-to-end Speech
Translation [51.713683037303035]
異なる時間とモジュールを考慮したタスク間の整合性について検討する。
テキストエンコーダは、主にクロスモーダル変換を容易にするが、音声におけるノイズの存在は、テキストと音声表現の一貫性を妨げる。
長さと表現の差を軽減し,モーダルギャップを橋渡しする,STタスクのための改良型マルチタスク学習(IMTL)手法を提案する。
論文 参考訳(メタデータ) (2023-11-07T08:48:46Z) - READIN: A Chinese Multi-Task Benchmark with Realistic and Diverse Input
Noises [87.70001456418504]
我々は、Realistic and Diverse Input Noisesを用いた中国のマルチタスクベンチマークREADINを構築した。
READINには4つの多様なタスクとアノテータが含まれており、Pinyin入力と音声入力という2つの一般的な中国語入力方式で元のテストデータを再入力するよう要求する。
我々は、強化された事前訓練された言語モデルと、堅牢なトレーニング手法を用いて実験を行い、これらのモデルがREADINに顕著な性能低下を被ることがしばしば見いだされた。
論文 参考訳(メタデータ) (2023-02-14T20:14:39Z) - Cross-Register Projection for Headline Part of Speech Tagging [3.5455943749695034]
ロングフォームおよびヘッドラインテキストの両方でマルチドメインPOSタグをトレーニングする。
このモデルではトークン当たりの相対誤差が23%減少し,見出しあたりの19%が得られた。
我々はPOSタグ付きヘッドラインコーパスであるPOSHを作成し、ニュースの見出しのために改良されたNLPモデルの研究を奨励する。
論文 参考訳(メタデータ) (2021-09-15T18:00:02Z) - More Than Words: Collocation Tokenization for Latent Dirichlet
Allocation Models [71.42030830910227]
モデルが異なる環境でクラスタリングの品質を測定するための新しい指標を提案する。
マージトークンでトレーニングされたトピックは、マージされていないモデルよりも、より明確で、一貫性があり、トピックを区別する効果が高いトピックキーをもたらすことを示す。
論文 参考訳(メタデータ) (2021-08-24T14:08:19Z) - What Taggers Fail to Learn, Parsers Need the Most [0.38073142980733]
本報告では,ゴールド標準タグの使用が解析性能に大きく寄与する理由を評価するために,ニューラルUPOSタグの誤り解析を行う。
我々は、単語の種類について暗黙的に学習する神経依存度と、タグが予測されたタグを用いて最小の影響を説明するためのエラーとの関連性を評価する。
論文 参考訳(メタデータ) (2021-04-02T15:04:56Z) - FewJoint: A Few-shot Learning Benchmark for Joint Language Understanding [55.38905499274026]
機械学習は、機械学習における重要なステップの1つだ。
FewJointは、NLP用のFew-Shot Learningベンチマークである。
論文 参考訳(メタデータ) (2020-09-17T08:17:12Z) - Reliable Part-of-Speech Tagging of Historical Corpora through Set-Valued Prediction [21.67895423776014]
設定値予測の枠組みにおけるPOSタグ付けについて検討する。
最先端のPOSタグをセット値の予測に拡張すると、より正確で堅牢なタグ付けが得られます。
論文 参考訳(メタデータ) (2020-08-04T07:21:36Z) - Language Models are Few-Shot Learners [61.36677350504291]
言語モデルのスケールアップにより、タスクに依存しない、少数ショットのパフォーマンスが大幅に向上することを示す。
我々は、1750億のパラメータを持つ自動回帰言語モデルであるGPT-3を訓練し、その性能を数ショットでテストする。
GPT-3は、翻訳、質問応答、クローズタスクを含む多くのNLPデータセットで高いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-05-28T17:29:03Z) - Adversarial Transfer Learning for Punctuation Restoration [58.2201356693101]
句読点予測のためのタスク不変知識を学習するために,逆多タスク学習を導入する。
IWSLT2011データセットを用いて実験を行った。
論文 参考訳(メタデータ) (2020-04-01T06:19:56Z) - Is POS Tagging Necessary or Even Helpful for Neural Dependency Parsing? [22.93722845643562]
Stackのジョイントフレームワークを使用する場合,POSタグ付けによって解析性能が大幅に向上することを示す。
解析木よりもPOSタグをアノテートする方がずっと安いことを考えると,大規模な異種POSタグデータの利用も検討する。
論文 参考訳(メタデータ) (2020-03-06T13:47:30Z) - Machine Learning Approaches for Amharic Parts-of-speech Tagging [0.0]
アムハラ語における現在のPOSタグのパフォーマンスは、英語や他のヨーロッパの言語で利用可能な現代のPOSタグほど良くない。
この作業の目的は、91%を超えなかったAmharic言語のPOSタグ性能を改善することである。
論文 参考訳(メタデータ) (2020-01-10T06:40:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。