論文の概要: Machine Learning Approaches for Amharic Parts-of-speech Tagging
- arxiv url: http://arxiv.org/abs/2001.03324v1
- Date: Fri, 10 Jan 2020 06:40:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-12 22:44:59.642532
- Title: Machine Learning Approaches for Amharic Parts-of-speech Tagging
- Title(参考訳): 音声の非同期部分タギングのための機械学習アプローチ
- Authors: Ibrahim Gashaw and H L. Shashirekha
- Abstract要約: アムハラ語における現在のPOSタグのパフォーマンスは、英語や他のヨーロッパの言語で利用可能な現代のPOSタグほど良くない。
この作業の目的は、91%を超えなかったAmharic言語のPOSタグ性能を改善することである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Part-of-speech (POS) tagging is considered as one of the basic but necessary
tools which are required for many Natural Language Processing (NLP)
applications such as word sense disambiguation, information retrieval,
information processing, parsing, question answering, and machine translation.
Performance of the current POS taggers in Amharic is not as good as that of the
contemporary POS taggers available for English and other European languages.
The aim of this work is to improve POS tagging performance for the Amharic
language, which was never above 91%. Usage of morphological knowledge, an
extension of the existing annotated data, feature extraction, parameter tuning
by applying grid search and the tagging algorithms have been examined and
obtained significant performance difference from the previous works. We have
used three different datasets for POS experiments.
- Abstract(参考訳): 意味の曖昧さ、情報検索、情報処理、パース、質問応答、機械翻訳など、多くの自然言語処理(nlp)アプリケーションに必要な基本だが必要なツールの一つとして、pos(part-of-speech)タグがある。
アムハラ語における現在のPOSタグのパフォーマンスは、英語や他のヨーロッパの言語で利用可能な現代のPOSタグほど良くない。
この作業の目的は、91%を超えなかったAmharic言語のPOSタグ性能を改善することである。
形態的知識の利用,既存の注釈付きデータの拡張,特徴抽出,グリッド探索によるパラメータチューニング,タグ付けアルゴリズムなどについて検討し,先行研究と有意な性能差が得られた。
POS実験には3つの異なるデータセットを使用しました。
関連論文リスト
- LexMatcher: Dictionary-centric Data Collection for LLM-based Machine Translation [67.24113079928668]
本稿では、バイリンガル辞書に見られる感覚のカバレッジによって駆動されるデータキュレーション手法であるLexMatcherを提案する。
我々の手法は、WMT2022テストセットの確立されたベースラインよりも優れています。
論文 参考訳(メタデータ) (2024-06-03T15:30:36Z) - Cross-lingual Contextualized Phrase Retrieval [63.80154430930898]
そこで本研究では,言語間関係の単語検索を多義的に行うタスクの定式化を提案する。
我々は、コントラスト学習を用いて、言語間コンテクスト対応句検索(CCPR)を訓練する。
フレーズ検索タスクでは、CCPRはベースラインをかなり上回り、少なくとも13ポイント高いトップ1の精度を達成する。
論文 参考訳(メタデータ) (2024-03-25T14:46:51Z) - DIALECTBENCH: A NLP Benchmark for Dialects, Varieties, and Closely-Related Languages [49.38663048447942]
DIALECTBENCHは,NLPの品種に対する大規模ベンチマークとして初めて提案される。
これにより、異なる言語でNLPシステムの性能を総合的に評価することができる。
標準言語と非標準言語間の性能格差の相当な証拠を提供する。
論文 参考訳(メタデータ) (2024-03-16T20:18:36Z) - Prefer to Classify: Improving Text Classifiers via Auxiliary Preference
Learning [76.43827771613127]
本稿では、このような補助データアノテーションの新しい代替手段として、入力テキストのペア間のタスク固有の嗜好について検討する。
本稿では、与えられた分類課題と補助的選好の両方を学ぶことの協調効果を享受できる、P2Cと呼ばれる新しいマルチタスク学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-08T04:04:47Z) - MasakhaPOS: Part-of-Speech Tagging for Typologically Diverse African
Languages [7.86385861664505]
原型的に多様性のある20のアフリカ諸言語を対象としたPOSデータセットとして最大であるMashokhaPOSを提案する。
本稿では,これらの言語に対して,UD(UniversalDependency)ガイドラインを用いてPOSを注釈付けする際の課題について論じる。
論文 参考訳(メタデータ) (2023-05-23T12:15:33Z) - Incorporating External POS Tagger for Punctuation Restoration [11.573672075002007]
触覚回復は自動音声認識において重要な後処理ステップである。
Part-of-speech(POS)タグは情報タグを提供し、各入力トークンの構文的役割を示唆する。
外部POSタグを組み込んで予測ラベルを既存の言語モデルに融合し,構文情報を提供する。
論文 参考訳(メタデータ) (2021-06-12T09:58:06Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z) - Reliable Part-of-Speech Tagging of Historical Corpora through Set-Valued Prediction [21.67895423776014]
設定値予測の枠組みにおけるPOSタグ付けについて検討する。
最先端のPOSタグをセット値の予測に拡張すると、より正確で堅牢なタグ付けが得られます。
論文 参考訳(メタデータ) (2020-08-04T07:21:36Z) - Adversarial Transfer Learning for Punctuation Restoration [58.2201356693101]
句読点予測のためのタスク不変知識を学習するために,逆多タスク学習を導入する。
IWSLT2011データセットを用いて実験を行った。
論文 参考訳(メタデータ) (2020-04-01T06:19:56Z) - Is POS Tagging Necessary or Even Helpful for Neural Dependency Parsing? [22.93722845643562]
Stackのジョイントフレームワークを使用する場合,POSタグ付けによって解析性能が大幅に向上することを示す。
解析木よりもPOSタグをアノテートする方がずっと安いことを考えると,大規模な異種POSタグデータの利用も検討する。
論文 参考訳(メタデータ) (2020-03-06T13:47:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。