論文の概要: ThamizhiUDp: A Dependency Parser for Tamil
- arxiv url: http://arxiv.org/abs/2012.13436v1
- Date: Thu, 24 Dec 2020 20:20:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-25 09:20:04.115643
- Title: ThamizhiUDp: A Dependency Parser for Tamil
- Title(参考訳): ThamizhiUDp: Tamilの依存性パーザ
- Authors: Kengatharaiyer Sarveswaran and Gihan Dias
- Abstract要約: 本稿では,tamizhiudpという,タミル語テキストの係り受け解析のための完全なパイプラインを提供するニューラルベース依存言語を開発した方法について述べる。
thamizhiudp は stanza をトークン化と補題化に、thamizhipost と thamizhimorph を音声の一部と形態的アノテーションに、uuparser を依存性解析のために多言語訓練に使っている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This paper describes how we developed a neural-based dependency parser,
namely ThamizhiUDp, which provides a complete pipeline for the dependency
parsing of the Tamil language text using Universal Dependency formalism. We
have considered the phases of the dependency parsing pipeline and identified
tools and resources in each of these phases to improve the accuracy and to
tackle data scarcity. ThamizhiUDp uses Stanza for tokenisation and
lemmatisation, ThamizhiPOSt and ThamizhiMorph for generating Part of Speech
(POS) and Morphological annotations, and uuparser with multilingual training
for dependency parsing. ThamizhiPOSt is our POS tagger, which is based on the
Stanza, trained with Amrita POS-tagged corpus. It is the current
state-of-the-art in Tamil POS tagging with an F1 score of 93.27. Our
morphological analyzer, ThamizhiMorph is a rule-based system with a very good
coverage of Tamil. Our dependency parser ThamizhiUDp was trained using
multilingual data. It shows a Labelled Assigned Score (LAS) of 62.39, 4 points
higher than the current best achieved for Tamil dependency parsing. Therefore,
we show that breaking up the dependency parsing pipeline to accommodate
existing tools and resources is a viable approach for low-resource languages.
- Abstract(参考訳): 本稿では,汎用依存形式を用いたタミル語テキストの係り受け解析のための完全なパイプラインを提供する,ニューラルベースの係り受けパーサであるtamizhiudpを開発した方法について述べる。
我々は、依存関係解析パイプラインのフェーズを検討し、これらのフェーズごとにツールやリソースを特定し、精度を改善し、データの不足に取り組む。
thamizhiudp は stanza をトークン化と補題化に、thamizhipost と thamizhimorph を音声の一部と形態的アノテーションに、uuparser を依存性解析のために多言語訓練に使っている。
ThamizhiPOStは、Amrita POSタグ付きコーパスでトレーニングされたStanzaをベースにしたPOSタグである。
現在のタミルPOSタグのF1スコアは93.27である。
形態学的アナライザであるtamizhimorphはルールベースのシステムで,タミルを非常によくカバーしています。
依存関係解析のThamizhiUDpは多言語データを用いて訓練した。
Labelled Assigned Score (LAS) は62.39で、現在のタミル依存解析で達成されている最高値よりも4ポイント高い。
したがって、既存のツールやリソースに対応するために依存性解析パイプラインを分割することは、低リソース言語にとって実行可能なアプローチであることを示す。
関連論文リスト
- Breaking the Script Barrier in Multilingual Pre-Trained Language Models with Transliteration-Based Post-Training Alignment [50.27950279695363]
転送性能は、低リソースのターゲット言語が高リソースのソース言語とは異なるスクリプトで書かれている場合、しばしば妨げられる。
本論文は,この問題に対処するために翻訳を用いた最近の研究に触発されて,翻訳に基づくポストプレトレーニングアライメント(PPA)手法を提案する。
論文 参考訳(メタデータ) (2024-06-28T08:59:24Z) - Urdu Dependency Parsing and Treebank Development: A Syntactic and Morphological Perspective [0.0]
依存関係解析を用いて、ウルドゥー語でニュース記事を分析する。
最良ラベル付き精度(LA)は70%,未ラベル付きアタッチメントスコア(UAS)は84%であった。
論文 参考訳(メタデータ) (2024-06-13T19:30:32Z) - Morphology and Syntax of the Tamil Language [0.0]
この論文は、形態学的および構文学的特徴の観点から、タミルの複雑さと豊かさを強調している。
規則に基づく形態素解析の累積生成器として証明され,すでにタミルの計算文法が開発されている。
論文 参考訳(メタデータ) (2024-01-16T13:52:25Z) - SanskritShala: A Neural Sanskrit NLP Toolkit with Web-Based Interface
for Pedagogical and Annotation Purposes [13.585440544031584]
ニューラルサンスクリット自然言語処理(NLP)ツールキットであるSanskritShalaを提案する。
本システムでは,全タスクで利用可能なベンチマークデータセットについて,最先端のパフォーマンスを報告している。
SanskritShalaはWebベースのアプリケーションとしてデプロイされ、ユーザが入力に対してリアルタイムに分析することができる。
論文 参考訳(メタデータ) (2023-02-19T09:58:55Z) - Harnessing Cross-lingual Features to Improve Cognate Detection for
Low-resource Languages [50.82410844837726]
言語間単語埋め込みを用いた14言語間のコニャートの検出を実証する。
インドの12言語からなる挑戦的データセットを用いて,コニャート検出手法の評価を行った。
我々は,コグネート検出のためのFスコアで最大18%の改善点を観察した。
論文 参考訳(メタデータ) (2021-12-16T11:17:58Z) - Continual Mixed-Language Pre-Training for Extremely Low-Resource Neural
Machine Translation [53.22775597051498]
我々は,mbart を未熟な言語に効果的に適用するための,継続的な事前学習フレームワークを提案する。
その結果,mBARTベースラインの微調整性能を一貫して改善できることが示された。
私たちのアプローチは、両方の言語が元のmBARTの事前トレーニングで見られる翻訳ペアのパフォーマンスを高めます。
論文 参考訳(メタデータ) (2021-05-09T14:49:07Z) - Evaluating the Morphosyntactic Well-formedness of Generated Texts [88.20502652494521]
L'AMBRE – テキストのモルフォシンタク的整形性を評価する指標を提案する。
形態的に豊かな言語に翻訳するシステムのダイアクロニックスタディを通じて,機械翻訳作業におけるメトリックの有効性を示す。
論文 参考訳(メタデータ) (2021-03-30T18:02:58Z) - Infusing Finetuning with Semantic Dependencies [62.37697048781823]
シンタックスとは異なり、セマンティクスは今日の事前訓練モデルによって表面化されないことを示す。
次に、畳み込みグラフエンコーダを使用して、タスク固有の微調整にセマンティック解析を明示的に組み込む。
論文 参考訳(メタデータ) (2020-12-10T01:27:24Z) - Building Low-Resource NER Models Using Non-Speaker Annotation [58.78968578460793]
言語横断的な手法はこれらの懸念に対処する上で顕著な成功を収めた。
本稿では,Non-Speaker''(NS)アノテーションを用いた低リソース名前付きエンティティ認識(NER)モデル構築のための補完的アプローチを提案する。
NSアノテータの使用は、現代の文脈表現上に構築された言語間メソッドよりも、一貫した結果が得られることを示す。
論文 参考訳(メタデータ) (2020-06-17T03:24:38Z) - Linguistic Resources for Bhojpuri, Magahi and Maithili: Statistics about
them, their Similarity Estimates, and Baselines for Three Applications [0.6649753747542209]
Bhojpuri、Magahi、Maithiliはインドのプルヴァンチャル地方の低資源言語である。
我々は,これらのコーパスについて,文字,単語,音節,形態素レベルでの基本的な統計的尺度を算出した。
結果は標準ヒンディー語コーパスと比較された。
論文 参考訳(メタデータ) (2020-04-29T03:58:55Z) - Neural Approaches for Data Driven Dependency Parsing in Sanskrit [19.844420181108177]
我々は、もともと異なる言語向けに提案された4つの異なるデータ駆動機械学習モデルを評価し、サンスクリットデータの性能を比較した。
低リソース環境での各モデルのパフォーマンスを1500文のトレーニングで比較する。
また,これらのシステムに対して文を入力として提供する単語順序付けの影響について,詩文とその対応する散文順序を解析することによって検討する。
論文 参考訳(メタデータ) (2020-04-17T06:47:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。