論文の概要: POS tagging, lemmatization and dependency parsing of West Frisian
- arxiv url: http://arxiv.org/abs/2107.07974v1
- Date: Fri, 16 Jul 2021 15:41:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-19 17:09:39.988298
- Title: POS tagging, lemmatization and dependency parsing of West Frisian
- Title(参考訳): west frisian の pos tagging, lemmatization および dependency parsing
- Authors: Wilbert Heeringa, Gosse Bouma, Martha Hofman, Eduard Drenth, Jan
Wijffels, Hans Van de Velde
- Abstract要約: 44,714単語のコーパスを3,126文で用いて,西フリジア語に対する補題化/POS-tagger/dependencyを提案する。
フリジア語訳プログラム Oersetter を用いて作成したリテラル翻訳を用いて、最良の結果を得た。
- 参考スコア(独自算出の注目度): 1.7860709946876898
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a lemmatizer/POS-tagger/dependency parser for West Frisian using a
corpus of 44,714 words in 3,126 sentences that were annotated according to the
guidelines of Universal Dependency version 2. POS tags were assigned to words
by using a Dutch POS tagger that was applied to a literal word-by-word
translation, or to sentences of a Dutch parallel text. Best results were
obtained when using literal translations that were created by using the Frisian
translation program Oersetter. Morphologic and syntactic annotations were
generated on the basis of a literal Dutch translation as well. The performance
of the lemmatizer/tagger/annotator when it was trained using default parameters
was compared to the performance that was obtained when using the parameter
values that were used for training the LassySmall UD 2.5 corpus. A significant
improvement was found for `lemma'. The Frisian lemmatizer/PoS tagger/dependency
parser is released as a web app and as a web service.
- Abstract(参考訳): We present a lemmatizer/POS-tagger/dependency parser for West Frisian using a corpus of 44,714 words in 3,126 sentences that was annotated by the Guidelines of Universal Dependency Version 2。
POSタグはオランダ語のPOSタグを用いて単語に割り当てられ、文字通りの単語単位の翻訳やオランダ語のパラレルテキストの文に適用される。
フリジア語訳プログラム Oersetter を用いて作成したリテラル翻訳を用いて、最良の結果を得た。
形態学的および構文的注釈は、文字通りのオランダ語訳にも基づいて作成された。
デフォルトパラメータを用いたトレーニング時のlemmatizer/tagger/annotatorの性能は、lassysmall ud 2.5コーパスのトレーニングに使用されたパラメータ値を使用して得られたパフォーマンスと比較した。
lemma'に対する大幅な改善が見られた。
Frisian lemmatizer/PoS tagger/dependency parserはWebアプリおよびWebサービスとしてリリースされた。
関連論文リスト
- LexMatcher: Dictionary-centric Data Collection for LLM-based Machine Translation [67.24113079928668]
本稿では、バイリンガル辞書に見られる感覚のカバレッジによって駆動されるデータキュレーション手法であるLexMatcherを提案する。
我々の手法は、WMT2022テストセットの確立されたベースラインよりも優れています。
論文 参考訳(メタデータ) (2024-06-03T15:30:36Z) - Towards Effective Disambiguation for Machine Translation with Large
Language Models [65.80775710657672]
我々は「あいまいな文」を翻訳する大規模言語モデルの能力について研究する。
実験の結果,提案手法はDeepLやNLLBといった最先端システムと5つの言語方向のうち4つで一致し,性能を向上できることがわかった。
論文 参考訳(メタデータ) (2023-09-20T22:22:52Z) - Encoding Sentence Position in Context-Aware Neural Machine Translation
with Concatenation [25.9276959748365]
コンテクスト対応翻訳は、連続した文と標準のTransformerアーキテクチャとの結合を処理することで実現できる。
本稿では,連結ウィンドウに含まれる文の位置に関する明示的な情報をモデルに提供するという直感的な考え方について検討する。
論文 参考訳(メタデータ) (2023-02-13T15:39:08Z) - Rethink about the Word-level Quality Estimation for Machine Translation
from Human Judgement [57.72846454929923]
ベンチマークデータセットであるemphHJQEを作成し、専門家翻訳者が不適切な翻訳語を直接アノテートする。
本稿では,タグリファインメント戦略と木ベースのアノテーション戦略という2つのタグ補正戦略を提案し,TERベースの人工QEコーパスをemphHJQEに近づける。
その結果,提案したデータセットは人間の判断と一致しており,また,提案したタグ補正戦略の有効性も確認できた。
論文 参考訳(メタデータ) (2022-09-13T02:37:12Z) - Non-Parametric Domain Adaptation for End-to-End Speech Translation [72.37869362559212]
E2E-ST(End-to-End Speech Translation)は、エラー伝播の低減、レイテンシの低減、パラメータの削減などにより注目されている。
本稿では,E2E-STシステムのドメイン適応を実現するために,ドメイン固有のテキスト翻訳コーパスを活用する新しい非パラメトリック手法を提案する。
論文 参考訳(メタデータ) (2022-05-23T11:41:02Z) - Data Expansion using Back Translation and Paraphrasing for Hate Speech
Detection [1.192436948211501]
本稿では,バック翻訳手法を融合した新しい深層学習手法と,データ拡張のためのパラフレージング手法を提案する。
AskFm corpus, Formspring データセット, Warner と Waseem データセット, Olid および Wikipedia の有毒なコメントデータセットである。
論文 参考訳(メタデータ) (2021-05-25T09:52:42Z) - English-Twi Parallel Corpus for Machine Translation [0.0061423327574940114]
25,421文ペアの英語とAkuapem Twiのための並列機械翻訳トレーニングコーパスを紹介します。
Akuapem Twiの初期翻訳をトランスレータで生成し,その後,母語話者が必要に応じて検証・修正した。
さらに、下流の自然言語処理(NLP)タスクの評価セットとして、697の高品質のクラウドソース文が用意されています。
論文 参考訳(メタデータ) (2021-03-29T14:04:57Z) - Sparsely Factored Neural Machine Translation [3.4376560669160394]
言語情報をニューラルマシン翻訳システムに組み込む標準的なアプローチは、注釈付き特徴ごとに別々の語彙を維持することである。
そこで本研究では,ドメイン外データの大幅な改善と,ドメイン内データに匹敵する品質を示す手法を提案する。
低リソースシナリオの場合、実験はバスク語やドイツ語のような形態素豊かな言語で行われる。
論文 参考訳(メタデータ) (2021-02-17T18:42:00Z) - Dynamic Context Selection for Document-level Neural Machine Translation
via Reinforcement Learning [55.18886832219127]
文書レベルの翻訳における動的コンテキストの選択に有効な手法を提案する。
動的文脈文の選択と活用を促進するために,新しい報酬を提案する。
実験により,提案手法は異なるソース文に対して適応的な文脈文を選択することができることが示された。
論文 参考訳(メタデータ) (2020-10-09T01:05:32Z) - On the Limitations of Cross-lingual Encoders as Exposed by
Reference-Free Machine Translation Evaluation [55.02832094101173]
クロスランガルエンコーダの評価は通常、教師付き下流タスクにおけるゼロショットのクロスランガル転送または教師なしのクロスランガル類似性によって行われる。
本稿では、ソーステキストと(低品質な)システム翻訳を直接比較するMT(Reference-free Machine Translation)の評価について述べる。
事前学習したM-BERTとLASERで得られた最先端の言語間セマンティック表現に基づいて,様々なメトリクスを体系的に検討する。
参照なしMT評価において,セマンティックエンコーダとしての性能は低く,その2つの重要な限界を同定する。
論文 参考訳(メタデータ) (2020-05-03T22:10:23Z) - Parsing Early Modern English for Linguistic Search [3.927039542429003]
我々は,NLPの進歩により,歴史的構文の研究に利用可能なデータサイズを大幅に拡大できるかどうかを考察する。
これにより、自動アノテーション付きコーパスによる言語クエリのサービスにおいて、NLPの一般的なツール – ワード埋め込み、タグ付け、パース – が数多く統合される。
我々は10億語以上の類似したテキストをトレーニングしたELMo埋め込みを用いて、POSタグと歴史的英語のコーパスをトレーニングする。
論文 参考訳(メタデータ) (2020-02-24T21:04:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。