論文の概要: Crowdsourced Phrase-Based Tokenization for Low-Resourced Neural Machine
Translation: The Case of Fon Language
- arxiv url: http://arxiv.org/abs/2103.08052v1
- Date: Sun, 14 Mar 2021 22:12:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-17 03:38:33.178235
- Title: Crowdsourced Phrase-Based Tokenization for Low-Resourced Neural Machine
Translation: The Case of Fon Language
- Title(参考訳): 低リソースニューラルネットワーク翻訳のためのクラウドソーシングフレーズベースのトークン化:Fon言語の場合
- Authors: Bonaventure F. P. Dossou and Chris C. Emezue
- Abstract要約: 人間関係のスーパーワードトークン化戦略であるWord-Expressions-Based(WEB)トークン化について紹介します。
トークン化戦略を、Fon- French と French-Fon の翻訳タスクで比較する。
- 参考スコア(独自算出の注目度): 0.015863809575305417
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Building effective neural machine translation (NMT) models for very
low-resourced and morphologically rich African indigenous languages is an open
challenge. Besides the issue of finding available resources for them, a lot of
work is put into preprocessing and tokenization. Recent studies have shown that
standard tokenization methods do not always adequately deal with the
grammatical, diacritical, and tonal properties of some African languages. That,
coupled with the extremely low availability of training samples, hinders the
production of reliable NMT models. In this paper, using Fon language as a case
study, we revisit standard tokenization methods and introduce
Word-Expressions-Based (WEB) tokenization, a human-involved super-words
tokenization strategy to create a better representative vocabulary for
training. Furthermore, we compare our tokenization strategy to others on the
Fon-French and French-Fon translation tasks.
- Abstract(参考訳): 非常に低リソースで形態的に豊かなアフリカの先住民言語に対する効果的なニューラルネットワーク翻訳(NMT)モデルの構築は、オープンな課題である。
利用可能なリソースを見つけるという問題に加えて、多くの作業が前処理とトークン化に費やされます。
最近の研究では、標準のトークン化方法がアフリカ言語の文法的、ダイアクリティカル、トーン特性を適切に扱うとは限らないことが示されています。
トレーニングサンプルの可用性が極めて低いことに加えて、信頼性の高いNMTモデルの生産を妨げている。
本稿では,fon言語を事例研究として,標準トークン化法を再検討し,人間主導のスーパーワードトークン化戦略であるword-expressions-based (web)トークン化を導入する。
さらに、Fon-France-Fon翻訳タスクのトークン化戦略を他の人と比較します。
関連論文リスト
- Trans-Tokenization and Cross-lingual Vocabulary Transfers: Language Adaptation of LLMs for Low-Resource NLP [13.662528492286528]
本稿では,この課題に対処し,より効率的な言語適応を実現するために,新たな言語間語彙移動戦略であるトランストークン化を提案する。
提案手法は,ソースコードからの意味論的に類似したトークン埋め込みの重み付け平均を用いて,ターゲット言語のトークン埋め込みを初期化することにより,高リソースのモノリンガルLLMを未知のターゲット言語に適応することに焦点を当てる。
複数のスワップ可能な言語モデリングヘッドと埋め込みテーブルを備えたモデルであるHydra LLMを導入し、トランストークン化戦略の能力をさらに拡張した。
論文 参考訳(メタデータ) (2024-08-08T08:37:28Z) - Problematic Tokens: Tokenizer Bias in Large Language Models [4.7245503050933335]
本稿では,大きな言語モデルに固有のトークン化プロセスに相違点のルーツを辿る。
具体的には、トークン化プロセスのスピードアップによく使われるトークン化語が、英語以外の言語を不十分に表現する方法を探求する。
我々は,GPT-4oのトークン化機構を解明し,その簡易なトークン処理手法が関連するセキュリティや倫理的問題をいかに増幅するかを説明する。
論文 参考訳(メタデータ) (2024-06-17T05:13:25Z) - Towards Better Chinese-centric Neural Machine Translation for
Low-resource Languages [12.374365655284342]
ニューラルマシン翻訳(NMT)システムの構築は、特に低リソース環境において急激なトレンドとなっている。
最近の研究は、英語を中心とした低リソースのNMTシステムを研究する傾向にあるが、中国語など他の言語を中心とした低リソースのNMTシステムに焦点を当てる研究はほとんどない。
本稿では,モノリンガル単語の埋め込みによるデータ強化,バイリンガルカリキュラム学習,コントラスト的再ランク付けを活用した勝者競争システムを提案する。
論文 参考訳(メタデータ) (2022-04-09T01:05:37Z) - Reinforced Iterative Knowledge Distillation for Cross-Lingual Named
Entity Recognition [54.92161571089808]
言語間NERは、知識をリッチリソース言語から低リソース言語に転送する。
既存の言語間NERメソッドは、ターゲット言語でリッチなラベル付けされていないデータをうまく利用しない。
半教師付き学習と強化学習のアイデアに基づく新しいアプローチを開発する。
論文 参考訳(メタデータ) (2021-06-01T05:46:22Z) - Token-wise Curriculum Learning for Neural Machine Translation [94.93133801641707]
ニューラルネットワーク翻訳(NMT)への既存のカリキュラム学習アプローチでは、初期のトレーニング段階でトレーニングデータから十分なサンプルをサンプリングする必要がある。
簡便なサンプルを十分に生成する,新しいトークン型カリキュラム学習手法を提案する。
当社のアプローチは,5つの言語ペア,特に低リソース言語において,ベースラインを一貫して上回ることができる。
論文 参考訳(メタデータ) (2021-03-20T03:57:59Z) - Improving the Lexical Ability of Pretrained Language Models for
Unsupervised Neural Machine Translation [127.81351683335143]
クロスリンガルプリトレーニングは、2つの言語の語彙的表現と高レベル表現を整列させるモデルを必要とする。
これまでの研究では、これは表現が十分に整合していないためです。
本稿では,語彙レベルの情報で事前学習するバイリンガルマスク言語モデルを,型レベルのクロスリンガルサブワード埋め込みを用いて強化する。
論文 参考訳(メタデータ) (2021-03-18T21:17:58Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - Reusing a Pretrained Language Model on Languages with Limited Corpora
for Unsupervised NMT [129.99918589405675]
本稿では,オープンソース言語上でのみ事前訓練されたLMを再利用する効果的な手法を提案する。
モノリンガルLMは両言語で微調整され、UNMTモデルの初期化に使用される。
我々のアプローチであるRE-LMは、英語・マケドニア語(En-Mk)と英語・アルバニア語(En-Sq)の競合言語間事前学習モデル(XLM)より優れています。
論文 参考訳(メタデータ) (2020-09-16T11:37:10Z) - Building Low-Resource NER Models Using Non-Speaker Annotation [58.78968578460793]
言語横断的な手法はこれらの懸念に対処する上で顕著な成功を収めた。
本稿では,Non-Speaker''(NS)アノテーションを用いた低リソース名前付きエンティティ認識(NER)モデル構築のための補完的アプローチを提案する。
NSアノテータの使用は、現代の文脈表現上に構築された言語間メソッドよりも、一貫した結果が得られることを示す。
論文 参考訳(メタデータ) (2020-06-17T03:24:38Z) - Transfer learning and subword sampling for asymmetric-resource
one-to-many neural translation [14.116412358534442]
低リソース言語のためのニューラルマシン翻訳を改善する方法について概説する。
人工的に制限された3つの翻訳タスクと1つの現実世界タスクでテストが行われる。
実験は、特にスケジュールされたマルチタスク学習、denoising autoencoder、サブワードサンプリングに肯定的な効果を示す。
論文 参考訳(メタデータ) (2020-04-08T14:19:05Z) - Combining Pretrained High-Resource Embeddings and Subword
Representations for Low-Resource Languages [24.775371434410328]
形態学的に豊かな言語(MRL)の質を利用した手法を探求する。
本稿では,Xhosa- English 翻訳の下流処理において,事前学習と形態的インフォームド単語の埋め込みを併用したメタ埋め込み手法が有効であることを示す。
論文 参考訳(メタデータ) (2020-03-09T21:30:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。