論文の概要: Better Low-Resource Entity Recognition Through Translation and
Annotation Fusion
- arxiv url: http://arxiv.org/abs/2305.13582v2
- Date: Wed, 24 May 2023 04:20:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 10:52:35.348022
- Title: Better Low-Resource Entity Recognition Through Translation and
Annotation Fusion
- Title(参考訳): 翻訳とアノテーション融合による低リソースエンティティ認識の改善
- Authors: Yang Chen, Vedaant Shah, Alan Ritter
- Abstract要約: 我々は、低リソースの言語テキストを高リソースの言語に翻訳してアノテーションを提供する、Translation-and-fusionフレームワークを紹介した。
このフレームワークをベースとしたTransFusionは、低リソース言語で堅牢な予測を行うために、高リソース言語からの予測を融合するよう訓練されたモデルである。
- 参考スコア(独自算出の注目度): 12.864201646293248
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Pre-trained multilingual language models have enabled significant
advancements in cross-lingual transfer. However, these models often exhibit a
performance disparity when transferring from high-resource languages to
low-resource languages, especially for languages that are underrepresented or
not in the pre-training data. Motivated by the superior performance of these
models on high-resource languages compared to low-resource languages, we
introduce a Translation-and-fusion framework, which translates low-resource
language text into a high-resource language for annotation using fully
supervised models before fusing the annotations back into the low-resource
language. Based on this framework, we present TransFusion, a model trained to
fuse predictions from a high-resource language to make robust predictions on
low-resource languages. We evaluate our methods on two low-resource named
entity recognition (NER) datasets, MasakhaNER2.0 and LORELEI NER, covering 25
languages, and show consistent improvement up to +16 F$_1$ over English
fine-tuning systems, achieving state-of-the-art performance compared to
Translate-train systems. Our analysis depicts the unique advantages of the
TransFusion method which is robust to translation errors and source language
prediction errors, and complimentary to adapted multilingual language models.
- Abstract(参考訳): 事前訓練された多言語モデルにより、言語間移動が大幅に進歩した。
しかし、これらのモデルは、特に事前学習されたデータに表示されていない言語に対して、高リソース言語から低リソース言語に移行する際に、パフォーマンスの差を示すことが多い。
低リソース言語と比較してこれらのモデルの性能が優れていることに感銘を受けて、低リソース言語テキストを低リソース言語に変換し、完全に教師付きモデルを使用してアノテーションを低リソース言語に戻すための高リソース言語に変換する、Translation-and-fusionフレームワークを導入する。
このフレームワークに基づいて,高リソース言語からの予測を融合し,低リソース言語で堅牢な予測を行うように訓練されたモデルであるtransfusionを提案する。
提案手法は,25言語をカバーする低リソースなエンティティ認識(NER)データセットである MasakhaNER2.0 と LORELEI NER を用いて評価し,英語の微調整システムに対して+16F$_1$まで改善し,トランスレート・トレインシステムと比較して最先端性能を実現した。
本分析では,翻訳誤りやソース言語の予測誤りに頑健なTransFusion法と,適応型多言語言語モデルに補完するTransFusion法の特徴について述べる。
関連論文リスト
- Enhancing Neural Machine Translation of Low-Resource Languages: Corpus
Development, Human Evaluation and Explainable AI Architectures [0.0]
Transformerアーキテクチャは、特に高リソースの言語ペアにおいて、ゴールドスタンダードとして際立っている。
低リソース言語のための並列データセットの不足は、機械翻訳開発を妨げる可能性がある。
この論文では、ニューラルネットワーク翻訳モデルの開発、微調整、デプロイのために合理化された2つのオープンソースアプリケーションであるAdaptNMTとAdaptMLLMを紹介している。
論文 参考訳(メタデータ) (2024-03-03T18:08:30Z) - Improving Cross-lingual Information Retrieval on Low-Resource Languages
via Optimal Transport Distillation [21.057178077747754]
本稿では,低リソースな言語間情報検索のためのOPTICAL: Optimal Transport 蒸留法を提案する。
クエリドキュメントマッチングの知識から言語間知識を分離することにより、OPTICALは蒸留訓練のためのbitextデータのみを必要とする。
実験結果から,OPTICALは最小限のトレーニングデータにより,低リソース言語上での強いベースラインを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2023-01-29T22:30:36Z) - Improving Multilingual Neural Machine Translation System for Indic
Languages [0.0]
低リソース言語翻訳に関わる問題に対処する多言語ニューラルマシン翻訳(MNMT)システムを提案する。
提案モデルの実現には最先端のトランスフォーマーアーキテクチャを用いる。
大量のデータに対する試行は、従来のモデルよりもその優位性を明らかにしている。
論文 参考訳(メタデータ) (2022-09-27T09:51:56Z) - High-resource Language-specific Training for Multilingual Neural Machine
Translation [109.31892935605192]
負の干渉を軽減するために,HLT-MT(High-Resource Language-specific Training)を用いた多言語翻訳モデルを提案する。
具体的には、まずマルチ言語モデルを高リソースペアでトレーニングし、デコーダの上部にある言語固有のモジュールを選択する。
HLT-MTは、高リソース言語から低リソース言語への知識伝達のために、利用可能なすべてのコーパスでさらに訓練されている。
論文 参考訳(メタデータ) (2022-07-11T14:33:13Z) - Geographical Distance Is The New Hyperparameter: A Case Study Of Finding
The Optimal Pre-trained Language For English-isiZulu Machine Translation [0.0]
本研究は,英語訳フレームワークにおける翻訳学習の潜在的なメリットについて考察する。
1つの多言語コーパスを含む8つの言語コーパスから得られた結果から,isiXa-isiZuluがすべての言語より優れた結果を得た。
我々はまた,事前学習されたモデルに対する言語選択を容易にする新しい係数である,Nasir's Geographical Distance Coefficient (NGDC) も導出した。
論文 参考訳(メタデータ) (2022-05-17T20:41:25Z) - Continual Mixed-Language Pre-Training for Extremely Low-Resource Neural
Machine Translation [53.22775597051498]
我々は,mbart を未熟な言語に効果的に適用するための,継続的な事前学習フレームワークを提案する。
その結果,mBARTベースラインの微調整性能を一貫して改善できることが示された。
私たちのアプローチは、両方の言語が元のmBARTの事前トレーニングで見られる翻訳ペアのパフォーマンスを高めます。
論文 参考訳(メタデータ) (2021-05-09T14:49:07Z) - Improving the Lexical Ability of Pretrained Language Models for
Unsupervised Neural Machine Translation [127.81351683335143]
クロスリンガルプリトレーニングは、2つの言語の語彙的表現と高レベル表現を整列させるモデルを必要とする。
これまでの研究では、これは表現が十分に整合していないためです。
本稿では,語彙レベルの情報で事前学習するバイリンガルマスク言語モデルを,型レベルのクロスリンガルサブワード埋め込みを用いて強化する。
論文 参考訳(メタデータ) (2021-03-18T21:17:58Z) - Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language
Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。
本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。
提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文 参考訳(メタデータ) (2020-11-23T16:00:42Z) - Pre-training Multilingual Neural Machine Translation by Leveraging
Alignment Information [72.2412707779571]
mRASPは、汎用多言語ニューラルマシン翻訳モデルを事前訓練するためのアプローチである。
我々は,低,中,豊かな資源を含む多種多様な環境における42の翻訳方向の実験を行い,エキゾチックな言語対への変換を行った。
論文 参考訳(メタデータ) (2020-10-07T03:57:54Z) - Leveraging Monolingual Data with Self-Supervision for Multilingual
Neural Machine Translation [54.52971020087777]
モノリンガルデータを使用することで、マルチリンガルモデルにおける低リソース言語の翻訳品質が大幅に向上する。
自己監督は多言語モデルのゼロショット翻訳品質を改善する。
並列データやバックトランスレーションなしで、ro-en翻訳で最大33のBLEUを得る。
論文 参考訳(メタデータ) (2020-05-11T00:20:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。