論文の概要: Machine Translation into Low-resource Language Varieties
- arxiv url: http://arxiv.org/abs/2106.06797v1
- Date: Sat, 12 Jun 2021 15:28:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-15 16:13:28.879642
- Title: Machine Translation into Low-resource Language Varieties
- Title(参考訳): 低リソース言語への機械翻訳
- Authors: Sachin Kumar, Antonios Anastasopoulos, Shuly Wintner, Yulia Tsvetkov
- Abstract要約: 本稿では,機械翻訳システムに迅速に適応して,標準対象言語に近いが異なる言語を生成できる汎用フレームワークを提案する。
我々は、ウクライナ語とベラルーシ語を生成するために、英語とロシア語のMTシステム、英語とノルウェーのボクマール語でNynorskを生成するシステム、および4つのアラビア方言を生成する英語とアラビア語のシステムを適用する実験を行った。
- 参考スコア(独自算出の注目度): 36.03635206661724
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: State-of-the-art machine translation (MT) systems are typically trained to
generate the "standard" target language; however, many languages have multiple
varieties (regional varieties, dialects, sociolects, non-native varieties) that
are different from the standard language. Such varieties are often
low-resource, and hence do not benefit from contemporary NLP solutions, MT
included. We propose a general framework to rapidly adapt MT systems to
generate language varieties that are close to, but different from, the standard
target language, using no parallel (source--variety) data. This also includes
adaptation of MT systems to low-resource typologically-related target
languages. We experiment with adapting an English--Russian MT system to
generate Ukrainian and Belarusian, an English--Norwegian Bokm{\aa}l system to
generate Nynorsk, and an English--Arabic system to generate four Arabic
dialects, obtaining significant improvements over competitive baselines.
- Abstract(参考訳): State-of-the-art machine translation (MT) システムは一般的に「標準」ターゲット言語を生成するために訓練されるが、多くの言語は標準言語とは異なる複数の品種(地域品種、方言、ソサイレント、非ネイティブ品種)を持っている。
このような品種は、しばしば低資源であり、MTを含む現代のNLPソリューションの恩恵を受けない。
我々は,mtシステムを並列(ソース-変数)データを用いずに,標準のターゲット言語に近かったが異なる言語種類を生成するために,mtシステムを迅速に適応させる汎用フレームワークを提案する。
これはまた、低リソースのタイポロジー関連ターゲット言語へのMTシステムの適応を含む。
我々は、英語-ロシア語 MT システムを適用して、ウクライナ語とベラルーシ語を生成、英語-ノルウェー語でNynorsk を生成する Bokm{\aa}l システム、英語-アラビア語で4つのアラビア方言を生成、競争ベースラインよりも大幅に改善した。
関連論文リスト
- Machine Translation for Ge'ez Language [0.0]
Ge'ezのような低リソース言語の機械翻訳は、語彙外単語、ドメインミスマッチ、ラベル付きトレーニングデータの欠如といった課題に直面している。
言語関連性に基づく多言語ニューラルマシン翻訳(MNMT)モデルを開発した。
また,最新のLCMであるGPT-3.5を用いて,ファジィマッチングを用いた数ショット翻訳実験を行った。
論文 参考訳(メタデータ) (2023-11-24T14:55:23Z) - Extending Multilingual Machine Translation through Imitation Learning [60.15671816513614]
Imit-MNMTは、タスクを専門家の行動を模倣する模倣学習プロセスとして扱う。
提案手法は,新言語と原言語の翻訳性能を大幅に向上させることを示す。
我々はまた、我々のアプローチがコピーとオフターゲットの問題を解決することができることを示した。
論文 参考訳(メタデータ) (2023-11-14T21:04:03Z) - Neural Machine Translation for the Indigenous Languages of the Americas:
An Introduction [102.13536517783837]
アメリカ大陸のほとんどの言語は、もしあるならば、並列データと単言語データしか持たない。
これらの言語におけるNLPコミュニティの関心が高まった結果、最近の進歩、発見、オープンな質問について論じる。
論文 参考訳(メタデータ) (2023-06-11T23:27:47Z) - Revisiting Machine Translation for Cross-lingual Classification [91.43729067874503]
この分野のほとんどの研究は、機械翻訳コンポーネントではなく多言語モデルに焦点を当てている。
より強力なMTシステムを用いて、原文のトレーニングと機械翻訳テキストの推論のミスマッチを緩和することにより、翻訳テストは以前想定していたよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2023-05-23T16:56:10Z) - Improving Multilingual Neural Machine Translation System for Indic
Languages [0.0]
低リソース言語翻訳に関わる問題に対処する多言語ニューラルマシン翻訳(MNMT)システムを提案する。
提案モデルの実現には最先端のトランスフォーマーアーキテクチャを用いる。
大量のデータに対する試行は、従来のモデルよりもその優位性を明らかにしている。
論文 参考訳(メタデータ) (2022-09-27T09:51:56Z) - Learning to translate by learning to communicate [11.43638897327485]
我々は,最新のunsupervised NMTシステムを改善するために,事前学習された多言語モデルを用いてEmergent Communication (EC)を使用する手法を定式化し,検証する。
提案手法では,多言語モデルを用いて視覚的なタスクを遂行するために,多言語世代をインセンティブとしたEC画像参照ゲームに,多言語モデルを組み込む。
本報告では,2種類のECファインチューニング(Steinert-Threlkeld et al., 2022)について述べる。
論文 参考訳(メタデータ) (2022-07-14T15:58:06Z) - Evaluating Transferability of BERT Models on Uralic Languages [0.0]
BERTのようなトランスフォーマーベースの言語モデルは、多くの英語ベンチマークで以前のモデルより優れている。
エストニア語、フィンランド語、ハンガリー語、エルツィア語、モクシャ語、カレリア語、リヴヴィ語、コミ・ペルミーク語、コミ・ジリアン語、北サーミ語、スコルト・サーミ語などの言語について、単言語、多言語、ランダムに評価した。
論文 参考訳(メタデータ) (2021-09-13T21:10:29Z) - Continual Mixed-Language Pre-Training for Extremely Low-Resource Neural
Machine Translation [53.22775597051498]
我々は,mbart を未熟な言語に効果的に適用するための,継続的な事前学習フレームワークを提案する。
その結果,mBARTベースラインの微調整性能を一貫して改善できることが示された。
私たちのアプローチは、両方の言語が元のmBARTの事前トレーニングで見られる翻訳ペアのパフォーマンスを高めます。
論文 参考訳(メタデータ) (2021-05-09T14:49:07Z) - Cross-lingual, Character-Level Neural Morphological Tagging [57.0020906265213]
文字レベルのリカレントなニューラルタグをトレーニングし、高リソース言語と低リソース言語を併用して形態的タグ付けを予測する。
複数の関連言語間の共同文字表現の学習は、高リソース言語から低リソース言語への知識伝達を成功させ、モノリンガルモデルの精度を最大30%向上させる。
論文 参考訳(メタデータ) (2017-08-30T08:14:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。