論文の概要: CUNI systems for WMT21: Multilingual Low-Resource Translation for
Indo-European Languages Shared Task
- arxiv url: http://arxiv.org/abs/2109.09354v1
- Date: Mon, 20 Sep 2021 08:10:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-21 16:36:10.211957
- Title: CUNI systems for WMT21: Multilingual Low-Resource Translation for
Indo-European Languages Shared Task
- Title(参考訳): wmt21用cuniシステム:インド・ヨーロッパ言語共用タスクのための多言語低リソース翻訳
- Authors: Josef Jon, Michal Nov\'ak, Jo\~ao Paulo Aires, Du\v{s}an Vari\v{s} and
Ond\v{r}ej Bojar
- Abstract要約: 複数の類似言語ペアに対してジョイントモデルを使用することで,各ペアの翻訳品質が向上することを示す。
また,チャララクタレベルのバイリンガルモデルと非常に類似した言語対が競合することを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper describes Charles University submission for Multilingual
Low-Resource Translation for Indo-European Languages shared task at WMT21. We
competed in translation from Catalan into Romanian, Italian and Occitan. Our
systems are based on shared multilingual model. We show that using joint model
for multiple similar language pairs improves upon translation quality in each
pair. We also demonstrate that chararacter-level bilingual models are
competitive for very similar language pairs (Catalan-Occitan) but less so for
more distant pairs. We also describe our experiments with multi-task learning,
where aside from a textual translation, the models are also trained to perform
grapheme-to-phoneme conversion.
- Abstract(参考訳): 本稿では,チャールズ大学がWMT21で行った多言語低リソース翻訳の課題について述べる。
我々はカタルーニャ語からルーマニア語、イタリア語、オチタン語への翻訳を競った。
我々のシステムは共有多言語モデルに基づいている。
複数の類似言語ペアに対するジョイントモデルを用いることで,各ペアの翻訳品質が向上することを示す。
また,キャララクタレベルのバイリンガルモデルは,非常に類似した言語対(カタルーニャ語-オクシタン)に対して競争的であるが,より遠い言語対ではそうではないことを実証した。
また,テキスト翻訳以外では,グラファイムから音素への変換を行うためにモデルも訓練されているマルチタスク学習の実験について述べる。
関連論文リスト
- Enhancing Translation for Indigenous Languages: Experiments with
Multilingual Models [57.10972566048735]
本稿では,3つの方法のシステム記述について述べる。
M2M-100とmBART50という2つの多言語モデルと1つのバイリンガル(1対1)-ヘルシンキNLPスペイン語翻訳モデルを使いました。
アメリカから11の言語を実験し、使用したセットアップと、達成した成果を報告しました。
論文 参考訳(メタデータ) (2023-05-27T08:10:40Z) - Improving Multilingual Neural Machine Translation System for Indic
Languages [0.0]
低リソース言語翻訳に関わる問題に対処する多言語ニューラルマシン翻訳(MNMT)システムを提案する。
提案モデルの実現には最先端のトランスフォーマーアーキテクチャを用いる。
大量のデータに対する試行は、従来のモデルよりもその優位性を明らかにしている。
論文 参考訳(メタデータ) (2022-09-27T09:51:56Z) - Towards the Next 1000 Languages in Multilingual Machine Translation:
Exploring the Synergy Between Supervised and Self-Supervised Learning [48.15259834021655]
数百の言語をカバーする多言語機械翻訳モデルを構築するための実践的なアプローチを提案する。
私たちは、異なる言語ペアのデータ可用性に応じて、教師付きと自己監督型の目的の混合を使用します。
この2つのトレーニングパラダイム間の相乗効果により、ゼロリソース設定で高品質な翻訳を生成できることを実証する。
論文 参考訳(メタデータ) (2022-01-09T23:36:44Z) - UC2: Universal Cross-lingual Cross-modal Vision-and-Language
Pre-training [52.852163987208826]
UC2は、言語間クロスモーダル表現学習のための最初の機械翻訳拡張フレームワークである。
Masked Region-token Modeling (MRTM) と Visual Translation Language Modeling (VTLM) の2つの新しいプリトレーニングタスクを提案する。
提案手法は,英語タスクにおける単言語学習モデルと同等の性能を維持しつつ,多種多様な非英語ベンチマークで新たな最先端を実現する。
論文 参考訳(メタデータ) (2021-04-01T08:30:53Z) - Improving Multilingual Neural Machine Translation For Low-Resource
Languages: French-, English- Vietnamese [4.103253352106816]
本稿では,多言語mtシステムにおける希少な単語問題に対処するための2つの単純な戦略を提案する。
両言語対のバイリンガルベースラインシステムに対して,+1.62と+2.54のBLEU点が大幅に改善された。
論文 参考訳(メタデータ) (2020-12-16T04:43:43Z) - Translating Similar Languages: Role of Mutual Intelligibility in
Multilingual Transformers [8.9379057739817]
低資源条件下での類似言語間の翻訳手法について検討する。
トランスフォーマーをベースとしたバイリンガル・マルチリンガル系を全ての言語対に対して提案する。
私たちのスペイン・カタランモデルは、5つの言語ペアの中で最高のパフォーマンスを持っています。
論文 参考訳(メタデータ) (2020-11-10T10:58:38Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - Cross-lingual Machine Reading Comprehension with Language Branch
Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。
本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。
LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。
複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文 参考訳(メタデータ) (2020-10-27T13:12:17Z) - Beyond English-Centric Multilingual Machine Translation [74.21727842163068]
我々は真の多言語多言語翻訳モデルを作成し、100言語のいずれかのペア間で直接翻訳できる。
大規模なマイニングによって生成された教師付きデータで、数千の言語方向をカバーするトレーニングデータセットを構築し、オープンソースにしています。
WMTのベストシングルシステムに競争力を持たせながら、非英語の方向を直接翻訳する場合、非英語モデルに焦点をあてると10 BLEU以上のゲインが得られる。
論文 参考訳(メタデータ) (2020-10-21T17:01:23Z) - Complete Multilingual Neural Machine Translation [44.98358050355681]
本稿では、英語中心の並列コーパスを充実させるために、多方向整列例を用いて検討する。
このような接続パターンでMNMTを完全多言語ニューラルネットワーク翻訳(cMNMT)と呼ぶ。
対象言語のみに条件付けされた新たなトレーニングデータサンプリング戦略と組み合わせて、cMNMTは全ての言語ペアに対して競合翻訳品質を得る。
論文 参考訳(メタデータ) (2020-10-20T13:03:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。