論文の概要: How effective is Multi-source pivoting for Translation of Low Resource Indian Languages?
- arxiv url: http://arxiv.org/abs/2406.13332v1
- Date: Wed, 19 Jun 2024 08:31:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-21 22:40:02.308463
- Title: How effective is Multi-source pivoting for Translation of Low Resource Indian Languages?
- Title(参考訳): 低資源インド語翻訳におけるマルチソースピボットはどの程度有効か?
- Authors: Pranav Gaikwad, Meet Doshi, Raj Dabre, Pushpak Bhattacharyya,
- Abstract要約: 本稿では、ソース文とピボット文の両方を用いて、ピボットを用いた「複数ソース翻訳」アプローチについて検討する。
これまでの主張とは対照的に、マルチソースのピボットは最先端よりも限界的な改善をもたらすことが分かっています。
- 参考スコア(独自算出の注目度): 43.44411629370054
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine Translation (MT) between linguistically dissimilar languages is challenging, especially due to the scarcity of parallel corpora. Prior works suggest that pivoting through a high-resource language can help translation into a related low-resource language. However, existing works tend to discard the source sentence when pivoting. Taking the case of English to Indian language MT, this paper explores the 'multi-source translation' approach with pivoting, using both source and pivot sentences to improve translation. We conducted extensive experiments with various multi-source techniques for translating English to Konkani, Manipuri, Sanskrit, and Bodo, using Hindi, Marathi, and Bengali as pivot languages. We find that multi-source pivoting yields marginal improvements over the state-of-the-art, contrary to previous claims, but these improvements can be enhanced with synthetic target language data. We believe multi-source pivoting is a promising direction for Low-resource translation.
- Abstract(参考訳): 言語的に異なる言語間の機械翻訳(MT)は特に並列コーパスの不足により困難である。
以前の研究は、高リソース言語をピボットすることで、関連する低リソース言語への変換に役立つことを示唆している。
しかし、既存の作業は、ピボットするときにソース文を破棄する傾向がある。
本稿では、英語からインド語へのMTを例として、ソース文とピボット文の両方を用いて、ピボットによる「複数ソース翻訳」アプローチについて検討する。
我々は,ヒンディー語,マラティー語,ベンガル語を用いて,コンカニ語,マニプリ語,サンスクリット語,ボド語に翻訳する様々な多元的手法による広範な実験を行った。
従来の主張とは対照的に,マルチソースピボットは最先端技術よりも限界的な改善をもたらすが,これらの改善は合成対象言語データによって強化できる。
私たちは、マルチソースのピボットが低リソースの翻訳にとって有望な方向であると信じています。
関連論文リスト
- Breaking the Script Barrier in Multilingual Pre-Trained Language Models with Transliteration-Based Post-Training Alignment [50.27950279695363]
転送性能は、低リソースのターゲット言語が高リソースのソース言語とは異なるスクリプトで書かれている場合、しばしば妨げられる。
本論文は,この問題に対処するために翻訳を用いた最近の研究に触発されて,翻訳に基づくポストプレトレーニングアライメント(PPA)手法を提案する。
論文 参考訳(メタデータ) (2024-06-28T08:59:24Z) - Investigating Multi-Pivot Ensembling with Massively Multilingual Machine Translation Models [47.91306228406407]
複数の言語をピボットする方法を再検討する。
我々は、最も確実な予測に向けて出力をバイアスする新しい組み合わせ戦略であるMaxEnsを提案する。
平均的なマルチピボット戦略は、英語を単一のピボット言語として使うのに遅れを取っている。
論文 参考訳(メタデータ) (2023-11-13T16:15:20Z) - The Best of Both Worlds: Combining Human and Machine Translations for
Multilingual Semantic Parsing with Active Learning [50.320178219081484]
人文翻訳と機械翻訳の両方の長所を生かした能動的学習手法を提案する。
理想的な発話選択は、翻訳されたデータの誤りとバイアスを著しく低減することができる。
論文 参考訳(メタデータ) (2023-05-22T05:57:47Z) - Investigating Lexical Sharing in Multilingual Machine Translation for
Indian Languages [8.858671209228536]
ネパールのヒンディー語から英語への多言語機械翻訳における語彙共有について検討した。
文字の書き起こしが顕著な改善を与えていないことが分かりました。
分析の結果,オリジナルスクリプトでトレーニングした多言語MTモデルは,すでに多言語間の違いに対して堅牢であることがわかった。
論文 参考訳(メタデータ) (2023-05-04T23:35:15Z) - Improving Multilingual Neural Machine Translation System for Indic
Languages [0.0]
低リソース言語翻訳に関わる問題に対処する多言語ニューラルマシン翻訳(MNMT)システムを提案する。
提案モデルの実現には最先端のトランスフォーマーアーキテクチャを用いる。
大量のデータに対する試行は、従来のモデルよりもその優位性を明らかにしている。
論文 参考訳(メタデータ) (2022-09-27T09:51:56Z) - Continual Mixed-Language Pre-Training for Extremely Low-Resource Neural
Machine Translation [53.22775597051498]
我々は,mbart を未熟な言語に効果的に適用するための,継続的な事前学習フレームワークを提案する。
その結果,mBARTベースラインの微調整性能を一貫して改善できることが示された。
私たちのアプローチは、両方の言語が元のmBARTの事前トレーニングで見られる翻訳ペアのパフォーマンスを高めます。
論文 参考訳(メタデータ) (2021-05-09T14:49:07Z) - Simultaneous Multi-Pivot Neural Machine Translation [12.796775798210133]
同時のピボットNMT設定では、2つのピボット言語を使用することで最大5.8 BLEUの改善につながります。
N-way parallel UN corpus for Arabic to English NMTをフランス語とスペイン語でピボットとして用いた低リソース設定における実験により、2つのピボット言語を使用した同時ピボットNMT設定が最大5.8 BLEUの改善につながることが明らかになった。
論文 参考訳(メタデータ) (2021-04-15T12:19:52Z) - Cross-lingual Machine Reading Comprehension with Language Branch
Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。
本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。
LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。
複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文 参考訳(メタデータ) (2020-10-27T13:12:17Z) - Neural Machine Translation for Low-Resourced Indian Languages [4.726777092009554]
機械翻訳は、人間の関与なしにテキストを別の言語に変換する効果的な手法である。
本稿では,NMTを英語・タミル語・英語・マラヤラム語という,最も形態学的に豊かな2つの言語に適用した。
我々は,BPE(Byte-Pair-Encoded)とMultiBPE(MultiBPE)を併用したマルチヘッド自己アテンション(Multihead self-attention)を用いた新しいNMTモデルを提案し,効率的な翻訳システムを開発した。
論文 参考訳(メタデータ) (2020-04-19T17:29:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。