論文の概要: Multilingual Transfer and Domain Adaptation for Low-Resource Languages of Spain
- arxiv url: http://arxiv.org/abs/2409.15924v2
- Date: Sun, 29 Sep 2024 09:15:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-01 22:07:21.374527
- Title: Multilingual Transfer and Domain Adaptation for Low-Resource Languages of Spain
- Title(参考訳): スペインの低リソース言語に対する多言語移動とドメイン適応
- Authors: Yuanchang Luo, Zhanglin Wu, Daimeng Wei, Hengchao Shang, Zongyao Li, Jiaxin Guo, Zhiqiang Rao, Shaojun Li, Jinlong Yang, Yuhao Xie, Jiawei Zheng Bin Wei, Hao Yang,
- Abstract要約: スペイン語からアラゴネーズ(es-arg)、スペイン語からアラン語(es-arn)、スペイン語からアストゥリアン語(es-ast)の3つの翻訳作業に参加した。
これら3つの翻訳タスクでは、多言語翻訳、正規化ドロップアウト、前方翻訳、前方翻訳、音声認識、アンサンブル学習など、深層トランスフォーマー・ビッグアーキテクチャのトレーニングに基づくニューラルマシン翻訳(NMT)モデルに対するトレーニング戦略を用いる。
- 参考スコア(独自算出の注目度): 9.28989997114014
- License:
- Abstract: This article introduces the submission status of the Translation into Low-Resource Languages of Spain task at (WMT 2024) by Huawei Translation Service Center (HW-TSC). We participated in three translation tasks: spanish to aragonese (es-arg), spanish to aranese (es-arn), and spanish to asturian (es-ast). For these three translation tasks, we use training strategies such as multilingual transfer, regularized dropout, forward translation and back translation, labse denoising, transduction ensemble learning and other strategies to neural machine translation (NMT) model based on training deep transformer-big architecture. By using these enhancement strategies, our submission achieved a competitive result in the final evaluation.
- Abstract(参考訳): 本稿では,Huawei Translation Service Center (HW-TSC) による,スペインにおける低リソース言語への翻訳の提出状況について紹介する。
我々は,スペイン語からアラゴネーズ (es-arg) ,スペイン語からアラン語 (es-arn) ,スペイン語からアストゥリアン語 (es-ast) の3つの翻訳作業に参加した。
これら3つの翻訳タスクでは、多言語翻訳、正規化ドロップアウト、前方翻訳、前方翻訳、音声認識、トランスダクション・アンサンブル学習などの学習戦略を、深層トランスフォーマー・ビッグアーキテクチャのトレーニングに基づくニューラル・マシン・トランスフォーメーション(NMT)モデルに適用する。
これらの強化戦略を用いることで,最終評価において競争的な結果が得られた。
関連論文リスト
- Boosting Unsupervised Machine Translation with Pseudo-Parallel Data [2.900810893770134]
本研究では,モノリンガルコーパスから抽出した擬似並列文対と,モノリンガルコーパスから逆転写された合成文対を利用する訓練戦略を提案する。
裏書きされたデータのみに基づいてトレーニングされたベースラインに対して、最大14.5 BLEUポイント(ウクライナ語)の改善を達成しました。
論文 参考訳(メタデータ) (2023-10-22T10:57:12Z) - Parallel Corpus for Indigenous Language Translation: Spanish-Mazatec and
Spanish-Mixtec [51.35013619649463]
本稿では,機械翻訳(MT)タスクのための並列型スパニッシュ・マザテックとスパニッシュ・ミクテック・コーパスを提案する。
本研究では, トランスフォーマー, トランスファーラーニング, 微調整済み多言語MTモデルの3つのアプローチを用いて, 収集したコーパスのユーザビリティを評価した。
その結果,Mixtecのデータセットサイズ(9,799文),Mixtecの13,235文)が翻訳性能に影響を及ぼし,対象言語として使用する場合のネイティブ言語の性能が向上した。
論文 参考訳(メタデータ) (2023-05-27T08:03:44Z) - On the Copying Problem of Unsupervised NMT: A Training Schedule with a
Language Discriminator Loss [120.19360680963152]
unsupervised neural machine translation (UNMT)は多くの言語で成功している。
コピー問題、すなわち、入力文の一部を翻訳として直接コピーする問題は、遠い言語対に共通している。
本稿では,言語識別器の損失を取り入れた,シンプルだが効果的な訓練スケジュールを提案する。
論文 参考訳(メタデータ) (2023-05-26T18:14:23Z) - BERTuit: Understanding Spanish language in Twitter through a native
transformer [70.77033762320572]
bfBERTuitは、これまでスペイン語のために提案された大きなトランスフォーマーで、2億3000万のスペイン語ツイートの膨大なデータセットで事前トレーニングされている。
私たちのモチベーションは、スペイン語のTwitterをよりよく理解し、このソーシャルネットワークにフォーカスしたアプリケーションに利用するための強力なリソースを提供することです。
論文 参考訳(メタデータ) (2022-04-07T14:28:51Z) - CUNI systems for WMT21: Multilingual Low-Resource Translation for
Indo-European Languages Shared Task [0.0]
複数の類似言語ペアに対してジョイントモデルを使用することで,各ペアの翻訳品質が向上することを示す。
また,チャララクタレベルのバイリンガルモデルと非常に類似した言語対が競合することを示す。
論文 参考訳(メタデータ) (2021-09-20T08:10:39Z) - Cross-Lingual Training with Dense Retrieval for Document Retrieval [56.319511218754414]
我々は、英語のアノテーションから複数の非英語言語への文書ランク付けのための異なる転送手法について検討する。
6つの言語(中国語、アラビア語、フランス語、ヒンディー語、ベンガル語、スペイン語)におけるテストコレクションの実験。
弱教師付きターゲット言語転送は、世代ベースターゲット言語転送に対する競合性能をもたらすことが判明した。
論文 参考訳(メタデータ) (2021-09-03T17:15:38Z) - Extremely low-resource machine translation for closely related languages [0.0]
この研究は、エストニア語とフィンランド語というウラル語族の近縁言語に焦点を当てている。
多言語学習と合成コーパスにより,各言語対の翻訳品質が向上することがわかった。
転送学習と微調整は低リソースの機械翻訳に非常に効果的であり、最良の結果が得られることを示す。
論文 参考訳(メタデータ) (2021-05-27T11:27:06Z) - Continual Mixed-Language Pre-Training for Extremely Low-Resource Neural
Machine Translation [53.22775597051498]
我々は,mbart を未熟な言語に効果的に適用するための,継続的な事前学習フレームワークを提案する。
その結果,mBARTベースラインの微調整性能を一貫して改善できることが示された。
私たちのアプローチは、両方の言語が元のmBARTの事前トレーニングで見られる翻訳ペアのパフォーマンスを高めます。
論文 参考訳(メタデータ) (2021-05-09T14:49:07Z) - SJTU-NICT's Supervised and Unsupervised Neural Machine Translation
Systems for the WMT20 News Translation Task [111.91077204077817]
我々は英語・中国語・英語・ポーランド語・ドイツ語・アッパー・ソルビアンという3つの言語対の4つの翻訳指導に参加した。
言語ペアの異なる条件に基づいて、我々は多様なニューラルネットワーク翻訳(NMT)技術の実験を行った。
私たちの提出書では、主要なシステムは英語、中国語、ポーランド語、英語、ドイツ語から上セルビア語への翻訳の道順で第一位を獲得しました。
論文 参考訳(メタデータ) (2020-10-11T00:40:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。