論文の概要: Alternative Input Signals Ease Transfer in Multilingual Machine
Translation
- arxiv url: http://arxiv.org/abs/2110.07804v1
- Date: Fri, 15 Oct 2021 01:56:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-18 13:16:13.507865
- Title: Alternative Input Signals Ease Transfer in Multilingual Machine
Translation
- Title(参考訳): 多言語機械翻訳における代替入力信号の伝達
- Authors: Simeng Sun, Angela Fan, James Cross, Vishrav Chaudhary, Chau Tran,
Philipp Koehn, Francisco Guzman
- Abstract要約: 我々は、異なる筆記システムを統合する代替信号でトレーニングデータを増強することで、転送の抑制に取り組む。
我々はこれらのシグナルを、言語が共通の特徴を共有している2つの言語族であるインディク語とテュルク語でテストする。
- 参考スコア(独自算出の注目度): 21.088829932208945
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent work in multilingual machine translation (MMT) has focused on the
potential of positive transfer between languages, particularly cases where
higher-resourced languages can benefit lower-resourced ones. While training an
MMT model, the supervision signals learned from one language pair can be
transferred to the other via the tokens shared by multiple source languages.
However, the transfer is inhibited when the token overlap among source
languages is small, which manifests naturally when languages use different
writing systems. In this paper, we tackle inhibited transfer by augmenting the
training data with alternative signals that unify different writing systems,
such as phonetic, romanized, and transliterated input. We test these signals on
Indic and Turkic languages, two language families where the writing systems
differ but languages still share common features. Our results indicate that a
straightforward multi-source self-ensemble -- training a model on a mixture of
various signals and ensembling the outputs of the same model fed with different
signals during inference, outperforms strong ensemble baselines by 1.3 BLEU
points on both language families. Further, we find that incorporating
alternative inputs via self-ensemble can be particularly effective when
training set is small, leading to +5 BLEU when only 5% of the total training
data is accessible. Finally, our analysis demonstrates that including
alternative signals yields more consistency and translates named entities more
accurately, which is crucial for increased factuality of automated systems.
- Abstract(参考訳): マルチリンガル機械翻訳(MMT)における最近の研究は、言語間の肯定的な移動の可能性に焦点を当てている。
MMTモデルをトレーニングしている間、ある言語ペアから学んだ監視信号は、複数のソース言語で共有されるトークンを介して、他方に転送することができる。
しかし、ソース言語間のトークン重なりが小さい場合は転送が抑制され、言語が異なる書き込みシステムを使用すると自然に現れる。
本稿では,音素,ローマ字,転写された入力などの異なる書き体系を統一した代替信号による学習データの拡張により,伝達抑制に取り組む。
我々はこれらのシグナルを、言語が共通の特徴を共有している2つの言語族であるインディク語とテュルク語でテストする。
この結果から,様々な信号の混合でモデルを訓練し,推論中に異なる信号で入力された同一モデルの出力をアンサンブルすることで,双方の言語系における1.3BLEUポイントの強いアンサンブルベースラインより優れることがわかった。
さらに、トレーニングセットが小さい場合には、自己アンサンブルによる代替入力を組み込むことが特に有効であり、トレーニングデータの5%しかアクセスできない場合、+5 BLEUとなる。
最後に, 代替信号を含めることで, より一貫性が増し, 名前付きエンティティをより正確に翻訳できることが, 自動化システムの事実性を高める上で重要であることを示した。
関連論文リスト
- Breaking the Script Barrier in Multilingual Pre-Trained Language Models with Transliteration-Based Post-Training Alignment [50.27950279695363]
転送性能は、低リソースのターゲット言語が高リソースのソース言語とは異なるスクリプトで書かれている場合、しばしば妨げられる。
本論文は,この問題に対処するために翻訳を用いた最近の研究に触発されて,翻訳に基づくポストプレトレーニングアライメント(PPA)手法を提案する。
論文 参考訳(メタデータ) (2024-06-28T08:59:24Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - Automatic Discrimination of Human and Neural Machine Translation in
Multilingual Scenarios [4.631167282648452]
我々は人間と機械の翻訳を自動で識別するタスクに取り組む。
複数言語と多言語事前学習言語モデルを考慮した多言語環境で実験を行う。
論文 参考訳(メタデータ) (2023-05-31T11:41:24Z) - Romanization-based Large-scale Adaptation of Multilingual Language
Models [124.57923286144515]
大規模多言語事前学習言語モデル (mPLMs) は,NLPにおける多言語間移動のデファクトステートとなっている。
我々は、mPLMをローマン化および非ロマン化した14の低リソース言語コーパスに適用するためのデータとパラメータ効率の戦略を多数検討し、比較した。
以上の結果から, UROMAN をベースとしたトランスリテラルは,多くの言語で高い性能を達成できることがわかった。
論文 参考訳(メタデータ) (2023-04-18T09:58:34Z) - Languages You Know Influence Those You Learn: Impact of Language
Characteristics on Multi-Lingual Text-to-Text Transfer [4.554080966463776]
マルチ言語モデル (LM) は低リソース言語での自然言語処理の実現に成功している。
このようなモデル、特にmT5は、言語間の言語的および意味的な知識をどう転送するかをよりよく理解しようとしています。
この研究の鍵となる発見は、構文、形態学、音韻学の類似性が言語間移動のよい予測因子であることである。
論文 参考訳(メタデータ) (2022-12-04T07:22:21Z) - High-resource Language-specific Training for Multilingual Neural Machine
Translation [109.31892935605192]
負の干渉を軽減するために,HLT-MT(High-Resource Language-specific Training)を用いた多言語翻訳モデルを提案する。
具体的には、まずマルチ言語モデルを高リソースペアでトレーニングし、デコーダの上部にある言語固有のモジュールを選択する。
HLT-MTは、高リソース言語から低リソース言語への知識伝達のために、利用可能なすべてのコーパスでさらに訓練されている。
論文 参考訳(メタデータ) (2022-07-11T14:33:13Z) - Bitext Mining Using Distilled Sentence Representations for Low-Resource
Languages [12.00637655338665]
私たちは、非常に低リソースの言語を研究し、50のアフリカ言語を扱っています。
我々は文エンコーダ、マイニングビットクストを訓練し、NMTシステムのトレーニングによりビットクストを検証する。
これらの言語では、文エンコーダ、ビットクストをマイニングし、NMTシステムのトレーニングによってビットクストを検証する。
論文 参考訳(メタデータ) (2022-05-25T10:53:24Z) - Cross-lingual Transfer for Speech Processing using Acoustic Language
Similarity [81.51206991542242]
言語間の移動は、このデジタル分割を橋渡しする魅力的な方法を提供する。
現在の言語間アルゴリズムは、テキストベースのタスクや音声関連タスクを低リソース言語で実現している。
本稿では,数百の言語をまたがる音響的言語間移動対を効率的に同定する言語類似性手法を提案する。
論文 参考訳(メタデータ) (2021-11-02T01:55:17Z) - Improving Zero-Shot Cross-Lingual Transfer Learning via Robust Training [45.48003947488825]
私達は2つの広く利用された強い訓練方法を研究します:反対の訓練およびランダム化された平滑化。
実験の結果,ロバストトレーニングにより,テキスト分類におけるゼロショット言語間転送が改善されることがわかった。
論文 参考訳(メタデータ) (2021-04-17T21:21:53Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。