論文の概要: Machine-Created Universal Language for Cross-lingual Transfer
- arxiv url: http://arxiv.org/abs/2305.13071v2
- Date: Sun, 17 Dec 2023 03:20:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-19 20:55:08.585676
- Title: Machine-Created Universal Language for Cross-lingual Transfer
- Title(参考訳): 言語間移動のための機械翻訳ユニバーサル言語
- Authors: Yaobo Liang, Quanzhi Zhu, Junhe Zhao and Nan Duan
- Abstract要約: 代替中間言語として,MUL(Machine-created Universal Language)を提案する。
MULは、MUL翻訳者に対する普遍的な語彙と自然言語を形成する独立したシンボルの集合からなる。
MULは、様々な言語から共有される概念を単一の普遍語に統一し、言語間の移動を強化する。
- 参考スコア(独自算出の注目度): 73.44138687502294
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There are two primary approaches to addressing cross-lingual transfer:
multilingual pre-training, which implicitly aligns the hidden representations
of various languages, and translate-test, which explicitly translates different
languages into an intermediate language, such as English. Translate-test offers
better interpretability compared to multilingual pre-training. However, it has
lower performance than multilingual pre-training(Conneau and Lample, 2019;
Conneau et al, 2020) and struggles with word-level tasks due to translation
altering word order. As a result, we propose a new Machine-created Universal
Language (MUL) as an alternative intermediate language. MUL comprises a set of
discrete symbols forming a universal vocabulary and a natural language to MUL
translator for converting multiple natural languages to MUL. MUL unifies shared
concepts from various languages into a single universal word, enhancing
cross-language transfer. Additionally, MUL retains language-specific words and
word order, allowing the model to be easily applied to word-level tasks. Our
experiments demonstrate that translating into MUL yields improved performance
compared to multilingual pre-training, and our analysis indicates that MUL
possesses strong interpretability. The code is at:
https://github.com/microsoft/Unicoder/tree/master/MCUL.
- Abstract(参考訳): 言語間移動に対処する主なアプローチは、多言語事前学習(英語版)と、様々な言語の隠された表現を暗黙的に調整する翻訳テスト(英語版)である。
Translate-testは、多言語事前学習よりも解釈性が高い。
しかし、多言語事前学習(Conneau and Lample, 2019; Conneau et al, 2020)よりもパフォーマンスが低く、単語順の変換による単語レベルのタスクに苦労している。
その結果、代替中間言語として新たな機械生成ユニバーサル言語(mul)を提案する。
MULは、複数の自然言語をMULに変換するためのMULトランスレータに、普遍的な語彙と自然言語を形成する独立したシンボルからなる。
mulは、様々な言語からの共有概念を単一の普遍語に統一し、言語間の転送を促進する。
さらに、MULは言語固有の単語と単語の順序を保持しており、モデルが単語レベルのタスクに容易に適用できる。
実験により,MULへの翻訳は多言語事前学習と比較して性能が向上し,MULは高い解釈性を有することが示された。
コードは以下の通り:https://github.com/microsoft/Unicoder/tree/master/MCUL。
関連論文リスト
- m3P: Towards Multimodal Multilingual Translation with Multimodal Prompt [39.2728779674405]
マルチモーダル多言語ニューラルマシン翻訳(m3P)を導くためのマルチモーダルプロンプトを利用するフレームワークを提案する。
本手法は, 中心言語としてのイメージを考慮し, 異なる言語の表現距離を最小化することを目的とする。
実験の結果,m3Pは従来のテキストのみのベースラインや多言語マルチモーダルメソッドよりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2024-03-26T10:04:24Z) - Romanization-based Large-scale Adaptation of Multilingual Language
Models [124.57923286144515]
大規模多言語事前学習言語モデル (mPLMs) は,NLPにおける多言語間移動のデファクトステートとなっている。
我々は、mPLMをローマン化および非ロマン化した14の低リソース言語コーパスに適用するためのデータとパラメータ効率の戦略を多数検討し、比較した。
以上の結果から, UROMAN をベースとしたトランスリテラルは,多くの言語で高い性能を達成できることがわかった。
論文 参考訳(メタデータ) (2023-04-18T09:58:34Z) - LVP-M3: Language-aware Visual Prompt for Multilingual Multimodal Machine
Translation [94.33019040320507]
マルチモーダル機械翻訳(MMT)は、視覚的特徴を持つテキストのみの翻訳を強化することに焦点を当てている。
最近の進歩は、各言語ペアごとに別々のモデルをトレーニングすることに苦慮している。
7つの言語をカバーする2つのMultilingual MMTベンチマークデータセットを確立することで,Multilingual MMTタスクを提案する。
論文 参考訳(メタデータ) (2022-10-19T12:21:39Z) - Syntax-augmented Multilingual BERT for Cross-lingual Transfer [37.99210035238424]
この研究は、言語構文とトレーニングmBERTを明示的に提供することが、言語間転送に役立つことを示している。
実験の結果,mBERTの構文拡張は,一般的なベンチマーク上での言語間移動を改善することがわかった。
論文 参考訳(メタデータ) (2021-06-03T21:12:50Z) - VECO: Variable and Flexible Cross-lingual Pre-training for Language
Understanding and Generation [77.82373082024934]
我々はTransformerエンコーダにクロスアテンションモジュールを挿入し、言語間の相互依存を明確に構築する。
独自の言語でコンテキストにのみ条件付けされたマスク付き単語の予測の退化を効果的に回避することができる。
提案した言語間モデルでは,XTREMEベンチマークのさまざまな言語間理解タスクに対して,最先端の新たな結果が提供される。
論文 参考訳(メタデータ) (2020-10-30T03:41:38Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z) - Learning to Scale Multilingual Representations for Vision-Language Tasks [51.27839182889422]
SMALRの有効性は、これまでビジョン言語タスクでサポートされた2倍以上の10の多言語で実証されている。
単語の埋め込み手法と比較して,訓練パラメータの1/5以下で,複数言語による画像文検索と先行作業の3~4%の性能評価を行った。
論文 参考訳(メタデータ) (2020-04-09T01:03:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。