論文の概要: Adaptive Sparse Transformer for Multilingual Translation
- arxiv url: http://arxiv.org/abs/2104.07358v1
- Date: Thu, 15 Apr 2021 10:31:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-17 00:27:03.449328
- Title: Adaptive Sparse Transformer for Multilingual Translation
- Title(参考訳): 多言語翻訳のための適応スパース変換器
- Authors: Hongyu Gong, Xian Li, Dmitriy Genzel
- Abstract要約: 多言語モデルの既知の課題は、否定的な言語干渉です。
多言語モデリングのための適応的でスパースなアーキテクチャを提案する。
我々のモデルは、推論コストを増加させることなく、翻訳品質の点で強力なベースラインを上回る。
- 参考スコア(独自算出の注目度): 18.017674093519332
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multilingual machine translation has attracted much attention recently due to
its support of knowledge transfer among languages and the low cost of training
and deployment compared with numerous bilingual models. A known challenge of
multilingual models is the negative language interference. In order to enhance
the translation quality, deeper and wider architectures are applied to
multilingual modeling for larger model capacity, which suffers from the
increased inference cost at the same time. It has been pointed out in recent
studies that parameters shared among languages are the cause of interference
while they may also enable positive transfer. Based on these insights, we
propose an adaptive and sparse architecture for multilingual modeling, and
train the model to learn shared and language-specific parameters to improve the
positive transfer and mitigate the interference. The sparse architecture only
activates a subnetwork which preserves inference efficiency, and the adaptive
design selects different subnetworks based on the input languages. Evaluated on
multilingual translation across multiple public datasets, our model outperforms
strong baselines in terms of translation quality without increasing the
inference cost.
- Abstract(参考訳): 多言語機械翻訳は、言語間の知識伝達のサポートや、多くのバイリンガルモデルと比較して訓練や展開のコストが低く、近年多くの注目を集めている。
多言語モデルの既知の課題は、否定的言語干渉である。
翻訳品質を向上させるために、より深いより広いアーキテクチャを、より大きなモデル容量のための多言語モデリングに適用し、同時に推論コストの増大に苦しむ。
近年の研究では、言語間で共有されるパラメータが干渉の原因であり、ポジティブな伝達を可能にする可能性があることが指摘されている。
これらの知見に基づき、多言語モデリングのための適応的かつスパースなアーキテクチャを提案し、モデルに共有および言語固有のパラメータを学習させ、正の伝達を改善し、干渉を軽減するように訓練する。
スパースアーキテクチャは推論効率を維持するサブネットワークのみを活性化し、適応設計は入力言語に基づいて異なるサブネットワークを選択する。
複数の公開データセットをまたいだ多言語翻訳で評価すると, 推論コストを増加させることなく, 翻訳品質の面では, 強いベースラインを上回っている。
関連論文リスト
- Improving In-context Learning of Multilingual Generative Language Models with Cross-lingual Alignment [42.624862172666624]
本稿では,一対の翻訳文を利用する単純な言語間アライメントフレームワークを提案する。
多言語コントラスト学習を通じて、異なる言語にまたがる内部文表現を整合させる。
実験結果から,事前学習トークンが0.1文未満であっても,アライメントフレームワークは生成言語モデルの言語間相互性を大幅に向上させることが明らかとなった。
論文 参考訳(メタデータ) (2023-11-14T11:24:08Z) - On the Analysis of Cross-Lingual Prompt Tuning for Decoder-based
Multilingual Model [49.81429697921861]
多言語自己回帰モデルにおけるパラメータ効率細調整(PEFT)と言語間タスクの相互作用について検討する。
高速チューニングは、微調整よりも低リソース言語の性能向上に有効であることを示す。
論文 参考訳(メタデータ) (2023-11-14T00:43:33Z) - Data-Efficient Cross-Lingual Transfer with Language-Specific Subnetworks [16.8212280804151]
大規模多言語言語モデルは通常、そのパラメータをすべての言語で共有し、言語間タスク転送を可能にする。
本稿では,言語間パラメータ共有を制御する言語特化工法を提案する。
我々は,メタラーニング(メタラーニング,メタラーニング,メタラーニング,メタラーニング)と組み合わせて,言語間移動を改善する手法を提案する。
論文 参考訳(メタデータ) (2022-10-31T19:23:33Z) - Language-Family Adapters for Low-Resource Multilingual Neural Machine
Translation [129.99918589405675]
自己超越で訓練された大規模多言語モデルは、幅広い自然言語処理タスクにおいて最先端の結果を達成する。
マルチリンガルな微調整は低リソース言語のパフォーマンスを向上させるが、モデル全体を変更する必要があるため、極めて高価である。
言語間移動を容易にするため,mBART-50上で言語ファミリーアダプタを訓練する。
論文 参考訳(メタデータ) (2022-09-30T05:02:42Z) - Improving the Cross-Lingual Generalisation in Visual Question Answering [40.86774711775718]
多言語視覚言語事前学習モデルは、非英語データに適用した場合、言語間一般化が不十分であることを示す。
本研究は、ゼロショット言語間視覚質問応答(VQA)タスクにおいて、これらのモデルの低性能について検討する。
我々は,(1)類似性に基づく損失によるクロスエントロピー損失を増大させる言語的事前目標を導入し,トレーニング中にモデルを導くこと,(2)言語的一般化を改善し,モデルの修正を伴わずに分散を低減するタスク固有のサブネットワークを学習すること,(3)合成コードを用いたトレーニング例を強化すること,の3つの戦略を用いて言語的事前移動を改善する。
論文 参考訳(メタデータ) (2022-09-07T08:07:43Z) - High-resource Language-specific Training for Multilingual Neural Machine
Translation [109.31892935605192]
負の干渉を軽減するために,HLT-MT(High-Resource Language-specific Training)を用いた多言語翻訳モデルを提案する。
具体的には、まずマルチ言語モデルを高リソースペアでトレーニングし、デコーダの上部にある言語固有のモジュールを選択する。
HLT-MTは、高リソース言語から低リソース言語への知識伝達のために、利用可能なすべてのコーパスでさらに訓練されている。
論文 参考訳(メタデータ) (2022-07-11T14:33:13Z) - Multilingual Neural Machine Translation:Can Linguistic Hierarchies Help? [29.01386302441015]
MNMT(Multilingual Neural Machine Translation)は、複数の言語間の翻訳をサポートする単一のNMTモデルを訓練する。
MNMTモデルの性能は、様々な言語から知識を伝達することで、負の転送によって翻訳性能が低下するので、訓練で使用される言語の種類に大きく依存する。
本稿では,MNMTにおける階層的知識蒸留(HKD)手法を提案する。
論文 参考訳(メタデータ) (2021-10-15T02:31:48Z) - Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。
すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。
言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文 参考訳(メタデータ) (2021-09-01T09:32:06Z) - On Negative Interference in Multilingual Models: Findings and A
Meta-Learning Treatment [59.995385574274785]
従来の信念に反して、負の干渉は低リソース言語にも影響を及ぼすことを示す。
メタ学習アルゴリズムは、より優れた言語間変換性を得、負の干渉を軽減する。
論文 参考訳(メタデータ) (2020-10-06T20:48:58Z) - Improving Massively Multilingual Neural Machine Translation and
Zero-Shot Translation [81.7786241489002]
ニューラルネットワーク翻訳(NMT)の多言語モデルは理論的には魅力的であるが、しばしばバイリンガルモデルに劣る。
我々は,多言語NMTが言語ペアをサポートするためにより強力なモデリング能力を必要とすることを論じる。
未知のトレーニング言語ペアの翻訳を強制するために,ランダムなオンライン翻訳を提案する。
論文 参考訳(メタデータ) (2020-04-24T17:21:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。