論文の概要: Parameter Differentiation based Multilingual Neural Machine Translation
- arxiv url: http://arxiv.org/abs/2112.13619v1
- Date: Mon, 27 Dec 2021 11:41:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-28 16:07:51.852137
- Title: Parameter Differentiation based Multilingual Neural Machine Translation
- Title(参考訳): パラメータ微分に基づく多言語ニューラルマシン翻訳
- Authors: Qian Wang and Jiajun Zhang
- Abstract要約: 多言語ニューラルマシン翻訳(MNMT)は、単一のモデルで複数の言語を翻訳することを目的としている。
どのパラメーターを共有すべきか、どのパラメーターをタスク特化する必要があるのかは、まだ明らかな疑問である。
本稿では,どのパラメータを言語固有のものにするかをモデルが決定できる新しいパラメータ微分法を提案する。
- 参考スコア(独自算出の注目度): 37.16691633466614
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multilingual neural machine translation (MNMT) aims to translate multiple
languages with a single model and has been proved successful thanks to
effective knowledge transfer among different languages with shared parameters.
However, it is still an open question which parameters should be shared and
which ones need to be task-specific. Currently, the common practice is to
heuristically design or search language-specific modules, which is difficult to
find the optimal configuration. In this paper, we propose a novel parameter
differentiation based method that allows the model to determine which
parameters should be language-specific during training. Inspired by cellular
differentiation, each shared parameter in our method can dynamically
differentiate into more specialized types. We further define the
differentiation criterion as inter-task gradient similarity. Therefore,
parameters with conflicting inter-task gradients are more likely to be
language-specific. Extensive experiments on multilingual datasets have
demonstrated that our method significantly outperforms various strong baselines
with different parameter sharing configurations. Further analyses reveal that
the parameter sharing configuration obtained by our method correlates well with
the linguistic proximities.
- Abstract(参考訳): MNMT(Multilingual Neural Machine Translation)は、複数の言語を単一のモデルで翻訳することを目的としており、共通のパラメータを持つ異なる言語間で効果的な知識伝達が成功している。
しかし、どのパラメータを共有すべきか、どのパラメータをタスク固有にする必要があるのかはまだ不明だ。
現在、言語固有のモジュールをヒューリスティックに設計または検索することが一般的であり、最適な構成を見つけるのは難しい。
本稿では,学習中にどのパラメータが言語固有であるべきかをモデルが決定できる,パラメータ分化に基づく新しい手法を提案する。
細胞分化にインスパイアされた本手法の共有パラメータは,動的により特殊な型に分化することができる。
さらに、微分基準をタスク間の勾配類似性として定義する。
したがって、タスク間の勾配が相反するパラメータは言語固有のものが多い。
多言語データセットに対する大規模な実験により,パラメータ共有構成の異なる強力なベースラインを著しく上回ることを示した。
さらに分析した結果,本手法で得られたパラメータ共有構成は,言語的近さとよく相関していることがわかった。
関連論文リスト
- Linguistic Fingerprint in Transformer Models: How Language Variation Influences Parameter Selection in Irony Detection [1.5807079236265718]
本研究の目的は、異なる英語のバリエーションが、皮肉検出のためのトランスフォーマーベースモデルにどのように影響するかを検討することである。
以上の結果から, 言語的差異が強い言語的差異と, より大きな相違点を示す言語的差異との類似性が示唆された。
本研究は、同一言語の異なる変種に基づいて訓練されたモデル間の構造的類似点と、これらのニュアンスを捉える際のパラメータ値の重要な役割を強調した。
論文 参考訳(メタデータ) (2024-06-04T14:09:36Z) - Multilingual Few-Shot Learning via Language Model Retrieval [18.465566186549072]
トランスフォーマーベースの言語モデルは、数ショットのインコンテキスト学習において顕著な成功を収めた。
本研究は,意味論的に類似したショットサンプルを検索し,コンテキストとして利用する研究である。
提案手法を,意図検出,質問分類,感情分析,話題分類に関連する5つの自然言語理解データセット上で評価した。
論文 参考訳(メタデータ) (2023-06-19T14:27:21Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - Learning Visual Representation from Modality-Shared Contrastive
Language-Image Pre-training [88.80694147730883]
本稿では,多種多様なモダリティ共有コントラスト言語-画像事前学習(MS-CLIP)フレームワークについて検討する。
学習条件下では、視覚と言語信号のためのほとんど統一されたエンコーダが、より多くのパラメータを分離する他のすべてのバリエーションより優れていることが観察された。
我々のアプローチは、24の下流視覚タスクのコレクションに基づいて、線形探索においてバニラCLIPを1.6ポイント上回ります。
論文 参考訳(メタデータ) (2022-07-26T05:19:16Z) - Towards a Unified View of Parameter-Efficient Transfer Learning [108.94786930869473]
下流タスクにおける大規模事前学習言語モデルの微調整は、NLPにおけるデファクト学習パラダイムとなっている。
近年の研究では,少数の(外部)パラメータのみを微調整するだけで高い性能が得られるパラメータ効率の伝達学習法が提案されている。
我々は、最先端のパラメータ効率変換学習手法の設計を分解し、それらの相互接続を確立する統一的なフレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-08T20:22:26Z) - Are Multilingual Models Effective in Code-Switching? [57.78477547424949]
多言語モデルの有効性を検討し,複合言語設定の能力と適応性について検討する。
この結果から,事前学習した多言語モデルでは,コードスイッチングにおける高品質な表現が必ずしも保証されないことが示唆された。
論文 参考訳(メタデータ) (2021-03-24T16:20:02Z) - Hierarchical Transformer for Multilingual Machine Translation [3.441021278275805]
多言語機械翻訳モデルにおけるパラメータ共有戦略の選択は、パラメータ空間の使用方法を決定する。
異なる言語間の関連性の程度を示す言語木に触発され、多言語機械翻訳におけるパラメータ共有に対する新しい一般的なアプローチが最近提案された。
注意深く選択されたトレーニング戦略の場合、階層的アーキテクチャは、パラメータの完全な共有により、バイリンガルモデルや多言語モデルを上回ることができる。
論文 参考訳(メタデータ) (2021-03-05T10:51:47Z) - Gradient Vaccine: Investigating and Improving Multi-task Optimization in
Massively Multilingual Models [63.92643612630657]
本稿では、損失関数幾何学のレンズを通して多言語最適化のブラックボックスを覗き込もうとする。
最適化軌道に沿って測定された勾配類似性は重要な信号であり、言語近接とよく相関している。
そこで我々はGradient Vaccineというシンプルでスケーラブルな最適化手法を考案した。
論文 参考訳(メタデータ) (2020-10-12T17:26:34Z) - UDapter: Language Adaptation for Truly Universal Dependency Parsing [6.346772579930929]
言語間干渉と抑制されたモデルキャパシティは、多言語依存解析の主要な障害である。
本稿では,コンテキストパラメータ生成とアダプタモジュールに基づく多言語タスク適応手法を提案する。
その結果、UDapterは、高リソースと低リソース(ゼロショット)両方の言語で、強いモノリンガルと多言語ベースラインを上回ります。
論文 参考訳(メタデータ) (2020-04-29T16:52:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。