論文の概要: SkillNet-X: A Multilingual Multitask Model with Sparsely Activated
Skills
- arxiv url: http://arxiv.org/abs/2306.16176v1
- Date: Wed, 28 Jun 2023 12:53:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-29 14:16:58.545577
- Title: SkillNet-X: A Multilingual Multitask Model with Sparsely Activated
Skills
- Title(参考訳): SkillNet-X: わずかに活性化された多言語マルチタスクモデル
- Authors: Zhangyin Feng, Yong Dai, Fan Zhang, Duyu Tang, Xiaocheng Feng,
Shuangzhi Wu, Bing Qin, Yunbo Cao and Shuming Shi
- Abstract要約: 本稿では,SkillNet-Xという多言語マルチタスクモデルを提案する。
いくつかの言語固有のスキルとタスク固有のスキルを定義し、それぞれがスキルモジュールに対応する。
我々はSkillNet-Xを4言語で11の自然言語理解データセット上で評価した。
- 参考スコア(独自算出の注目度): 51.74947795895178
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traditional multitask learning methods basically can only exploit common
knowledge in task- or language-wise, which lose either cross-language or
cross-task knowledge. This paper proposes a general multilingual multitask
model, named SkillNet-X, which enables a single model to tackle many different
tasks from different languages. To this end, we define several
language-specific skills and task-specific skills, each of which corresponds to
a skill module. SkillNet-X sparsely activates parts of the skill modules which
are relevant either to the target task or the target language. Acting as
knowledge transit hubs, skill modules are capable of absorbing task-related
knowledge and language-related knowledge consecutively. Based on Transformer,
we modify the multi-head attention layer and the feed forward network layer to
accommodate skill modules. We evaluate SkillNet-X on eleven natural language
understanding datasets in four languages. Results show that SkillNet-X performs
better than task-specific baselines and two multitask learning baselines (i.e.,
dense joint model and Mixture-of-Experts model). Furthermore, skill
pre-training further improves the performance of SkillNet-X on almost all
datasets. To investigate the generalization of our model, we conduct
experiments on two new tasks and find that SkillNet-X significantly outperforms
baselines.
- Abstract(参考訳): 従来のマルチタスク学習手法は、基本的にタスクや言語に関する共通知識のみを活用でき、言語横断知識やクロスタスク知識が失われる。
本稿では,skillnet-xと呼ばれる汎用多言語マルチタスクモデルを提案する。
この目的のために、複数の言語固有のスキルとタスク固有のスキルを定義し、それぞれがスキルモジュールに対応する。
skillnet-xは、ターゲットタスクまたはターゲット言語に関連するスキルモジュールの一部をスパースに活性化する。
知識伝達ハブとして機能するスキルモジュールは、タスク関連知識と言語関連知識を連続的に吸収することができる。
トランスを基盤として,マルチヘッドアテンション層とフィードフォワードネットワーク層を変更し,スキルモジュールに対応する。
我々はSkillNet-Xを4言語で11の自然言語理解データセット上で評価した。
その結果,SkillNet-Xはタスク固有のベースラインと2つのマルチタスク学習ベースライン(密接な関節モデルとMixture-of-Expertsモデル)よりも優れた性能を示した。
さらに、スキル事前トレーニングは、ほぼすべてのデータセット上でSkillNet-Xのパフォーマンスをさらに向上させる。
モデルの一般化を検討するために,2つの新しいタスクについて実験を行い,skillnet-xがベースラインを大きく上回ることを確認した。
関連論文リスト
- FonMTL: Towards Multitask Learning for the Fon Language [1.9370453715137865]
本稿では,Fon言語のための自然言語処理におけるモデル機能向上のための,マルチタスク学習のための最初の爆発的アプローチを提案する。
我々は2つの言語モデルヘッドをエンコーダとして利用して入力の共有表現を構築し,各タスクに対して線形層ブロックを用いて分類する。
Fon の NER および POS タスクの結果は,複数言語で事前訓練された言語モデルに対して,単一タスクで微調整された言語モデルと比較して,競争力(あるいはより優れた)性能を示す。
論文 参考訳(メタデータ) (2023-08-28T03:26:21Z) - One Model, Multiple Tasks: Pathways for Natural Language Understanding [34.58880663537492]
本稿では,複数のタスクを同時に処理するためのPathwaysアプローチを提案する。
個々のタスクに過度に特化し、新しいタスクに拡張された時にスクラッチから学習する一般的な単一目的モデルとは異なり、我々のアプローチは既存のスキルを縫い合わせ、新しいタスクをより効果的に学習する能力で汎用的である。
論文 参考訳(メタデータ) (2022-03-07T11:48:09Z) - Prix-LM: Pretraining for Multilingual Knowledge Base Construction [59.02868906044296]
複数言語による知識構築と完成のための統合フレームワークである Prix-LM を提案する。
既存の多言語KBから抽出したモノリンガルトリプルとクロスリンガルリンクの2種類の知識を利用する。
複数の言語におけるリンク予測、言語間リンク、バイリンガル語彙誘導など、標準的なエンティティ関連タスクの実験は、その効果を実証している。
論文 参考訳(メタデータ) (2021-10-16T02:08:46Z) - XLM-K: Improving Cross-Lingual Language Model Pre-Training with
Multilingual Knowledge [31.765178013933134]
言語間事前学習は単言語とバイリンガルの平文コーパスを用いて大きな成功を収めた。
本稿では,事前学習に多言語知識を取り入れた言語間言語モデルXLM-Kを提案する。
論文 参考訳(メタデータ) (2021-09-26T11:46:20Z) - XTREME-R: Towards More Challenging and Nuanced Multilingual Evaluation [93.80733419450225]
本稿では,言語間移動学習の現状を解析する。
XTREMEを10種類の自然言語理解タスクからなるXTREME-Rに拡張する。
論文 参考訳(メタデータ) (2021-04-15T12:26:12Z) - Are Multilingual Models Effective in Code-Switching? [57.78477547424949]
多言語モデルの有効性を検討し,複合言語設定の能力と適応性について検討する。
この結果から,事前学習した多言語モデルでは,コードスイッチングにおける高品質な表現が必ずしも保証されないことが示唆された。
論文 参考訳(メタデータ) (2021-03-24T16:20:02Z) - Meta-Learning for Effective Multi-task and Multilingual Modelling [23.53779501937046]
タスクと言語間の相互作用を学ぶためのメタラーニング手法を提案する。
我々は、XTREME多言語ベンチマークデータセットから5つの異なるタスクと6つの異なる言語に関する実験を提示する。
論文 参考訳(メタデータ) (2021-01-25T19:30:26Z) - CoSDA-ML: Multi-Lingual Code-Switching Data Augmentation for Zero-Shot
Cross-Lingual NLP [68.2650714613869]
我々は,mBERTを微調整するための多言語コードスイッチングデータを生成するためのデータ拡張フレームワークを提案する。
既存の研究と比較すると,本手法は訓練にバイリンガル文を頼らず,複数の対象言語に対して1つの学習プロセスしか必要としない。
論文 参考訳(メタデータ) (2020-06-11T13:15:59Z) - XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating
Cross-lingual Generalization [128.37244072182506]
言語間TRansfer Evaluation of Multilinguals XTREMEは、40言語および9タスクにわたる多言語表現の言語間一般化能力を評価するためのベンチマークである。
我々は、英語でテストされたモデルは、多くのタスクにおいて人間のパフォーマンスに達するが、言語間変換されたモデルの性能にはまだ大きなギャップがあることを示した。
論文 参考訳(メタデータ) (2020-03-24T19:09:37Z) - Zero-Shot Cross-Lingual Transfer with Meta Learning [45.29398184889296]
英語以外の言語ではほとんど、あるいは全くデータがない場合に、複数の言語でのトレーニングモデルの設定を同時に検討する。
メタラーニングを用いて、この挑戦的な設定にアプローチできることが示される。
我々は、標準教師付きゼロショットのクロスランガルと、異なる自然言語理解タスクのための数ショットのクロスランガル設定を用いて実験を行った。
論文 参考訳(メタデータ) (2020-03-05T16:07:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。