論文の概要: One Model, Multiple Tasks: Pathways for Natural Language Understanding
- arxiv url: http://arxiv.org/abs/2203.03312v1
- Date: Mon, 7 Mar 2022 11:48:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-08 14:41:49.261155
- Title: One Model, Multiple Tasks: Pathways for Natural Language Understanding
- Title(参考訳): 一つのモデル、複数のタスク:自然言語理解のための経路
- Authors: Duyu Tang, Fan Zhang, Yong Dai, Cong Zhou, Shuangzhi Wu and Shuming
Shi
- Abstract要約: 本稿では,複数のタスクを同時に処理するためのPathwaysアプローチを提案する。
個々のタスクに過度に特化し、新しいタスクに拡張された時にスクラッチから学習する一般的な単一目的モデルとは異なり、我々のアプローチは既存のスキルを縫い合わせ、新しいタスクをより効果的に学習する能力で汎用的である。
- 参考スコア(独自算出の注目度): 34.58880663537492
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a Pathways approach to handle many tasks at once. Our
approach is general-purpose and sparse. Unlike prevailing single-purpose models
that overspecialize at individual tasks and learn from scratch when being
extended to new tasks, our approach is general-purpose with the ability of
stitching together existing skills to learn new tasks more effectively.
Different from traditional dense models that always activate all the model
parameters, our approach is sparsely activated: only relevant parts of the
model (like pathways through the network) are activated.
We take natural language understanding as a case study and define a set of
skills like \textit{the skill of understanding the sentiment of text} and
\textit{the skill of understanding natural language questions}. These skills
can be reused and combined to support many different tasks and situations. We
develop our system using Transformer as the backbone. For each skill, we
implement skill-specific feed-forward networks, which are activated only if the
skill is relevant to the task. An appealing feature of our model is that it not
only supports sparsely activated fine-tuning, but also allows us to pretrain
skills in the same sparse way with masked language modeling and next sentence
prediction. We call this model \textbf{SkillNet}.
We have three major findings. First, with only one model checkpoint, SkillNet
performs better than task-specific fine-tuning and two multi-task learning
baselines (i.e., dense model and Mixture-of-Experts model) on six tasks.
Second, sparsely activated pre-training further improves the overall
performance. Third, SkillNet significantly outperforms baseline systems when
being extended to new tasks.
- Abstract(参考訳): 本稿では,複数のタスクを同時に処理するためのPathwaysアプローチを提案する。
我々のアプローチは汎用的でまばらです。
個々のタスクを多用し,新たなタスクに拡張した場合にスクラッチから学習する,汎用的な単一目的モデルとは異なり,既存のスキルを縫い合わせて新しいタスクをより効果的に学ぶための汎用的なアプローチである。
すべてのモデルパラメータを常に活性化する従来の高密度モデルとは異なり、我々のアプローチはわずかに活性化され、モデルの関連する部分(ネットワークを通る経路など)だけが活性化されます。
我々は、自然言語理解を事例研究として捉え、テキストの感情を理解するスキルである『textit{the』や、自然言語の質問を理解するスキルである『textit{the』といった一連のスキルを定義する。
これらのスキルは再利用され、様々なタスクや状況をサポートするために組み合わせられる。
バックボーンとしてTransformerを用いたシステムを開発した。
それぞれのスキルに対して,そのスキルがタスクに関連する場合にのみ有効となる,スキル固有のフィードフォワードネットワークを実装した。
モデルの特徴は, 微調整を緩やかに行うだけでなく, マスク付き言語モデリングと次の文予測を併用して, スキルの訓練も行うことができる点である。
このモデルを \textbf{skillnet} と呼ぶ。
主な発見は3つある。
まず、1つのモデルチェックポイントだけで、SkillNetは6つのタスクでタスク固有の微調整と2つのマルチタスク学習ベースライン(密集モデルとMixture-of-Expertsモデル)よりパフォーマンスがよい。
第二に、わずかにアクティベートされた事前トレーニングにより、全体的なパフォーマンスがさらに向上する。
第3に、skillnetは、新しいタスクに拡張されたときにベースラインシステムを大幅に上回っている。
関連論文リスト
- LIMT: Language-Informed Multi-Task Visual World Models [6.128332310539627]
マルチタスク強化学習は、サンプルの複雑さの増加と、潜在的に矛盾するタスクの目的のため、非常に難しい。
本稿では,事前学習した言語モデルを利用して意味のあるタスク表現を抽出し,マルチタスクのビジュアルワールドモデルを学習する手法を提案する。
本結果は,世界モデルにおける言語駆動型タスク表現の利点と,より一般的なモデル自由パラダイムに対するモデルベースマルチタスク学習の明確な利点を強調した。
論文 参考訳(メタデータ) (2024-07-18T12:40:58Z) - SkillNet-X: A Multilingual Multitask Model with Sparsely Activated
Skills [51.74947795895178]
本稿では,SkillNet-Xという多言語マルチタスクモデルを提案する。
いくつかの言語固有のスキルとタスク固有のスキルを定義し、それぞれがスキルモジュールに対応する。
我々はSkillNet-Xを4言語で11の自然言語理解データセット上で評価した。
論文 参考訳(メタデータ) (2023-06-28T12:53:30Z) - Coarse-to-Fine: Hierarchical Multi-task Learning for Natural Language
Understanding [51.31622274823167]
本稿では,各タスクの下位レベルを全タスクに共有し,中間レベルを異なるグループに分割し,上位レベルを各タスクに割り当てる,粗大なパラダイムを持つ階層型フレームワークを提案する。
これにより、すべてのタスクから基本言語特性を学習し、関連するタスクのパフォーマンスを高め、無関係なタスクから負の影響を減らすことができる。
論文 参考訳(メタデータ) (2022-08-19T02:46:20Z) - One Model, Multiple Modalities: A Sparsely Activated Approach for Text,
Sound, Image, Video and Code [26.40920402395547]
本稿では,単一モデルを用いた複数モーダル情報処理に優れた手法を提案する。
我々は,テキスト,画像,音声,ビデオ,コードを含む5つのモダリティのモデルを開発した。
我々のモデルは、同じ疎活性化された方法で自己教師付き事前訓練をサポートし、その結果、異なるモーダルのパラメータがより良くなる。
論文 参考訳(メタデータ) (2022-05-12T14:39:21Z) - SkillNet-NLG: General-Purpose Natural Language Generation with a
Sparsely Activated Approach [32.79493780508332]
SkillNet-NLGは、多くの自然言語生成タスクを1つのモデルで処理するスパースアクティベートなアプローチである。
我々は中国語の自然言語生成タスクを評価する。
論文 参考訳(メタデータ) (2022-04-26T09:37:01Z) - Combining Modular Skills in Multitask Learning [149.8001096811708]
モジュラー設計は、ニューラルネットワークが様々な知識の面をアンタングルして再結合し、新しいタスクにより系統的に一般化することを奨励する。
この研究では、各タスクは(潜在的に小さな)インベントリから潜在的な離散スキルのサブセットと関連付けられていると仮定する。
ネットワークのモジュラー設計により、強化学習におけるサンプル効率が著しく向上し、教師あり学習における数ショットの一般化が図られる。
論文 参考訳(メタデータ) (2022-02-28T16:07:19Z) - Unified Multimodal Pre-training and Prompt-based Tuning for
Vision-Language Understanding and Generation [86.26522210882699]
視覚言語理解と生成のための統一型マルチモーダル事前学習を提案する。
提案したUniVLは、理解タスクと生成タスクの両方を扱うことができる。
実験の結果,同じモデルを用いた場合,理解タスクと生成タスクとの間にはトレードオフがあることが判明した。
論文 参考訳(メタデータ) (2021-12-10T14:59:06Z) - Multitask Prompted Training Enables Zero-Shot Task Generalization [70.12770442071657]
本研究では,一般的な自然言語タスクを人間に読まれる入力形式にマッピングするシステムを開発した。
様々なタスクをカバーしたマルチタスクミックス上に,事前学習したエンコーダ・デコーダモデルを微調整する。
このモデルは、いくつかの標準データセット上で強力なゼロショット性能を達成し、しばしば16倍のサイズのモデルより優れている。
論文 参考訳(メタデータ) (2021-10-15T17:08:57Z) - HyperGrid: Efficient Multi-Task Transformers with Grid-wise Decomposable
Hyper Projections [96.64246471034195]
我々は,マルチタスク学習を効果的に行う新しいアプローチであるtextscHyperGridを提案する。
本手法は,微調整とマルチタスク学習のギャップを埋めるのに役立つ。
論文 参考訳(メタデータ) (2020-07-12T02:49:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。