論文の概要: Zemi: Learning Zero-Shot Semi-Parametric Language Models from Multiple
Tasks
- arxiv url: http://arxiv.org/abs/2210.00185v2
- Date: Tue, 23 May 2023 00:49:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 01:21:29.474045
- Title: Zemi: Learning Zero-Shot Semi-Parametric Language Models from Multiple
Tasks
- Title(参考訳): Zemi: 複数のタスクからゼロショットセミパラメトリック言語モデルを学ぶ
- Authors: Zhenhailong Wang, Xiaoman Pan, Dian Yu, Dong Yu, Jianshu Chen, Heng Ji
- Abstract要約: ゼロショットセミパラメトリック言語モデルである$textZemi$を紹介します。
私たちは、新しいセミパラメトリックマルチタスクによるトレーニングパラダイムで、textZemi$をトレーニングします。
具体的には、大規模タスクに依存しない未ラベルコーパスからの検索により、マルチタスクトレーニングとゼロショット評価を強化する。
- 参考スコア(独自算出の注目度): 77.90900650816046
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although large language models have achieved impressive zero-shot ability,
the huge model size generally incurs high cost. Recently, semi-parametric
language models, which augment a smaller language model with an external
retriever, have demonstrated promising language modeling capabilities. However,
it remains unclear whether such semi-parametric language models can perform
competitively well as their fully-parametric counterparts on zero-shot
generalization to downstream tasks. In this work, we introduce $\text{Zemi}$, a
zero-shot semi-parametric language model. To our best knowledge, this is the
first semi-parametric language model that can demonstrate strong zero-shot
performance on a wide range of held-out unseen tasks. We train $\text{Zemi}$
with a novel semi-parametric multitask prompted training paradigm, which shows
significant improvement compared with the parametric multitask training as
proposed by T0. Specifically, we augment the multitask training and zero-shot
evaluation with retrieval from a large-scale task-agnostic unlabeled corpus. In
order to incorporate multiple potentially noisy retrieved augmentations, we
further propose a novel $\text{augmentation fusion}$ module leveraging
perceiver resampler and gated cross-attention. Notably, our proposed
$\text{Zemi}_\text{LARGE}$ outperforms T0-3B by 16% on all seven evaluation
tasks while being 3.9x smaller in model size.
- Abstract(参考訳): 大きな言語モデルは印象的なゼロショット能力を達成したが、大きなモデルサイズは一般的に高いコストを発生させる。
近年,より小さな言語モデルを外部レトリバーで拡張するセミパラメトリック言語モデルは,有望な言語モデリング能力を実証している。
しかし、そのような半パラメトリック言語モデルが、下流タスクへのゼロショット一般化に関する完全なパラメトリック言語モデルと競合的に機能するかどうかは不明である。
本稿では,ゼロショットセミパラメトリック言語モデルである$\text{Zemi}$を紹介する。
私たちの知る限りでは、これは幅広い無意味なタスクで強いゼロショット性能を示すことができる最初の半パラメトリック言語モデルです。
我々は,T0 が提案したパラメトリックマルチタスクトレーニングと比較して大幅に改善した,新しい半パラメトリックマルチタスク誘導トレーニングパラダイムで $\text{Zemi}$ をトレーニングする。
具体的には,大規模タスク非依存コーパスからの検索により,マルチタスクトレーニングとゼロショット評価を増強する。
複数の潜在的にノイズの多い検索拡張を組み込むため、perceiver resamplerとgated cross-attentionを利用した新しい$\text{augmentation fusion}$モジュールも提案する。
特に,提案した$\text{Zemi}_\text{LARGE}$は,モデルサイズを3.9倍小さくしながら,T0-3Bを16%向上させる。
関連論文リスト
- Split and Rephrase with Large Language Models [2.499907423888049]
Split and Rephrase (SPRP) タスクは、複雑な文を短い文法文の列に分割する。
タスク上の大きな言語モデルを評価し、主要なメトリクスに基づいて、技術の現状を大幅に改善できることを示します。
論文 参考訳(メタデータ) (2023-12-18T10:16:37Z) - Contrastive Alignment of Vision to Language Through Parameter-Efficient
Transfer Learning [60.26952378997713]
コントラスト的視覚言語モデル(例えばCLIP)は、コントラスト的トレーニングを通じて視覚モデルと言語モデルの全てのパラメータを更新することによって作成される。
パラメータ更新の最小セット($7%)が、フルモデルトレーニングと同じパフォーマンスを実現可能であることを示す。
既存の知識がパラメータ効率のトレーニングにおいてより強く保存されていることを示す。
論文 参考訳(メタデータ) (2023-03-21T14:12:08Z) - Lego-MT: Learning Detachable Models for Massively Multilingual Machine
Translation [48.37939354609931]
そこで我々は,Lego-MTを効果的に分離可能なモデルとして構築する,新しい効率的なトレーニングレシピを提案する。
実験の結果、1.2BパラメータのLego-MTでは平均3.2spBLEUが得られた。
提案したトレーニングレシピは、従来のマルチウェイトレーニング方法よりも28.2$times$のスピードアップを提供する。
論文 参考訳(メタデータ) (2022-12-20T18:54:08Z) - Zero-Shot Learners for Natural Language Understanding via a Unified
Multiple Choice Perspective [26.41585967095811]
ゼロショット学習は、与えられたタスクでモデルをトレーニングすることを目的としており、追加のトレーニングなしで新しい学習タスクに対処できる。
提案手法は、ゼロショット学習を複数選択タスクに変換し、FLANなどの大規模生成モデルで一般的に使用される問題を回避する。
提案手法は,いくつかのベンチマークにおいて最先端の性能を示し,自然言語推論やテキスト分類といったタスクに対して良好な結果をもたらす。
論文 参考訳(メタデータ) (2022-10-16T17:24:06Z) - Multimodal Knowledge Alignment with Reinforcement Learning [103.68816413817372]
ESPERは言語のみのゼロショットモデルを拡張して、画像や音声のキャプションといったマルチモーダルタスクを未確認にする。
我々の重要な新規性は、強化学習を使用することで、直接監督することなく、多モーダル入力を言語モデル世代に整列させることである。
実験の結果、ESPERはベースラインと様々なゼロショットタスクの事前作業より優れていることが示された。
論文 参考訳(メタデータ) (2022-05-25T10:12:17Z) - Multitask Prompted Training Enables Zero-Shot Task Generalization [70.12770442071657]
本研究では,一般的な自然言語タスクを人間に読まれる入力形式にマッピングするシステムを開発した。
様々なタスクをカバーしたマルチタスクミックス上に,事前学習したエンコーダ・デコーダモデルを微調整する。
このモデルは、いくつかの標準データセット上で強力なゼロショット性能を達成し、しばしば16倍のサイズのモデルより優れている。
論文 参考訳(メタデータ) (2021-10-15T17:08:57Z) - Beyond English-Centric Multilingual Machine Translation [74.21727842163068]
我々は真の多言語多言語翻訳モデルを作成し、100言語のいずれかのペア間で直接翻訳できる。
大規模なマイニングによって生成された教師付きデータで、数千の言語方向をカバーするトレーニングデータセットを構築し、オープンソースにしています。
WMTのベストシングルシステムに競争力を持たせながら、非英語の方向を直接翻訳する場合、非英語モデルに焦点をあてると10 BLEU以上のゲインが得られる。
論文 参考訳(メタデータ) (2020-10-21T17:01:23Z) - Pre-training Multilingual Neural Machine Translation by Leveraging
Alignment Information [72.2412707779571]
mRASPは、汎用多言語ニューラルマシン翻訳モデルを事前訓練するためのアプローチである。
我々は,低,中,豊かな資源を含む多種多様な環境における42の翻訳方向の実験を行い,エキゾチックな言語対への変換を行った。
論文 参考訳(メタデータ) (2020-10-07T03:57:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。