論文の概要: Unifying Language Learning Paradigms
- arxiv url: http://arxiv.org/abs/2205.05131v1
- Date: Tue, 10 May 2022 19:32:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-12 18:51:20.964005
- Title: Unifying Language Learning Paradigms
- Title(参考訳): 言語学習パラダイムの統一
- Authors: Yi Tay, Mostafa Dehghani, Vinh Q. Tran, Xavier Garcia, Dara Bahri, Tal
Schuster, Huaixiu Steven Zheng, Neil Houlsby, Donald Metzler
- Abstract要約: データセットやセットアップ全体にわたって普遍的に有効である事前学習モデルのための統一的なフレームワークを提案する。
本研究では, 事前学習対象を相互に配置し, 異なる対象間の補間を効果的に行う方法を示す。
また,テキスト内学習において,ゼロショットSuperGLUEで175B GPT-3,ワンショット要約でT5-XXLの性能を3倍に向上させた。
- 参考スコア(独自算出の注目度): 96.35981503087567
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing pre-trained models are generally geared towards a particular class
of problems. To date, there seems to be still no consensus on what the right
architecture and pre-training setup should be. This paper presents a unified
framework for pre-training models that are universally effective across
datasets and setups. We begin by disentangling architectural archetypes with
pre-training objectives -- two concepts that are commonly conflated. Next, we
present a generalized and unified perspective for self-supervision in NLP and
show how different pre-training objectives can be cast as one another and how
interpolating between different objectives can be effective. We then propose
Mixture-of-Denoisers (MoD), a pre-training objective that combines diverse
pre-training paradigms together. We furthermore introduce a notion of mode
switching, wherein downstream fine-tuning is associated with specific
pre-training schemes. We conduct extensive ablative experiments to compare
multiple pre-training objectives and find that our method pushes the
Pareto-frontier by outperforming T5 and/or GPT-like models across multiple
diverse setups. Finally, by scaling our model up to 20B parameters, we achieve
SOTA performance on 50 well-established supervised NLP tasks ranging from
language generation (with automated and human evaluation), language
understanding, text classification, question answering, commonsense reasoning,
long text reasoning, structured knowledge grounding and information retrieval.
Our model also achieve strong results at in-context learning, outperforming
175B GPT-3 on zero-shot SuperGLUE and tripling the performance of T5-XXL on
one-shot summarization. We release Flax-based T5X model checkpoints for the 20B
model at
\url{https://github.com/google-research/google-research/tree/master/ul2}.
- Abstract(参考訳): 既存の事前訓練されたモデルは、一般に特定の種類の問題に向けられている。
今のところ、適切なアーキテクチャと事前トレーニングのセットアップについて、まだ合意が得られていないようだ。
本稿では,データセットやセットアップに共通して有効である事前学習モデルの統一フレームワークを提案する。
まず、トレーニング済みの目標 -- 一般的に混ざり合った2つの概念 -- でアーキテクチャのアーキタイプを切り離すことから始めます。
次に、NLPにおける自己超越に対する一般化された統一的な視点を示し、異なる事前学習対象が相互にキャスト可能であること、異なる目的間の補間がいかに効果的であるかを示す。
次に,多様な事前学習パラダイムを組み合わせる事前学習目標であるmixed-of-denoisers (mod)を提案する。
さらに、下流の微調整が特定の事前学習方式と関連づけられるモード切替の概念も導入する。
我々は,複数の事前学習目標を比較し,多種多様な設定でt5およびgpt様モデルを上回ることで,pareto-frontierを押し上げる方法を見出した。
最後に,最大20bのパラメータをスケールすることで,言語生成,言語理解,テキスト分類,質問応答,コモンセンス推論,長文推論,構造化知識基盤化,情報検索など,50の確立されたnlpタスクでsoma性能を実現する。
また,テキスト内学習において,ゼロショットSuperGLUEで175B GPT-3を上回り,ワンショット要約でT5-XXLの性能を3倍に向上させた。
我々は 20b モデルの flax ベースの t5x モデルチェックポイントを \url{https://github.com/google-research/google-research/tree/master/ul2} でリリースします。
関連論文リスト
- The Fine Line: Navigating Large Language Model Pretraining with Down-streaming Capability Analysis [27.310894780313618]
本稿では,様々な事前学習中間点におけるモデル能力の総合的な比較を行う。
特定のダウンストリームメトリクスが、異なるサイズのモデルにまたがる同様のトレーニングダイナミクスを示すことを確認します。
コアの発見に加えて、AmberとOpenLLaMAを再現し、中間チェックポイントをリリースしました。
論文 参考訳(メタデータ) (2024-04-01T16:00:01Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - Composing Ensembles of Pre-trained Models via Iterative Consensus [95.10641301155232]
本稿では,異なる事前学習モデルのアンサンブルを構成するための統一的なフレームワークを提案する。
事前学習したモデルを「ジェネレータ」あるいは「スコーラ」として使用し、クローズドループ反復コンセンサス最適化により構成する。
スコアラーのアンサンブルによって達成されたコンセンサスは、シングルスコアラーのフィードバックよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-20T18:46:31Z) - Plex: Towards Reliability using Pretrained Large Model Extensions [69.13326436826227]
我々は,視覚と言語モダリティのための事前訓練された大規模モデル拡張であるViT-PlexとT5-Plexを開発した。
Plexは信頼性タスク間の最先端性を大幅に改善し、従来のプロトコルを単純化する。
最大1Bパラメータまでのモデルサイズに対するスケーリング効果と,最大4B例までのデータセットサイズを事前トレーニングした。
論文 参考訳(メタデータ) (2022-07-15T11:39:37Z) - On the Role of Bidirectionality in Language Model Pre-Training [85.14614350372004]
本研究では,次のトークン予測,テキスト入力,ゼロショットプライミング,微調整における双方向性の役割について検討する。
最大6.7Bのパラメータを持つモデルをトレーニングし、スケールで一貫性のある相違点を見つけます。
論文 参考訳(メタデータ) (2022-05-24T02:25:05Z) - Life after BERT: What do Other Muppets Understand about Language? [7.896970044689526]
OLMpicsベンチマークと心理学的探索データセットを29種類のモデルに使用しています。
我々は,自己回帰モデルにoLMpicsゼロショット設定を適用し,異なるサイズのGPTネットワークを評価する。
論文 参考訳(メタデータ) (2022-05-21T23:57:17Z) - DSEE: Dually Sparsity-embedded Efficient Tuning of Pre-trained Language
Models [152.29364079385635]
事前訓練されたモデルが大きくなればなるほど、微調整のプロセスは時間がかかり、計算コストがかかる可能性がある。
本稿では,重み更新と最終モデルの重み付けに先立って,疎度を活用することで,資源・パラメータ効率の微調整を行うフレームワークを提案する。
提案するフレームワークは,Dually Sparsity-Embeded Efficient Tuning (DSEE)と呼ばれ,パラメータ効率のよい微調整とリソース効率の推論という2つの重要な目標を達成することを目的としている。
論文 参考訳(メタデータ) (2021-10-30T03:29:47Z) - Deep Ensembles for Low-Data Transfer Learning [21.578470914935938]
我々は、事前訓練されたモデルからアンサンブルを作成する様々な方法を研究する。
プレトレーニング自体が多様性の優れた源であることが示される。
本稿では,任意の下流データセットに対して,事前学習したモデルのサブセットを効率的に同定する実用的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-10-14T07:59:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。