論文の概要: What Language Model Architecture and Pretraining Objective Work Best for
Zero-Shot Generalization?
- arxiv url: http://arxiv.org/abs/2204.05832v1
- Date: Tue, 12 Apr 2022 14:19:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-13 11:40:04.220730
- Title: What Language Model Architecture and Pretraining Objective Work Best for
Zero-Shot Generalization?
- Title(参考訳): ゼロショットの一般化に最適な言語モデルアーキテクチャと事前学習は何か?
- Authors: Thomas Wang, Adam Roberts, Daniel Hesslow, Teven Le Scao, Hyung Won
Chung, Iz Beltagy, Julien Launay, Colin Raffel
- Abstract要約: 本稿では,モデル選択の大規模評価とそのゼロショット一般化への影響について述べる。
私たちは、70億以上のトークンに対して、50億以上のパラメータを持つモデルをトレーニングします。
事前学習した因果デコーダモデルを非因果デコーダモデルに効率的に適用できることが判明した。
- 参考スコア(独自算出の注目度): 50.84738303888189
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large pretrained Transformer language models have been shown to exhibit
zero-shot generalization, i.e. they can perform a wide variety of tasks that
they were not explicitly trained on. However, the architectures and pretraining
objectives used across state-of-the-art models differ significantly, and there
has been limited systematic comparison of these factors. In this work, we
present a large-scale evaluation of modeling choices and their impact on
zero-shot generalization. In particular, we focus on text-to-text models and
experiment with three model architectures (causal/non-causal decoder-only and
encoder-decoder), trained with two different pretraining objectives
(autoregressive and masked language modeling), and evaluated with and without
multitask prompted finetuning. We train models with over 5 billion parameters
for more than 170 billion tokens, thereby increasing the likelihood that our
conclusions will transfer to even larger scales. Our experiments show that
causal decoder-only models trained on an autoregressive language modeling
objective exhibit the strongest zero-shot generalization after purely
unsupervised pretraining. However, models with non-causal visibility on their
input trained with a masked language modeling objective followed by multitask
finetuning perform the best among our experiments. We therefore consider the
adaptation of pretrained models across architectures and objectives. We find
that pretrained non-causal decoder models can be adapted into performant
generative causal decoder models, using autoregressive language modeling as a
downstream task. Furthermore, we find that pretrained causal decoder models can
be efficiently adapted into non-causal decoder models, ultimately achieving
competitive performance after multitask finetuning. Code and checkpoints are
available at https://github.com/bigscience-workshop/architecture-objective.
- Abstract(参考訳): 大きな事前訓練されたトランスフォーマー言語モデルは、ゼロショット一般化、すなわち、明示的に訓練されていない様々なタスクを実行することができることが示されている。
しかしながら、最先端モデルで使用されるアーキテクチャや事前学習の目的は大きく異なり、これらの要因の体系的な比較は限られている。
本稿では,モデリング選択の大規模評価とゼロショット一般化への影響について述べる。
特に、テキストからテキストへのモデルに注目し、3つのモデルアーキテクチャ(causal/non-causal decoder-onlyとcorder-decoder)を実験し、2つの異なる事前学習目的(autoregressive and masked language modeling)でトレーニングし、マルチタスクによる微調整による評価を行った。
我々は、70億以上のトークンに対して50億以上のパラメータを持つモデルをトレーニングし、結果がさらに大きなスケールに移行する可能性を高める。
実験により,自己回帰型言語モデリング目標で学習した因果的デコーダのみのモデルが,純粋に教師なし事前学習後の最強のゼロショット一般化を示すことが示された。
しかし, マスク付き言語モデリング目標を用いて学習した入力に対して, 非因果可視性を持つモデルとマルチタスクファインタニングを併用したモデルが, 実験の中で最良である。
したがって、アーキテクチャや目的にまたがる事前訓練されたモデルの適応を考える。
自動回帰型言語モデリングを下流タスクとして用いることにより,事前学習された非コーサルデコーダモデルは,生成因果的デコーダモデルに適応できることがわかった。
さらに,事前学習した因果デコーダモデルを非因果デコーダモデルに効率よく適応させることで,マルチタスクの微調整後に競合性能を達成できることがわかった。
コードとチェックポイントはhttps://github.com/bigscience-workshop/architecture-objectiveで入手できる。
関連論文リスト
- Yi: Open Foundation Models by 01.AI [42.94680878285869]
Yiモデルファミリは、6Bおよび34B事前訓練言語モデルに基づいており、チャットモデル、200K長コンテキストモデル、深度アップスケールモデル、ビジョン言語モデルに拡張する。
私たちのベースモデルは、MMLUのような幅広いベンチマークで強力なパフォーマンスを実現し、優れたチャットモデルは、AlpacaEvalやArenaといった主要な評価プラットフォーム上で、強い人間の嗜好率を提供します。
論文 参考訳(メタデータ) (2024-03-07T16:52:49Z) - Collaborative decoding of critical tokens for boosting factuality of
large language models [57.504894664689]
微調整および整列モデルでは、命令追従と安全な生成の能力が改善されている。
世代ごとのサンプリングの一般的な実践は、幻覚の確率を増大させる。
我々は、クリティカルトークンの概念を通じて、事前訓練されたモデル内の高い事実性を活用するための協調的復号化フレームワークを導入する。
論文 参考訳(メタデータ) (2024-02-28T01:53:37Z) - StochCA: A Novel Approach for Exploiting Pretrained Models with Cross-Attention [2.66269503676104]
トランスフォーマーアーキテクチャに特有なクロスアテンション(StochCA)と呼ばれる新しい微調整手法を提案する。
この方法はトランスフォーマーの自己保持機構を変更し、微調整中に事前学習したモデルからの知識を選択的に活用する。
両領域の最先端アプローチに対するStochCAの優位性について検討した。
論文 参考訳(メタデータ) (2024-02-25T13:53:49Z) - What is the best recipe for character-level encoder-only modelling? [2.792030485253753]
本稿では,文字レベルで文脈化された表現を出力する言語理解モデルの最近の進歩をベンチマークすることを目的とする。
我々は,同一データ上で同じ設定でトレーニングされたトークンベースのモデルの性能より,最も優れたキャラクタレベルのモデルの方が優れていることを発見した。
本稿は,多言語表現のための文字レベルモデルの即興性を実証し,NLP実践者がトークンベースモデルのドロップイン代替として試すことを推奨するものである。
論文 参考訳(メタデータ) (2023-05-09T14:00:15Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - What Language Model to Train if You Have One Million GPU Hours? [54.32062236748831]
モデリングの実践の違いがゼロショット一般化に与える影響について検討する。
また、多言語モデルの性能と、英語のみとの比較についても検討する。
私たちのモデルとコードは、https://huggingface.co/bigscience.comでオープンソース化されています。
論文 参考訳(メタデータ) (2022-10-27T13:43:27Z) - Composing Ensembles of Pre-trained Models via Iterative Consensus [95.10641301155232]
本稿では,異なる事前学習モデルのアンサンブルを構成するための統一的なフレームワークを提案する。
事前学習したモデルを「ジェネレータ」あるいは「スコーラ」として使用し、クローズドループ反復コンセンサス最適化により構成する。
スコアラーのアンサンブルによって達成されたコンセンサスは、シングルスコアラーのフィードバックよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-20T18:46:31Z) - Language Models are General-Purpose Interfaces [109.45478241369655]
本稿では,様々な基礎モデルに対する汎用インタフェースとして言語モデルを提案する。
事前訓練されたエンコーダのコレクションは、様々なモダリティ(ビジョンや言語など)を知覚する
インタフェースとモジュールエンコーダを協調的に事前学習するための半因果言語モデリング手法を提案する。
論文 参考訳(メタデータ) (2022-06-13T17:34:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。