論文の概要: Life after BERT: What do Other Muppets Understand about Language?
- arxiv url: http://arxiv.org/abs/2205.10696v1
- Date: Sat, 21 May 2022 23:57:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-30 07:55:01.385717
- Title: Life after BERT: What do Other Muppets Understand about Language?
- Title(参考訳): life after bert: 他のマペットは言語について何を理解していますか?
- Authors: Vladislav Lialin, Kevin Zhao, Namrata Shivagunde, Anna Rumshisky
- Abstract要約: OLMpicsベンチマークと心理学的探索データセットを29種類のモデルに使用しています。
我々は,自己回帰モデルにoLMpicsゼロショット設定を適用し,異なるサイズのGPTネットワークを評価する。
- 参考スコア(独自算出の注目度): 7.896970044689526
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing pre-trained transformer analysis works usually focus only on one or
two model families at a time, overlooking the variability of the architecture
and pre-training objectives. In our work, we utilize the oLMpics benchmark and
psycholinguistic probing datasets for a diverse set of 29 models including T5,
BART, and ALBERT. Additionally, we adapt the oLMpics zero-shot setup for
autoregressive models and evaluate GPT networks of different sizes. Our
findings show that none of these models can resolve compositional questions in
a zero-shot fashion, suggesting that this skill is not learnable using existing
pre-training objectives. Furthermore, we find that global model decisions such
as architecture, directionality, size of the dataset, and pre-training
objective are not predictive of a model's linguistic capabilities.
- Abstract(参考訳): 既存の事前学習されたトランスフォーマー分析は、通常、1つまたは2つのモデルファミリにのみ焦点を合わせ、アーキテクチャの変動性と事前学習目標を見渡す。
本研究では,t5,bart,albertなど29種類のモデルに対して,olmpicsベンチマークと精神言語学的プロビングデータセットを用いた。
さらに,OLMpicsゼロショット設定を自己回帰モデルに適用し,異なるサイズのGPTネットワークを評価する。
以上の結果から,これらのモデルがゼロショット方式で構成問題を解けないことが示唆され,既存の事前学習目標を用いて学習できないことが示唆された。
さらに、アーキテクチャ、方向性、データセットのサイズ、事前学習対象といったグローバルなモデル決定は、モデルの言語能力の予測にはならないことがわかった。
関連論文リスト
- What matters when building vision-language models? [52.8539131958858]
我々は、80億のパラメータを持つ効率的な基礎的視覚言語モデルであるIdefics2を開発した。
Idefics2は、様々なマルチモーダルベンチマークで、そのサイズカテゴリ内で最先端のパフォーマンスを達成する。
トレーニング用に作成されたデータセットとともに、モデル(ベース、指示、チャット)をリリースします。
論文 参考訳(メタデータ) (2024-05-03T17:00:00Z) - PARADISE: Evaluating Implicit Planning Skills of Language Models with Procedural Warnings and Tips Dataset [0.0]
PARADISE は,wikiHow をベースとした実践的な手続きテキスト上で,Q&A 形式を用いた帰納的推論タスクである。
計画の暗黙的な知識を与えられた目標からのみ推論するモデルの能力をテストすることを目的として、中間的なステップを除く、目標に直接関連した警告およびヒント推論タスクを含む。
我々の実験は、微調整言語モデルとゼロショットプロンプトを利用して、ほとんどのシナリオにおいて、大規模言語モデルに対するタスク固有小モデルの有効性を明らかにした。
論文 参考訳(メタデータ) (2024-03-05T18:01:59Z) - What Language Model to Train if You Have One Million GPU Hours? [54.32062236748831]
モデリングの実践の違いがゼロショット一般化に与える影響について検討する。
また、多言語モデルの性能と、英語のみとの比較についても検討する。
私たちのモデルとコードは、https://huggingface.co/bigscience.comでオープンソース化されています。
論文 参考訳(メタデータ) (2022-10-27T13:43:27Z) - Composing Ensembles of Pre-trained Models via Iterative Consensus [95.10641301155232]
本稿では,異なる事前学習モデルのアンサンブルを構成するための統一的なフレームワークを提案する。
事前学習したモデルを「ジェネレータ」あるいは「スコーラ」として使用し、クローズドループ反復コンセンサス最適化により構成する。
スコアラーのアンサンブルによって達成されたコンセンサスは、シングルスコアラーのフィードバックよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-20T18:46:31Z) - Synthetic Model Combination: An Instance-wise Approach to Unsupervised
Ensemble Learning [92.89846887298852]
ラベル付きデータのトレーニングセットから学ぶ機会のない、新しいテストデータに対する予測を検討する。
専門家モデルのセットと予測へのアクセスと、トレーニングに使用するデータセットに関する制限された情報を提供すること。
論文 参考訳(メタデータ) (2022-10-11T10:20:31Z) - Unifying Language Learning Paradigms [96.35981503087567]
データセットやセットアップ全体にわたって普遍的に有効である事前学習モデルのための統一的なフレームワークを提案する。
本研究では, 事前学習対象を相互に配置し, 異なる対象間の補間を効果的に行う方法を示す。
また,テキスト内学習において,ゼロショットSuperGLUEで175B GPT-3,ワンショット要約でT5-XXLの性能を3倍に向上させた。
論文 参考訳(メタデータ) (2022-05-10T19:32:20Z) - What Language Model Architecture and Pretraining Objective Work Best for
Zero-Shot Generalization? [50.84738303888189]
本稿では,モデル選択の大規模評価とそのゼロショット一般化への影響について述べる。
私たちは、70億以上のトークンに対して、50億以上のパラメータを持つモデルをトレーニングします。
事前学習した因果デコーダモデルを非因果デコーダモデルに効率的に適用できることが判明した。
論文 参考訳(メタデータ) (2022-04-12T14:19:49Z) - Vision Models Are More Robust And Fair When Pretrained On Uncurated
Images Without Supervision [38.22842778742829]
差別的な自己教師型学習は、インターネット画像の任意のランダムなグループでのトレーニングモデルを可能にする。
データ前処理や事前の仮定なしで、何十億ものランダムなイメージでモデルをトレーニングします。
フェアネス、分布シフト、地理的多様性、微粒化認識、画像コピー検出、および多くの画像分類データセットを含む50以上のベンチマークにおいて、我々のモデル性能を広範囲に研究し、検証した。
論文 参考訳(メタデータ) (2022-02-16T22:26:47Z) - A Comparative Study of Transformer-Based Language Models on Extractive
Question Answering [0.5079811885340514]
事前訓練された言語モデルをトレーニングし、複数の質問応答データセットでそれらを微調整する。
F1スコアを基準として、RoBERTaとBARTが事前トレーニングされたモデルは、すべてのデータセットで最高のパフォーマンスを発揮します。
論文 参考訳(メタデータ) (2021-10-07T02:23:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。