論文の概要: On the comparability of Pre-trained Language Models
- arxiv url: http://arxiv.org/abs/2001.00781v1
- Date: Fri, 3 Jan 2020 10:53:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-14 17:19:17.037075
- Title: On the comparability of Pre-trained Language Models
- Title(参考訳): 事前学習型言語モデルの可読性について
- Authors: Matthias A{\ss}enmacher, Christian Heumann
- Abstract要約: 教師なし表現学習の最近の進歩は、NLPにおける伝達学習の概念を確立することに成功している。
より精巧なアーキテクチャは、コンテキスト情報をよりよく活用しています。
より大規模なコーパスは、自己教師型で大規模言語モデルを事前訓練するためのリソースとして使用される。
並列コンピューティングとクラウドコンピューティングの進歩により、これらのモデルを、以前確立されたモデルよりも短い時間で、同じまたは短い時間で、拡張能力でトレーニングすることが可能になった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent developments in unsupervised representation learning have successfully
established the concept of transfer learning in NLP. Mainly three forces are
driving the improvements in this area of research: More elaborated
architectures are making better use of contextual information. Instead of
simply plugging in static pre-trained representations, these are learned based
on surrounding context in end-to-end trainable models with more intelligently
designed language modelling objectives. Along with this, larger corpora are
used as resources for pre-training large language models in a self-supervised
fashion which are afterwards fine-tuned on supervised tasks. Advances in
parallel computing as well as in cloud computing, made it possible to train
these models with growing capacities in the same or even in shorter time than
previously established models. These three developments agglomerate in new
state-of-the-art (SOTA) results being revealed in a higher and higher
frequency. It is not always obvious where these improvements originate from, as
it is not possible to completely disentangle the contributions of the three
driving forces. We set ourselves to providing a clear and concise overview on
several large pre-trained language models, which achieved SOTA results in the
last two years, with respect to their use of new architectures and resources.
We want to clarify for the reader where the differences between the models are
and we furthermore attempt to gain some insight into the single contributions
of lexical/computational improvements as well as of architectural changes. We
explicitly do not intend to quantify these contributions, but rather see our
work as an overview in order to identify potential starting points for
benchmark comparisons. Furthermore, we tentatively want to point at potential
possibilities for improvement in the field of open-sourcing and reproducible
research.
- Abstract(参考訳): 教師なし表現学習の最近の進歩は、NLPにおける伝達学習の概念を確立した。
より精巧なアーキテクチャは、コンテキスト情報をよりよく活用しています。
静的事前訓練された表現を単にプラグインする代わりに、これらはよりインテリジェントに設計された言語モデリングの目的を持つエンドツーエンドのトレーニング可能なモデルにおいて、周囲のコンテキストに基づいて学習される。
これに伴い、より大きなコーパスは、後に教師付きタスクに微調整された自己教師付き方式で、大規模言語モデルを事前訓練するためのリソースとして使用される。
並列コンピューティングとクラウドコンピューティングの進歩により、従来確立されたモデルと同じ、あるいは短い時間で、これらのモデルをトレーニングすることが可能になった。
これらの3つの発展は、新しい最先端(SOTA)の結果において、より高頻度で明らかにされる。
これらの改善がどこから来たのかは必ずしも明確ではない。
私たちは、新しいアーキテクチャやリソースの使用に関して、過去2年間にSOTAの結果を達成した、いくつかの大きな事前訓練された言語モデルについて、明確で簡潔な概要を提供することにしました。
モデルの違いがどこにあるのかを明確にし、さらに、レキシカル/計算的改善とアーキテクチャの変更に対する単一の貢献について、ある程度の洞察を得ようとしています。
これらの貢献を定量化するつもりはなく、ベンチマーク比較の潜在的な出発点を特定するための概要だと考えています。
さらに,オープンソースと再現可能な研究の分野における改善の可能性についても,仮に指摘したい。
関連論文リスト
- Specialized Foundation Models Struggle to Beat Supervised Baselines [60.23386520331143]
ゲノミクス、衛星画像、時系列の3つのモードを最近のFMで調べ、それらを標準的な教師付き学習ワークフローと比較する。
最新のファンデーションモデルにマッチしたり、性能を上回るような、シンプルな教師付きモデルのトレーニングが一貫して可能であることが分かりました。
論文 参考訳(メタデータ) (2024-11-05T04:10:59Z) - Eureka: Evaluating and Understanding Large Foundation Models [23.020996995362104]
Eurekaは、シングルスコアのレポートやランキングを超えて、大規模な基盤モデルの評価を標準化するためのオープンソースのフレームワークです。
我々は、12の最先端モデルを分析し、失敗理解とモデル比較に関する詳細な洞察を提供する。
論文 参考訳(メタデータ) (2024-09-13T18:01:49Z) - Fantastic Gains and Where to Find Them: On the Existence and Prospect of
General Knowledge Transfer between Any Pretrained Model [74.62272538148245]
事前訓練されたモデルの任意のペアリングに対して、一方のモデルは他方では利用できない重要なデータコンテキストを抽出する。
このような「補的」な知識を,性能劣化を伴わずに,あるモデルから別のモデルへ伝達できるかどうかを検討する。
論文 参考訳(メタデータ) (2023-10-26T17:59:46Z) - Retrieval-Enhanced Contrastive Vision-Text Models [61.783728119255365]
そこで本研究では,メモリから取得したクロスモーダルな情報を推論時に表現することで,その埋め込みを洗練できる視覚テキストモデルを提案する。
注目すべきことに、これは凍ったCLIPの上に軽量の単層核融合トランスを用いて行うことができる。
検索強化コントラスト訓練(RECO)がCLIPの性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-06-12T15:52:02Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - Pre-Training a Graph Recurrent Network for Language Representation [34.4554387894105]
本稿では,言語モデルの事前学習のためのグラフリカレントネットワークについて考察し,各シーケンスのグラフ構造を局所的なトークンレベルの通信で構築する。
我々のモデルは、既存の注意に基づくモデルよりもコンテキスト化された特徴冗長性が少なく、より多様な出力を生成することができる。
論文 参考訳(メタデータ) (2022-09-08T14:12:15Z) - Injecting Text and Cross-lingual Supervision in Few-shot Learning from
Self-Supervised Models [33.66135770490531]
新しい言語への自己教師付き表現の伝達を改善するために,音声集合音響モデルが言語間監督を活用する方法を示す。
また、格子フリーの最大相互情報目標を用いた微調整を実現するために、ターゲット言語テキストをどのように利用できるかを示す。
論文 参考訳(メタデータ) (2021-10-10T17:33:44Z) - Unsupervised Pre-training with Structured Knowledge for Improving
Natural Language Inference [22.648536283569747]
本研究では,事前学習モデルの異なるコンポーネントにおける構造化知識を活用するモデルを提案する。
以上の結果から,提案モデルは従来のBERTモデルよりも優れた性能を示した。
論文 参考訳(メタデータ) (2021-09-08T21:28:12Z) - Top-KAST: Top-K Always Sparse Training [50.05611544535801]
トレーニングを通して一定間隔を保存するTop-KASTを提案する。
確立したImageNetベンチマークのトレーニングモデルでは,従来の作業と同等かそれ以上に動作可能であることを示す。
ImageNetの結果に加えて、言語モデリングの分野においても、我々のアプローチを実証しています。
論文 参考訳(メタデータ) (2021-06-07T11:13:05Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。