論文の概要: Masked ELMo: An evolution of ELMo towards fully contextual RNN language
models
- arxiv url: http://arxiv.org/abs/2010.04302v1
- Date: Thu, 8 Oct 2020 23:58:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-09 11:13:58.554444
- Title: Masked ELMo: An evolution of ELMo towards fully contextual RNN language
models
- Title(参考訳): Masked ELMo:完全文脈RNN言語モデルへのELMoの進化
- Authors: Gregory Senay and Emmanuelle Salin
- Abstract要約: Masked ELMoは、言語モデル事前トレーニングのための新しいRNNベースのモデルであり、ELMo言語モデルから進化した。
これを実現するために、BERTと同じMasked言語モデルを用いています。
GLUEベンチマークで同一プロトコル内のELMoと比較し,Masked ELMoの評価を行った。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents Masked ELMo, a new RNN-based model for language model
pre-training, evolved from the ELMo language model. Contrary to ELMo which only
uses independent left-to-right and right-to-left contexts, Masked ELMo learns
fully bidirectional word representations. To achieve this, we use the same
Masked language model objective as BERT. Additionally, thanks to optimizations
on the LSTM neuron, the integration of mask accumulation and bidirectional
truncated backpropagation through time, we have increased the training speed of
the model substantially. All these improvements make it possible to pre-train a
better language model than ELMo while maintaining a low computational cost. We
evaluate Masked ELMo by comparing it to ELMo within the same protocol on the
GLUE benchmark, where our model outperforms significantly ELMo and is
competitive with transformer approaches.
- Abstract(参考訳): 本稿では,言語モデル事前学習のための新しいRNNモデルであるMasked ELMoについて述べる。
Masked ELMoは、独立した左右コンテキストのみを使用するELMoとは対照的に、完全に双方向な単語表現を学ぶ。
これを実現するために、BERTと同じMasked言語モデルを使用する。
さらに、LSTMニューロンの最適化、マスク蓄積と双方向の切り離されたバックプロパゲーションの統合により、モデルのトレーニング速度が大幅に向上した。
これらの改善により、低計算コストを維持しながらELMoよりも優れた言語モデルを事前訓練することが可能になった。
私たちは、このモデルがelmoを大幅に上回っており、トランスフォーマーアプローチと競合する、glueベンチマークの同じプロトコル内のelmoと比較することで、マスクされたelmoを評価します。
関連論文リスト
- LLaVA-MoD: Making LLaVA Tiny via MoE Knowledge Distillation [41.05687297326706]
LLaVA-MoDは、小規模マルチモーダル言語モデルの効率的なトレーニングを可能にするために設計されたフレームワークである。
スパースミキサーアーキテクチャを言語モデルに統合することにより、s-MLLMのネットワーク構造を最適化する。
また,包括的知識移動を確保するために,先進的な知識移動戦略を提案する。
論文 参考訳(メタデータ) (2024-08-28T15:52:23Z) - LaDiMo: Layer-wise Distillation Inspired MoEfier [1.6199400106794555]
本稿では,Transformerベースの非MoEモデルを最小限のトレーニングコストでMoEモデルに変換する新しいアルゴリズムLaDiMoを提案する。
100Kトークンのみを用いてLLaMA2-7BモデルをMoEモデルに変換することにより,本手法の有効性を示す。
論文 参考訳(メタデータ) (2024-08-08T07:37:26Z) - ML-SUPERB 2.0: Benchmarking Multilingual Speech Models Across Modeling Constraints, Languages, and Datasets [106.7760874400261]
本稿では、事前訓練されたSSLと教師付き音声モデルを評価するための新しいベンチマークであるML-SUPERB2.0を提案する。
ML-SUPERBのセットアップよりも性能が向上するが、性能は下流モデル設計に依存している。
また、言語とデータセットのパフォーマンスに大きな違いがあることから、よりターゲットを絞ったアプローチの必要性も示唆されている。
論文 参考訳(メタデータ) (2024-06-12T21:01:26Z) - Simple and Effective Masked Diffusion Language Models [48.68198363304619]
単純なマスク付き離散拡散は以前考えられていたよりも性能が高いことを示す。
私たちの目標はシンプルなフォーム -- 古典的なマスキング言語モデリング損失の混合です。
言語モデリングベンチマークでは、現代のエンジニアリングプラクティスで訓練された様々なマスク付き拡散モデルが、新しい最先端技術を実現している。
論文 参考訳(メタデータ) (2024-06-11T17:51:40Z) - FiLM: Fill-in Language Models for Any-Order Generation [71.42044325886194]
Fill-in Language Model (FiLM) は、特定の生成順序に固執することなく任意の位置で柔軟な生成を可能にする新しい言語モデリング手法である。
推論中、FiLMは欠落したフレーズ、文、段落をシームレスに挿入できる。
FiLMは、再構成されたテキストセグメントでトレーニングされた左から右への言語モデルに依存する既存のインフィル手法よりも優れています。
論文 参考訳(メタデータ) (2023-10-15T19:37:39Z) - Exploring Energy-based Language Models with Different Architectures and
Training Methods for Speech Recognition [23.970716487502273]
エネルギーベース言語モデル(ELM)は、自然文の非正規化分布をパラメータ化する。
本稿では,エネルギ関数の異なるアーキテクチャと異なるトレーニング手法について検討し,音声認識におけるEMMの能力について検討する。
論文 参考訳(メタデータ) (2023-05-22T03:28:48Z) - ELMER: A Non-Autoregressive Pre-trained Language Model for Efficient and
Effective Text Generation [97.64625999380425]
事前学習言語モデル(PLM)のアプローチによるテキスト生成タスクについて検討する。
早期出口技術を活用することで、ELMERは予測信頼度に応じて異なるレイヤでのトークン生成を可能にする。
3つのテキスト生成タスクの実験では、EMMERはNARモデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-24T14:46:47Z) - METRO: Efficient Denoising Pretraining of Large Scale Autoencoding
Language Models with Model Generated Signals [151.3601429216877]
本稿では,補助モデルにより生成された学習信号を用いて,大規模自動符号化言語モデルの事前学習を行う。
我々は「モデル生成dEnoising TRaining Objective」(METRO)というレシピを提案する。
結果、最大54億のパラメータからなるMETRO-LMは、GLUE、SuperGLUE、SQuADベンチマークで新しい最先端を実現する。
論文 参考訳(メタデータ) (2022-04-13T21:39:15Z) - Efficient Large Scale Language Modeling with Mixtures of Experts [61.45159383372181]
エキスパート層(MoE)の混合により、条件付き計算による言語モデルの効率的なスケーリングが可能になる。
本稿では, 自己回帰型 MoE 言語モデルが, 広範囲な環境下での高密度モデルと比較して, どのようにスケールするかを示す実験的検討を行った。
論文 参考訳(メタデータ) (2021-12-20T17:05:11Z) - TEASEL: A Transformer-Based Speech-Prefixed Language Model [4.014524824655106]
マルチモーダル言語分析は、話者の言葉、音響アノテーション、表情を同時にモデル化することを目的としている。
lexiconの機能は、Transformerベースのモデルを通じて大きなコーパスで事前訓練されているため、他のモダリティよりも優れている。
高いパフォーマンスにもかかわらず、新しい自己教師付き学習(SSL)トランスフォーマーを任意のモダリティでトレーニングすることは、データ不足のため通常は不可能である。
論文 参考訳(メタデータ) (2021-09-12T14:08:57Z) - Probabilistically Masked Language Model Capable of Autoregressive
Generation in Arbitrary Word Order [32.71489048856101]
マスケード言語モデルと自己回帰言語モデルは2種類の言語モデルである。
本稿では,確率的マスキングモデル (PMLM) と呼ばれるマスキング言語モデルに対する確率論的マスキング手法を提案する。
我々は, u-PMLM が自己回帰型置換言語モデルと等価であることを証明した。
論文 参考訳(メタデータ) (2020-04-24T07:38:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。