論文の概要: Revisiting Simple Neural Probabilistic Language Models
- arxiv url: http://arxiv.org/abs/2104.03474v1
- Date: Thu, 8 Apr 2021 02:18:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-09 13:12:24.931165
- Title: Revisiting Simple Neural Probabilistic Language Models
- Title(参考訳): 単純なニューラル確率言語モデルの再検討
- Authors: Simeng Sun, Mohit Iyyer
- Abstract要約: 本稿では,Bengio2003ANPの神経確率言語モデル(NPLM)を再検討する。
現代のハードウェアにスケールアップすると、このモデルは単語レベルの言語モデルのベンチマークで期待以上にパフォーマンスが向上する。
この結果に触発され、最初の自己保持層をNPLMの局所連結層に置き換えることでトランスフォーマーを変更した。
- 参考スコア(独自算出の注目度): 27.957834093475686
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent progress in language modeling has been driven not only by advances in
neural architectures, but also through hardware and optimization improvements.
In this paper, we revisit the neural probabilistic language model (NPLM)
of~\citet{Bengio2003ANP}, which simply concatenates word embeddings within a
fixed window and passes the result through a feed-forward network to predict
the next word. When scaled up to modern hardware, this model (despite its many
limitations) performs much better than expected on word-level language model
benchmarks. Our analysis reveals that the NPLM achieves lower perplexity than a
baseline Transformer with short input contexts but struggles to handle
long-term dependencies. Inspired by this result, we modify the Transformer by
replacing its first self-attention layer with the NPLM's local concatenation
layer, which results in small but consistent perplexity decreases across three
word-level language modeling datasets.
- Abstract(参考訳): 言語モデリングの最近の進歩は、ニューラルアーキテクチャの進歩だけでなく、ハードウェアと最適化の改善によっても引き起こされている。
本稿では,固定ウィンドウ内の単語埋め込みを結合し,その結果をフィードフォワードネットワークに渡して次の単語を予測する,-\citet{bengio2003anp} のニューラル確率言語モデル (nplm) を再検討する。
現代のハードウェアにスケールアップすると、このモデル(多くの制限にもかかわらず)は、単語レベルの言語モデルのベンチマークで期待以上にパフォーマンスが向上する。
解析の結果,NPLMは入力コンテキストが短いが長期依存を扱うのに苦労するベースライン変換器よりも難易度が高いことがわかった。
この結果から,トランスフォーマーをNPLMの局所連結層に置き換えることで,3つの単語レベルの言語モデリングデータセット間で小さなが一貫したパープレキシティが減少する。
関連論文リスト
- LlaMaVAE: Guiding Large Language Model Generation via Continuous Latent
Sentence Spaces [1.529963465178546]
本稿では,表現型エンコーダモデルとデコーダモデル(SentenceT5,LlaMA)とVAEアーキテクチャを組み合わせたLlaMaVAEを提案する。
実験の結果、LlaMaVAEは従来の最先端のVAE言語モデルであるOptimusよりも、様々なタスクで優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-20T17:25:23Z) - Meta-Learning Fast Weight Language Models [105.66999854213724]
我々は、動的評価の利点をより効率的に提供するニューラルネットワークコンポーネントであるFWL(Fast Weight Layers)を提示する。
FWLはトレーニング時に適用でき、モデルが勾配更新をうまく活用することを学ぶ。
論文 参考訳(メタデータ) (2022-12-05T18:37:09Z) - Pre-Training a Graph Recurrent Network for Language Representation [34.4554387894105]
本稿では,言語モデルの事前学習のためのグラフリカレントネットワークについて考察し,各シーケンスのグラフ構造を局所的なトークンレベルの通信で構築する。
我々のモデルは、既存の注意に基づくモデルよりもコンテキスト化された特徴冗長性が少なく、より多様な出力を生成することができる。
論文 参考訳(メタデータ) (2022-09-08T14:12:15Z) - Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。
ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-14T17:00:19Z) - N-Grammer: Augmenting Transformers with latent n-grams [35.39961549040385]
本稿では,テキストシーケンスの離散潜在表現から構築したn-gramでモデルを拡張することにより,統計言語モデリングの文献に触発されたトランスフォーマーアーキテクチャの簡易かつ効果的な変更を提案する。
我々は、C4データセットの言語モデリングにおけるN-GrammerモデルとSuperGLUEデータセットのテキスト分類を評価し、TransformerやPrimerといった強力なベースラインよりも優れていることを発見した。
論文 参考訳(メタデータ) (2022-07-13T17:18:02Z) - Better Language Model with Hypernym Class Prediction [101.8517004687825]
クラスベース言語モデル (LM) は、コンテキストの疎結合に$n$-gramのLMで対処するために長年開発されてきた。
本研究では,このアプローチをニューラルLMの文脈で再考する。
論文 参考訳(メタデータ) (2022-03-21T01:16:44Z) - Factorized Neural Transducer for Efficient Language Model Adaptation [51.81097243306204]
空白および語彙予測を分解し,ニューラルトランスデューサの因子化モデルを提案する。
この因子化は、音声認識のためのトランスデューサにスタンドアロン言語モデルの改善を移すことが期待できる。
提案した因子化ニューラルトランスデューサは、言語モデル適応にドメイン外テキストデータを使用する場合、15%から20%のWER改善が得られることを示す。
論文 参考訳(メタデータ) (2021-09-27T15:04:00Z) - GroupBERT: Enhanced Transformer Architecture with Efficient Grouped
Structures [57.46093180685175]
トランスフォーマー層の構造を改良し,より効率的なアーキテクチャを実現する。
自己認識モジュールを補完する畳み込みモジュールを追加し、局所的およびグローバルな相互作用の学習を分離する。
得られたアーキテクチャを言語表現学習に適用し、異なるスケールのBERTモデルと比較して優れた性能を示す。
論文 参考訳(メタデータ) (2021-06-10T15:41:53Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z) - Character-level Transformer-based Neural Machine Translation [5.699756532377753]
本稿では,トランスフォーマーをベースとした新しい手法について論じる。スピードと品質を,サブワードレベルでのトランスフォーマーとキャラクタレベルで比較する。
WMT'15: DE-EN, CS-EN, FI-EN, RU-ENの4つの言語対について評価を行った。
提案された新しいアーキテクチャは、単一のGPUでトレーニングすることが可能で、キャラクタレベルのTransformerよりも34%高速である。
論文 参考訳(メタデータ) (2020-05-22T15:40:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。