論文の概要: Multi-timescale Representation Learning in LSTM Language Models
- arxiv url: http://arxiv.org/abs/2009.12727v2
- Date: Thu, 18 Mar 2021 00:06:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-14 03:07:55.420180
- Title: Multi-timescale Representation Learning in LSTM Language Models
- Title(参考訳): LSTM言語モデルにおけるマルチスケール表現学習
- Authors: Shivangi Mahto, Vy A. Vo, Javier S. Turek, Alexander G. Huth
- Abstract要約: 言語モデルは、非常に短いから非常に長いまでの時間スケールで単語間の統計的依存関係を捉えなければならない。
我々は、長期記憶言語モデルにおけるメモリゲーティング機構が、パワーローの減衰を捉えることができるかの理論を導出した。
実験の結果,自然言語で学習したLSTM言語モデルは,この理論分布を近似することがわかった。
- 参考スコア(独自算出の注目度): 69.98840820213937
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language models must capture statistical dependencies between words at
timescales ranging from very short to very long. Earlier work has demonstrated
that dependencies in natural language tend to decay with distance between words
according to a power law. However, it is unclear how this knowledge can be used
for analyzing or designing neural network language models. In this work, we
derived a theory for how the memory gating mechanism in long short-term memory
(LSTM) language models can capture power law decay. We found that unit
timescales within an LSTM, which are determined by the forget gate bias, should
follow an Inverse Gamma distribution. Experiments then showed that LSTM
language models trained on natural English text learn to approximate this
theoretical distribution. Further, we found that explicitly imposing the
theoretical distribution upon the model during training yielded better language
model perplexity overall, with particular improvements for predicting
low-frequency (rare) words. Moreover, the explicit multi-timescale model
selectively routes information about different types of words through units
with different timescales, potentially improving model interpretability. These
results demonstrate the importance of careful, theoretically-motivated analysis
of memory and timescale in language models.
- Abstract(参考訳): 言語モデルは、非常に短いから非常に長いまでの時間スケールで単語間の統計的依存関係を捉えなければならない。
初期の研究は、自然言語への依存がパワーの法則に従って単語間の距離で崩壊する傾向があることを証明した。
しかし、この知識がニューラルネットワーク言語モデルの解析や設計にどのように役立つのかは不明である。
本研究では,長期記憶(LSTM)言語モデルにおけるメモリゲーティング機構がどのようにパワーローの減衰を捉えるかの理論を導出した。
その結果, lstm内の単位時間スケールは, ゲートバイアスによって決定され, 逆ガンマ分布に従うことが判明した。
実験により、自然言語で訓練されたLSTM言語モデルは、この理論分布を近似することを学ぶことができた。
さらに, 学習中にモデルに理論的分布を明示することで, 言語モデルのパープレキシティが向上し, 特に低頻度単語の予測精度が向上した。
さらに、明示的なマルチタイムスケールモデルは、異なる時間スケールを持つ単位を通して、異なる種類の単語に関する情報を選択的にルーティングし、モデルの解釈性を改善する可能性がある。
これらの結果は、言語モデルにおけるメモリと時間スケールの注意深い理論的動機付け分析の重要性を示している。
関連論文リスト
- What Languages are Easy to Language-Model? A Perspective from Learning Probabilistic Regular Languages [78.1866280652834]
大規模言語モデル (LM) は文字列上の分布である。
RNNとTransformer LMによる規則的LM(RLM)の学習性について検討する。
RNNとトランスフォーマーの双方において,RLMランクの複雑さは強く,学習可能性の有意な予測因子であることが判明した。
論文 参考訳(メタデータ) (2024-06-06T17:34:24Z) - Large language models can be zero-shot anomaly detectors for time series? [9.249657468385779]
sigllmは,大規模言語モデルを用いた時系列異常検出のためのフレームワークである。
本稿では,入力のどの要素が異常であるかを言語モデルに直接問うプロンプトベースの検出手法を提案する。
その結果, 予測手法はF1スコアに対して, 全11データセットにおいてプロンプト法よりも有意に優れていた。
論文 参考訳(メタデータ) (2024-05-23T16:21:57Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。
異なるサイズの言語モデルは事前学習中にどのように学習するか?
より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文 参考訳(メタデータ) (2022-12-19T19:16:29Z) - A Natural Bias for Language Generation Models [31.44752136404971]
我々は、一グラムの周波数統計を先行知識として反映した別個のモジュールで、標準のニューラルネットワーク生成モデルを実現することができることを示す。
この単純なテクニックのテストベッドとしてニューラルマシン翻訳を使用し、(i)学習効率の向上、(ii)全体的なパフォーマンスの向上、そしておそらく最も重要なことは、強い周波数効果を歪めているように見えることです。
論文 参考訳(メタデータ) (2022-12-19T18:14:36Z) - Is neural language acquisition similar to natural? A chronological
probing study [0.0515648410037406]
本稿では,MultiBERTやT5といったトランスフォーマー英語モデルの時系列探索について述べる。
コーパスの学習過程において,モデルが学習した言語に関する情報を比較した。
その結果,1)訓練の初期段階に言語情報を取得すること,2)両言語モデルが様々な言語レベルから様々な特徴を捉える能力を示した。
論文 参考訳(メタデータ) (2022-07-01T17:24:11Z) - Dependency-based Mixture Language Models [53.152011258252315]
依存性に基づく混合言語モデルを紹介する。
より詳しくは、依存関係モデリングの新たな目的により、まずニューラルネットワークモデルを訓練する。
次に、前回の依存性モデリング確率分布と自己意図を混合することにより、次の確率を定式化する。
論文 参考訳(メタデータ) (2022-03-19T06:28:30Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。