論文の概要: Why can neural language models solve next-word prediction? A
mathematical perspective
- arxiv url: http://arxiv.org/abs/2306.17184v1
- Date: Tue, 20 Jun 2023 10:41:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-09 14:09:38.887709
- Title: Why can neural language models solve next-word prediction? A
mathematical perspective
- Title(参考訳): なぜニューラル言語モデルは次の単語を予測するのか?
数学的な視点
- Authors: Vinoth Nandakumar, Peng Mi and Tongliang Liu
- Abstract要約: 本研究では,英語文の実例をモデル化するための形式言語群について検討する。
我々の証明は、ニューラルネットワークモデルにおける埋め込み層と完全に接続されたコンポーネントの異なる役割を強調します。
- 参考スコア(独自算出の注目度): 53.807657273043446
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, deep learning has revolutionized the field of natural language
processing, with neural language models proving to be very effective for
next-word prediction. However, a rigorous theoretical explanation for their
success in the context of formal language theory has not yet been developed, as
it is unclear why neural language models can learn the combinatorial rules that
govern the next-word prediction task. In this paper, we study a class of formal
languages that can be used to model real-world examples of English sentences.
We construct neural language models can solve the next-word prediction task in
this context with zero error. Our proof highlights the different roles of the
embedding layer and the fully connected component within the neural language
model.
- Abstract(参考訳): 近年、ディープラーニングは自然言語処理の分野に革命をもたらし、ニューラルネットワークモデルが次の単語予測に非常に効果的であることが証明されている。
しかしながら、形式言語理論の文脈での成功に関する厳密な理論的説明はまだ開発されておらず、なぜニューラル言語モデルが次の単語予測タスクを支配する組合せ規則を学べるのかは不明である。
本稿では,英語文の実世界の実例をモデル化するために使用できる形式言語の種類について検討する。
ニューラルネットワークモデルの構築により,この文脈における次の単語予測タスクをゼロエラーで解くことができる。
我々の証明は、ニューラルネットワークモデルにおける埋め込み層と完全に接続されたコンポーネントの異なる役割を強調します。
関連論文リスト
- Implicit Language Models are RNNs: Balancing Parallelization and Expressivity [4.332158627306896]
状態空間モデル(SSM)とトランスフォーマーが言語モデリングのランドスケープを支配している。
固定点に収束するまで変換を繰り返す暗黙のSSMを提案する。
提案手法は, 正規言語における状態追跡能力に優れ, トランスフォーマーやSSMよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-02-10T19:59:31Z) - Great Memory, Shallow Reasoning: Limits of $k$NN-LMs [71.73611113995143]
検索とnext-word予測を統合した$k$NN-LMsは、言語モデリングにおいて強力な性能を示している。
この改良された情報リコール能力が、本当に下流の能力に変換されるかどうかを問う。
論文 参考訳(メタデータ) (2024-08-21T17:59:05Z) - The Role of $n$-gram Smoothing in the Age of Neural Networks [60.23726773548038]
本稿では,ニューラルネットワークモデルの時代において,古典的な$n$-gram平滑化技術が果たす役割を再オープン化する。
我々は,任意の$n$-gram平滑化手法をニューラルネットワークモデルと互換性のある正規化器に変換するためのフレームワークを導出する。
論文 参考訳(メタデータ) (2024-03-25T22:42:19Z) - Theoretical Foundations of Deep Selective State-Space Models [13.971499161967083]
ディープSSMは、さまざまなドメインセットで優れたパフォーマンスを示す。
最近の研究で、線形リカレンス電力が入力と隠れ状態の間の乗法的相互作用を可能にすることが示されている。
ランダム線形再帰が単純な入力制御遷移を備える場合、隠れ状態は強力な数学的対象の低次元射影であることを示す。
論文 参考訳(メタデータ) (2024-02-29T11:20:16Z) - On the Computational Complexity and Formal Hierarchy of Second Order
Recurrent Neural Networks [59.85314067235965]
2次次リカレントネットワーク(RNN)の理論基盤を拡大する(2次RNN)
有界時間でチューリング完備な RNN のクラスが存在することを証明している。
また、記憶のない2ドルのRNNは、バニラRNNのような現代のモデルよりも優れており、正規文法の認識において繰り返し単位をゲートしていることを示す。
論文 参考訳(メタデータ) (2023-09-26T06:06:47Z) - Toward a Theory of Causation for Interpreting Neural Code Models [49.906221295459275]
本稿では,ニューラルコードモデル(NCM)に特化したポストホック解釈法である$do_code$を紹介する。
$do_code$は、言語指向の説明を可能にする因果推論に基づいている。
その結果,NCMはコード構文の変化に敏感であることが判明した。
論文 参考訳(メタデータ) (2023-02-07T22:56:58Z) - Residual Learning of Neural Text Generation with $n$-gram Language Model [41.26228768053928]
我々は、$n$-gramのLMと実データ分布の間の残差に適合するニューラルネットワークLMを学習する。
当社のアプローチは、一般的なスタンドアロンニューラルネットワークモデルに対して、継続的にパフォーマンスの向上を実現しています。
論文 参考訳(メタデータ) (2022-10-26T02:42:53Z) - Recognizing Long Grammatical Sequences Using Recurrent Networks
Augmented With An External Differentiable Stack [73.48927855855219]
リカレントニューラルネットワーク(RNN)は、シーケンスモデリング、生成、予測に広く使われているディープアーキテクチャである。
RNNは、非常に長いシーケンスに対してあまり一般化せず、多くの重要な時間的処理や時系列予測問題に適用性を制限する。
これらの欠点に対処する方法の1つは、スタックのような外部の異なるメモリ構造とRNNを結合することである。
本稿では,重要なアーキテクチャと状態更新機構を備えたメモリ拡張RNNを改良する。
論文 参考訳(メタデータ) (2020-04-04T14:19:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。