論文の概要: Why are state-space models more expressive than $n$-gram models?
- arxiv url: http://arxiv.org/abs/2306.17184v2
- Date: Sun, 15 Dec 2024 00:24:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:52:32.016338
- Title: Why are state-space models more expressive than $n$-gram models?
- Title(参考訳): なぜステートスペースモデルは$n$-gramモデルよりも表現力が高いのか?
- Authors: Vinoth Nandakumar, Qiang Qu, Peng Mi, Tongliang Liu,
- Abstract要約: 我々は、$n$-gramルールから生成された言語に対して、次の単語予測タスクを解くことのできる状態空間言語モデルを構築した。
我々の証明は、SSMが記憶能力の新たな理論的結果を用いて$n$-gramルールをエンコードする方法を示している。
我々は、$n$-gramルールから生成された小さなデータセットで実験を行い、フレームワークをどのように適用できるかを示します。
- 参考スコア(独自算出の注目度): 51.823427608117626
- License:
- Abstract: Recent advancements in recurrent neural networks (RNNs) have reinvigorated interest in their application to natural language processing tasks, particularly with the development of more efficient and parallelizable variants known as state space models (SSMs), which have shown competitive performance against transformer models while maintaining a lower memory footprint. While RNNs and SSMs (e.g., Mamba) have been empirically more successful than rule-based systems based on $n$-gram models, a rigorous theoretical explanation for this success has not yet been developed, as it is unclear how these models encode the combinatorial rules that govern the next-word prediction task. In this paper, we construct state space language models that can solve the next-word prediction task for languages generated from $n$-gram rules, thereby showing that the former are more expressive. Our proof shows how SSMs can encode $n$-gram rules using new theoretical results on their memorization capacity, and demonstrates how their context window can be controlled by restricting the spectrum of the hidden weight matrix. We conduct experiments with a small dataset generated from $n$-gram rules to show how our framework can be applied to SSMs and RNNs obtained through gradient-based optimization.
- Abstract(参考訳): 近年のリカレントニューラルネットワーク(RNN)の進歩は、自然言語処理タスク、特により効率的で並列化可能なステートスペースモデル(SSM)の開発への関心を再燃させ、低メモリフットプリントを維持しながらトランスフォーマーモデルに対する競争力を示した。
RNNとSSM(例:Mamba)は、$n$-gramモデルに基づくルールベースシステムよりも経験的に成功しているが、この成功に関する厳密な理論的説明はまだ開発されていない。
本稿では,$n$-gramルールから生成される言語に対して,次の単語予測タスクを解くことのできる状態空間言語モデルを構築し,前者がより表現力が高いことを示す。
本証明は,SSMが暗記能力の新たな理論的結果を用いて$n$-gramルールをエンコードする方法を示し,隠れ重み行列のスペクトルを制限することにより,それらのコンテキストウインドウを制御可能であることを示す。
グラデーションベースの最適化によって得られたSSMやRNNにフレームワークをどのように適用できるかを示すため、$n$-gramルールから生成された小さなデータセットを用いて実験を行う。
関連論文リスト
- Meta predictive learning model of languages in neural circuits [2.5690340428649328]
本稿では,予測符号化フレームワークにおける平均場学習モデルを提案する。
我々のモデルでは、ほとんどの接続は学習後に決定論的になる。
本モデルは,脳計算,次点予測,一般知能の関連性を調べるための出発点となる。
論文 参考訳(メタデータ) (2023-09-08T03:58:05Z) - Word class representations spontaneously emerge in a deep neural network
trained on next word prediction [7.240611820374677]
人間はどのように言語を学ぶのか、そして、最初の言語は全く学べるのか?
これらの基本的な疑問はいまだに熱心に議論されている。
特に、次の単語を予測するために、人工的な深層ニューラルネットワークを訓練する。
その結果,9ワード入力シーケンスの内部表現は10ワードの単語クラスに従ってクラスタ化され,出力として予測されることがわかった。
論文 参考訳(メタデータ) (2023-02-15T11:02:50Z) - Deep Learning Models to Study Sentence Comprehension in the Human Brain [0.1503974529275767]
自然言語を処理する最近の人工ニューラルネットワークは、文レベルの理解を必要とするタスクにおいて、前例のないパフォーマンスを達成する。
我々は、これらの人工言語モデルと人間の脳活動を比較する研究をレビューし、このアプローチが自然言語理解に関わる神経プロセスの理解をいかに改善したかを評価する。
論文 参考訳(メタデータ) (2023-01-16T10:31:25Z) - Dependency-based Mixture Language Models [53.152011258252315]
依存性に基づく混合言語モデルを紹介する。
より詳しくは、依存関係モデリングの新たな目的により、まずニューラルネットワークモデルを訓練する。
次に、前回の依存性モデリング確率分布と自己意図を混合することにより、次の確率を定式化する。
論文 参考訳(メタデータ) (2022-03-19T06:28:30Z) - Language Models are not Models of Language [0.0]
トランスファーラーニングにより、言語モデリングタスクでトレーニングされた大規模なディープラーニングニューラルネットワークにより、パフォーマンスが大幅に向上した。
深層学習モデルは言語の理論的モデルではないので、言語モデルという用語は誤解を招く。
論文 参考訳(メタデータ) (2021-12-13T22:39:46Z) - Long-range and hierarchical language predictions in brains and
algorithms [82.81964713263483]
深層言語アルゴリズムは隣接した単語の予測に最適化されているが、人間の脳は長距離で階層的な予測を行うように調整されている。
本研究は、予測符号化理論を強化し、自然言語処理における長距離および階層的予測の重要な役割を示唆する。
論文 参考訳(メタデータ) (2021-11-28T20:26:07Z) - Towards Zero-shot Language Modeling [90.80124496312274]
人間の言語学習に誘導的に偏りを持つニューラルモデルを構築した。
類型的に多様な訓練言語のサンプルからこの分布を推測する。
我々は、保留言語に対する遠隔監視として、追加の言語固有の側情報を利用する。
論文 参考訳(メタデータ) (2021-08-06T23:49:18Z) - You Can Do Better! If You Elaborate the Reason When Making Prediction [13.658942796267015]
本論文では,大きな学習済み言語モデルと組み合わせた新しいニューラル予測フレームワークを提案し,予測を行い,それに対応する説明を同時に生成する。
中国の医学的複数選択質問応答, 英語自然言語推論, 常識質問回答タスクに関する予備的実証的研究を行った。
また,提案手法は,3つのデータセットに対する予測精度の向上も達成し,意思決定プロセスにおける説明の生成による予測のメリットが示唆された。
論文 参考訳(メタデータ) (2021-03-27T14:55:19Z) - The Neural Coding Framework for Learning Generative Models [91.0357317238509]
本稿では,脳の予測処理理論に触発された新しい神経生成モデルを提案する。
同様に、私たちの生成モデルにおける人工ニューロンは、隣接するニューロンが何をするかを予測し、予測が現実にどの程度一致するかに基づいてパラメータを調整します。
論文 参考訳(メタデータ) (2020-12-07T01:20:38Z) - Mechanisms for Handling Nested Dependencies in Neural-Network Language
Models and Humans [75.15855405318855]
我々は,「深層学習」手法で訓練された現代人工ニューラルネットワークが,人間の文処理の中心的な側面を模倣するかどうかを検討した。
ネットワークは、大きなコーパスで次の単語を予測するためにのみ訓練されたが、分析の結果、局所的および長距離の構文合意をうまく処理する特別なユニットが出現した。
我々は,複数の名詞の単数/複数状態における体系的な変化を伴う文中の数一致の違反を人間が検出する行動実験において,モデルの予測を検証した。
論文 参考訳(メタデータ) (2020-06-19T12:00:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。