Fugu-MT 論文翻訳(概要): State space models can express n-gram languages

論文の概要: State space models can express n-gram languages

arxiv url: http://arxiv.org/abs/2306.17184v3
Date: Sun, 09 Mar 2025 06:40:39 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-11 15:50:04.109695
Title: State space models can express n-gram languages
Title（参考訳）: 状態空間モデルはn-gram言語を表現できる
Authors: Vinoth Nandakumar, Qiang Qu, Peng Mi, Tongliang Liu,
Abstract要約: 我々は、n-gramルールから生成された言語に対して、次の単語予測タスクを解くことのできる状態空間言語モデルを構築している。我々の証明は、SSMがn-gramルールをその能力に関する新たな理論的結果を用いてエンコードする方法を示している。 n-gramルールから生成された小さなデータセットを用いて実験を行い、勾配に基づく最適化によって得られたSSMやRNNにフレームワークをどのように適用できるかを示す。
参考スコア（独自算出の注目度）: 51.823427608117626
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent advancements in recurrent neural networks (RNNs) have reinvigorated interest in their application to natural language processing tasks, particularly with the development of more efficient and parallelizable variants known as state space models (SSMs), which have shown competitive performance against transformer models while maintaining a lower memory footprint. While RNNs and SSMs (e.g., Mamba) have been empirically more successful than rule-based systems based on n-gram models, a rigorous theoretical explanation for this success has not yet been developed, as it is unclear how these models encode the combinatorial rules that govern the next-word prediction task. In this paper, we construct state space language models that can solve the next-word prediction task for languages generated from n-gram rules, thereby showing that the former are more expressive. Our proof shows how SSMs can encode n-gram rules using new theoretical results on their memorization capacity, and demonstrates how their context window can be controlled by restricting the spectrum of the state transition matrix. We conduct experiments with a small dataset generated from n-gram rules to show how our framework can be applied to SSMs and RNNs obtained through gradient-based optimization.
Abstract（参考訳）: 近年のリカレントニューラルネットワーク(RNN)の進歩は、自然言語処理タスク、特により効率的で並列化可能なステートスペースモデル(SSM)の開発への関心を再燃させ、低メモリフットプリントを維持しながらトランスフォーマーモデルに対する競争力を示した。 RNNとSSM(例:Mamba)は、n-gramモデルに基づくルールベースシステムよりも経験的に成功しているが、この成功に関する厳密な理論的説明はまだ開発されていない。本稿では,n-gramルールから生成された言語に対して,次の単語予測タスクを解くことのできる状態空間言語モデルを構築し,前者の方が表現力が高いことを示す。本稿は,SSM が n-gram 規則を記憶能力に新たな理論的結果を用いてエンコードできることを示すとともに,状態遷移行列のスペクトルを制限することにより,それらのコンテキストウィンドウを制御できることを実証する。 n-gramルールから生成された小さなデータセットを用いて実験を行い、勾配に基づく最適化によって得られたSSMやRNNにフレームワークをどのように適用できるかを示す。

関連論文リスト

Syntactic and Semantic Control of Large Language Models via Sequential Monte Carlo [90.78001821963008]
広い範囲のLMアプリケーションは、構文的制約や意味論的制約に適合するテキストを生成する必要がある。我々は、連続モンテカルロ(SMC)に基づく制御LM生成のためのアーキテクチャを開発する。我々のシステムはLew et al. (2023) のフレームワーク上に構築されており、言語モデル確率型プログラミング言語と統合されている。
論文参考訳（メタデータ） (2025-04-17T17:49:40Z)
Implicit Language Models are RNNs: Balancing Parallelization and Expressivity [4.332158627306896]
状態空間モデル(SSM)とトランスフォーマーが言語モデリングのランドスケープを支配している。固定点に収束するまで変換を繰り返す暗黙のSSMを提案する。提案手法は, 正規言語における状態追跡能力に優れ, トランスフォーマーやSSMよりも優れていることを示す。
論文参考訳（メタデータ） (2025-02-10T19:59:31Z)
Interpretable Language Modeling via Induction-head Ngram Models [74.26720927767398]
誘導ヘッドngramモデル(Induction-Gram)を提案する。この誘導ヘッドは、カスタムのニューラル類似度メトリックを使用して、モデルの入力コンテキストを効率的に検索し、潜在的に次の単語補完を行う。実験により,本手法はベースラインの解釈可能なモデルよりも,単語の次単語予測を大幅に改善することが示された。
論文参考訳（メタデータ） (2024-10-31T12:33:26Z)
Making Pre-trained Language Models Great on Tabular Prediction [50.70574370855663]
ディープニューラルネットワーク(DNN)の転送性は、画像および言語処理において著しく進歩している。本稿では,表型データ予測のための訓練済みLMであるTP-BERTaを提案する。新たな相対等級トークン化では、スカラー数値の特徴値を細分化した高次元トークンに変換し、特徴値と対応する特徴名を統合する。
論文参考訳（メタデータ） (2024-03-04T08:38:56Z)
Theoretical Foundations of Deep Selective State-Space Models [13.971499161967083]
ディープSSMは、さまざまなドメインセットで優れたパフォーマンスを示す。最近の研究で、線形リカレンス電力が入力と隠れ状態の間の乗法的相互作用を可能にすることが示されている。ランダム線形再帰が単純な入力制御遷移を備える場合、隠れ状態は強力な数学的対象の低次元射影であることを示す。
論文参考訳（メタデータ） (2024-02-29T11:20:16Z)
LlaMaVAE: Guiding Large Language Model Generation via Continuous Latent Sentence Spaces [1.529963465178546]
本稿では,表現型エンコーダモデルとデコーダモデル(SentenceT5,LlaMA)とVAEアーキテクチャを組み合わせたLlaMaVAEを提案する。実験の結果、LlaMaVAEは従来の最先端のVAE言語モデルであるOptimusよりも、様々なタスクで優れていることがわかった。
論文参考訳（メタデータ） (2023-12-20T17:25:23Z)
Meta predictive learning model of languages in neural circuits [2.5690340428649328]
本稿では,予測符号化フレームワークにおける平均場学習モデルを提案する。我々のモデルでは、ほとんどの接続は学習後に決定論的になる。本モデルは,脳計算,次点予測,一般知能の関連性を調べるための出発点となる。
論文参考訳（メタデータ） (2023-09-08T03:58:05Z)
Mastering Symbolic Operations: Augmenting Language Models with Compiled Neural Networks [48.14324895100478]
ニューラルアーキテクチャ」は、コンパイルされたニューラルネットワーク(CoNN)を標準変換器に統合する。 CoNNは、人工的に生成された注意重みを通してルールを明示的にエンコードするように設計されたニューラルネットワークモジュールである。実験は,シンボル操作における長さ一般化,効率,解釈可能性の観点から,既存の手法よりも優れていることを示す。
論文参考訳（メタデータ） (2023-04-04T09:50:07Z)
Word class representations spontaneously emerge in a deep neural network trained on next word prediction [7.240611820374677]
人間はどのように言語を学ぶのか、そして、最初の言語は全く学べるのか? これらの基本的な疑問はいまだに熱心に議論されている。特に、次の単語を予測するために、人工的な深層ニューラルネットワークを訓練する。その結果,9ワード入力シーケンスの内部表現は10ワードの単語クラスに従ってクラスタ化され,出力として予測されることがわかった。
論文参考訳（メタデータ） (2023-02-15T11:02:50Z)
Deep Learning Models to Study Sentence Comprehension in the Human Brain [0.1503974529275767]
自然言語を処理する最近の人工ニューラルネットワークは、文レベルの理解を必要とするタスクにおいて、前例のないパフォーマンスを達成する。我々は、これらの人工言語モデルと人間の脳活動を比較する研究をレビューし、このアプローチが自然言語理解に関わる神経プロセスの理解をいかに改善したかを評価する。
論文参考訳（メタデータ） (2023-01-16T10:31:25Z)
Dependency-based Mixture Language Models [53.152011258252315]
依存性に基づく混合言語モデルを紹介する。より詳しくは、依存関係モデリングの新たな目的により、まずニューラルネットワークモデルを訓練する。次に、前回の依存性モデリング確率分布と自己意図を混合することにより、次の確率を定式化する。
論文参考訳（メタデータ） (2022-03-19T06:28:30Z)
Language Models are not Models of Language [0.0]
トランスファーラーニングにより、言語モデリングタスクでトレーニングされた大規模なディープラーニングニューラルネットワークにより、パフォーマンスが大幅に向上した。深層学習モデルは言語の理論的モデルではないので、言語モデルという用語は誤解を招く。
論文参考訳（メタデータ） (2021-12-13T22:39:46Z)
Long-range and hierarchical language predictions in brains and algorithms [82.81964713263483]
深層言語アルゴリズムは隣接した単語の予測に最適化されているが、人間の脳は長距離で階層的な予測を行うように調整されている。本研究は、予測符号化理論を強化し、自然言語処理における長距離および階層的予測の重要な役割を示唆する。
論文参考訳（メタデータ） (2021-11-28T20:26:07Z)
Towards Zero-shot Language Modeling [90.80124496312274]
人間の言語学習に誘導的に偏りを持つニューラルモデルを構築した。類型的に多様な訓練言語のサンプルからこの分布を推測する。我々は、保留言語に対する遠隔監視として、追加の言語固有の側情報を利用する。
論文参考訳（メタデータ） (2021-08-06T23:49:18Z)
You Can Do Better! If You Elaborate the Reason When Making Prediction [13.658942796267015]
本論文では,大きな学習済み言語モデルと組み合わせた新しいニューラル予測フレームワークを提案し,予測を行い,それに対応する説明を同時に生成する。中国の医学的複数選択質問応答, 英語自然言語推論, 常識質問回答タスクに関する予備的実証的研究を行った。また,提案手法は,3つのデータセットに対する予測精度の向上も達成し,意思決定プロセスにおける説明の生成による予測のメリットが示唆された。
論文参考訳（メタデータ） (2021-03-27T14:55:19Z)
The Neural Coding Framework for Learning Generative Models [91.0357317238509]
本稿では,脳の予測処理理論に触発された新しい神経生成モデルを提案する。同様に、私たちの生成モデルにおける人工ニューロンは、隣接するニューロンが何をするかを予測し、予測が現実にどの程度一致するかに基づいてパラメータを調整します。
論文参考訳（メタデータ） (2020-12-07T01:20:38Z)
Beyond Graph Neural Networks with Lifted Relational Neural Networks [14.63152363481139]
我々は,Lfted Neural Networks の言語に基づく宣言型微分可能プログラミングフレームワークを実演する。小さなパラメータ化プログラムは学習を符号化するために使用される。このアイデアは、様々な高度なニューラルネットワークの効率的な符号化にどのように使用できるかを示す。
論文参考訳（メタデータ） (2020-07-13T10:10:58Z)
Mechanisms for Handling Nested Dependencies in Neural-Network Language Models and Humans [75.15855405318855]
我々は,「深層学習」手法で訓練された現代人工ニューラルネットワークが,人間の文処理の中心的な側面を模倣するかどうかを検討した。ネットワークは、大きなコーパスで次の単語を予測するためにのみ訓練されたが、分析の結果、局所的および長距離の構文合意をうまく処理する特別なユニットが出現した。我々は,複数の名詞の単数/複数状態における体系的な変化を伴う文中の数一致の違反を人間が検出する行動実験において,モデルの予測を検証した。
論文参考訳（メタデータ） (2020-06-19T12:00:05Z)
Logical Natural Language Generation from Open-Domain Tables [107.04385677577862]
本稿では,その事実に関連付けられた自然言語文をモデルで生成するタスクを提案する。提案した論理的 NLG 問題の研究を容易にするために,幅広い論理的・記号的推論を特徴とする既存の TabFact データセットcitechen 2019tabfact を用いる。新しいタスクは、シーケンス順序と論理順序のミスマッチのため、既存のモノトニック生成フレームワークに課題をもたらす。
論文参考訳（メタデータ） (2020-04-22T06:03:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。