Fugu-MT 論文翻訳(概要): Why can neural language models solve next-word prediction? A mathematical perspective

論文の概要: Why can neural language models solve next-word prediction? A mathematical perspective

arxiv url: http://arxiv.org/abs/2306.17184v1
Date: Tue, 20 Jun 2023 10:41:23 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-09 14:09:38.887709
Title: Why can neural language models solve next-word prediction? A mathematical perspective
Title（参考訳）: なぜニューラル言語モデルは次の単語を予測するのか? 数学的な視点
Authors: Vinoth Nandakumar, Peng Mi and Tongliang Liu
Abstract要約: 本研究では,英語文の実例をモデル化するための形式言語群について検討する。我々の証明は、ニューラルネットワークモデルにおける埋め込み層と完全に接続されたコンポーネントの異なる役割を強調します。
参考スコア（独自算出の注目度）: 53.807657273043446
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recently, deep learning has revolutionized the field of natural language processing, with neural language models proving to be very effective for next-word prediction. However, a rigorous theoretical explanation for their success in the context of formal language theory has not yet been developed, as it is unclear why neural language models can learn the combinatorial rules that govern the next-word prediction task. In this paper, we study a class of formal languages that can be used to model real-world examples of English sentences. We construct neural language models can solve the next-word prediction task in this context with zero error. Our proof highlights the different roles of the embedding layer and the fully connected component within the neural language model.
Abstract（参考訳）: 近年、ディープラーニングは自然言語処理の分野に革命をもたらし、ニューラルネットワークモデルが次の単語予測に非常に効果的であることが証明されている。しかしながら、形式言語理論の文脈での成功に関する厳密な理論的説明はまだ開発されておらず、なぜニューラル言語モデルが次の単語予測タスクを支配する組合せ規則を学べるのかは不明である。本稿では,英語文の実世界の実例をモデル化するために使用できる形式言語の種類について検討する。ニューラルネットワークモデルの構築により,この文脈における次の単語予測タスクをゼロエラーで解くことができる。我々の証明は、ニューラルネットワークモデルにおける埋め込み層と完全に接続されたコンポーネントの異なる役割を強調します。

関連論文リスト

Do We Really Need GNNs with Explicit Structural Modeling? MLPs Suffice for Language Model Representations [50.45261187796993]
グラフニューラルネットワーク(GNN)は構造情報を十分に活用できないが、MLP(Multi-Layer Perceptrons)は構造認識タスクにおいて驚くべき能力を示す。本稿では,情報理論の観点から総合的な探索フレームワークを提案する。
論文参考訳（メタデータ） (2025-06-26T18:10:28Z)
Sequential-Parallel Duality in Prefix Scannable Models [68.39855814099997]
近年では Gated Linear Attention (GLA) や Mamba など様々なモデルが開発されている。ニアコンスタント時間並列評価と線形時間、定数空間シーケンシャル推論をサポートするニューラルネットワークモデルの全クラスを特徴付けることができるだろうか?
論文参考訳（メタデータ） (2025-06-12T17:32:02Z)
Message-Passing State-Space Models: Improving Graph Learning with Modern Sequence Modeling [19.10832920407789]
我々は、メッセージパッシングニューラルネットワークフレームワークに直接、現代のSSMの鍵となる原則を組み込むことによって、新しい視点を導入する。我々は,MP-SSMを用いて,メッセージパッシングのアーキテクチャ的単純さを保ちながら,効率よく,順列同変かつ長距離情報伝達を可能にする。
論文参考訳（メタデータ） (2025-05-24T14:53:07Z)
Syntactic and Semantic Control of Large Language Models via Sequential Monte Carlo [90.78001821963008]
広い範囲のLMアプリケーションは、構文的制約や意味論的制約に適合するテキストを生成する必要がある。我々は、連続モンテカルロ(SMC)に基づく制御LM生成のためのアーキテクチャを開発する。我々のシステムはLew et al. (2023) のフレームワーク上に構築されており、言語モデル確率型プログラミング言語と統合されている。
論文参考訳（メタデータ） (2025-04-17T17:49:40Z)
Implicit Language Models are RNNs: Balancing Parallelization and Expressivity [4.332158627306896]
状態空間モデル(SSM)とトランスフォーマーが言語モデリングのランドスケープを支配している。固定点に収束するまで変換を繰り返す暗黙のSSMを提案する。提案手法は, 正規言語における状態追跡能力に優れ, トランスフォーマーやSSMよりも優れていることを示す。
論文参考訳（メタデータ） (2025-02-10T19:59:31Z)
Interpretable Language Modeling via Induction-head Ngram Models [74.26720927767398]
誘導ヘッドngramモデル(Induction-Gram)を提案する。この誘導ヘッドは、カスタムのニューラル類似度メトリックを使用して、モデルの入力コンテキストを効率的に検索し、潜在的に次の単語補完を行う。実験により,本手法はベースラインの解釈可能なモデルよりも,単語の次単語予測を大幅に改善することが示された。
論文参考訳（メタデータ） (2024-10-31T12:33:26Z)
Making Pre-trained Language Models Great on Tabular Prediction [50.70574370855663]
ディープニューラルネットワーク(DNN)の転送性は、画像および言語処理において著しく進歩している。本稿では,表型データ予測のための訓練済みLMであるTP-BERTaを提案する。新たな相対等級トークン化では、スカラー数値の特徴値を細分化した高次元トークンに変換し、特徴値と対応する特徴名を統合する。
論文参考訳（メタデータ） (2024-03-04T08:38:56Z)
Theoretical Foundations of Deep Selective State-Space Models [13.971499161967083]
ディープSSMは、さまざまなドメインセットで優れたパフォーマンスを示す。最近の研究で、線形リカレンス電力が入力と隠れ状態の間の乗法的相互作用を可能にすることが示されている。ランダム線形再帰が単純な入力制御遷移を備える場合、隠れ状態は強力な数学的対象の低次元射影であることを示す。
論文参考訳（メタデータ） (2024-02-29T11:20:16Z)
LlaMaVAE: Guiding Large Language Model Generation via Continuous Latent Sentence Spaces [1.529963465178546]
本稿では,表現型エンコーダモデルとデコーダモデル(SentenceT5,LlaMA)とVAEアーキテクチャを組み合わせたLlaMaVAEを提案する。実験の結果、LlaMaVAEは従来の最先端のVAE言語モデルであるOptimusよりも、様々なタスクで優れていることがわかった。
論文参考訳（メタデータ） (2023-12-20T17:25:23Z)
Meta predictive learning model of languages in neural circuits [2.5690340428649328]
本稿では,予測符号化フレームワークにおける平均場学習モデルを提案する。我々のモデルでは、ほとんどの接続は学習後に決定論的になる。本モデルは,脳計算,次点予測,一般知能の関連性を調べるための出発点となる。
論文参考訳（メタデータ） (2023-09-08T03:58:05Z)
Mastering Symbolic Operations: Augmenting Language Models with Compiled Neural Networks [48.14324895100478]
ニューラルアーキテクチャ」は、コンパイルされたニューラルネットワーク(CoNN)を標準変換器に統合する。 CoNNは、人工的に生成された注意重みを通してルールを明示的にエンコードするように設計されたニューラルネットワークモジュールである。実験は,シンボル操作における長さ一般化,効率,解釈可能性の観点から,既存の手法よりも優れていることを示す。
論文参考訳（メタデータ） (2023-04-04T09:50:07Z)
Word class representations spontaneously emerge in a deep neural network trained on next word prediction [7.240611820374677]
人間はどのように言語を学ぶのか、そして、最初の言語は全く学べるのか? これらの基本的な疑問はいまだに熱心に議論されている。特に、次の単語を予測するために、人工的な深層ニューラルネットワークを訓練する。その結果,9ワード入力シーケンスの内部表現は10ワードの単語クラスに従ってクラスタ化され,出力として予測されることがわかった。
論文参考訳（メタデータ） (2023-02-15T11:02:50Z)
Deep Learning Models to Study Sentence Comprehension in the Human Brain [0.1503974529275767]
自然言語を処理する最近の人工ニューラルネットワークは、文レベルの理解を必要とするタスクにおいて、前例のないパフォーマンスを達成する。我々は、これらの人工言語モデルと人間の脳活動を比較する研究をレビューし、このアプローチが自然言語理解に関わる神経プロセスの理解をいかに改善したかを評価する。
論文参考訳（メタデータ） (2023-01-16T10:31:25Z)
Dependency-based Mixture Language Models [53.152011258252315]
依存性に基づく混合言語モデルを紹介する。より詳しくは、依存関係モデリングの新たな目的により、まずニューラルネットワークモデルを訓練する。次に、前回の依存性モデリング確率分布と自己意図を混合することにより、次の確率を定式化する。
論文参考訳（メタデータ） (2022-03-19T06:28:30Z)
Language Models are not Models of Language [0.0]
トランスファーラーニングにより、言語モデリングタスクでトレーニングされた大規模なディープラーニングニューラルネットワークにより、パフォーマンスが大幅に向上した。深層学習モデルは言語の理論的モデルではないので、言語モデルという用語は誤解を招く。
論文参考訳（メタデータ） (2021-12-13T22:39:46Z)
Long-range and hierarchical language predictions in brains and algorithms [82.81964713263483]
深層言語アルゴリズムは隣接した単語の予測に最適化されているが、人間の脳は長距離で階層的な予測を行うように調整されている。本研究は、予測符号化理論を強化し、自然言語処理における長距離および階層的予測の重要な役割を示唆する。
論文参考訳（メタデータ） (2021-11-28T20:26:07Z)
Towards Zero-shot Language Modeling [90.80124496312274]
人間の言語学習に誘導的に偏りを持つニューラルモデルを構築した。類型的に多様な訓練言語のサンプルからこの分布を推測する。我々は、保留言語に対する遠隔監視として、追加の言語固有の側情報を利用する。
論文参考訳（メタデータ） (2021-08-06T23:49:18Z)
You Can Do Better! If You Elaborate the Reason When Making Prediction [13.658942796267015]
本論文では,大きな学習済み言語モデルと組み合わせた新しいニューラル予測フレームワークを提案し,予測を行い,それに対応する説明を同時に生成する。中国の医学的複数選択質問応答, 英語自然言語推論, 常識質問回答タスクに関する予備的実証的研究を行った。また,提案手法は,3つのデータセットに対する予測精度の向上も達成し,意思決定プロセスにおける説明の生成による予測のメリットが示唆された。
論文参考訳（メタデータ） (2021-03-27T14:55:19Z)
The Neural Coding Framework for Learning Generative Models [91.0357317238509]
本稿では,脳の予測処理理論に触発された新しい神経生成モデルを提案する。同様に、私たちの生成モデルにおける人工ニューロンは、隣接するニューロンが何をするかを予測し、予測が現実にどの程度一致するかに基づいてパラメータを調整します。
論文参考訳（メタデータ） (2020-12-07T01:20:38Z)
Beyond Graph Neural Networks with Lifted Relational Neural Networks [14.63152363481139]
我々は,Lfted Neural Networks の言語に基づく宣言型微分可能プログラミングフレームワークを実演する。小さなパラメータ化プログラムは学習を符号化するために使用される。このアイデアは、様々な高度なニューラルネットワークの効率的な符号化にどのように使用できるかを示す。
論文参考訳（メタデータ） (2020-07-13T10:10:58Z)
Mechanisms for Handling Nested Dependencies in Neural-Network Language Models and Humans [75.15855405318855]
我々は,「深層学習」手法で訓練された現代人工ニューラルネットワークが,人間の文処理の中心的な側面を模倣するかどうかを検討した。ネットワークは、大きなコーパスで次の単語を予測するためにのみ訓練されたが、分析の結果、局所的および長距離の構文合意をうまく処理する特別なユニットが出現した。我々は,複数の名詞の単数/複数状態における体系的な変化を伴う文中の数一致の違反を人間が検出する行動実験において,モデルの予測を検証した。
論文参考訳（メタデータ） (2020-06-19T12:00:05Z)
Logical Natural Language Generation from Open-Domain Tables [107.04385677577862]
本稿では,その事実に関連付けられた自然言語文をモデルで生成するタスクを提案する。提案した論理的 NLG 問題の研究を容易にするために,幅広い論理的・記号的推論を特徴とする既存の TabFact データセットcitechen 2019tabfact を用いる。新しいタスクは、シーケンス順序と論理順序のミスマッチのため、既存のモノトニック生成フレームワークに課題をもたらす。
論文参考訳（メタデータ） (2020-04-22T06:03:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。