論文の概要: Modeling Next-Token Prediction as Left-Nested Intuitionistic Implication
- arxiv url: http://arxiv.org/abs/2601.19915v1
- Date: Wed, 07 Jan 2026 04:10:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 02:21:38.53059
- Title: Modeling Next-Token Prediction as Left-Nested Intuitionistic Implication
- Title(参考訳): 左利き直観主義的意味としての次世代予測のモデル化
- Authors: Paul Tarau,
- Abstract要約: 本稿では,次の予測の直観論的論理的解釈から派生したニューラルネットワークであるemphArrow Language Modelを紹介する。
乗法的RNNに相当するニューラルアーキテクチャは、ネストされた直観主義的含意として次トーケン予測の証明理論的解釈から自然に生じることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce the \emph{Arrow Language Model}, a neural architecture derived from an intuitionistic-logic interpretation of next-token prediction. Instead of representing tokens as additive embeddings mixed by attention, we encode a prefix as a \emph{left-nested implication chain} whose structure preserves order through non-commutative composition. Next-token prediction corresponds to \emph{modus ponens}, and sequence processing becomes constructive proof extension under the Curry--Howard correspondence. Our Prolog-based specialized theorem provers validate fundamental properties of the neural models, among which relations between commutative vs. non-commutative sequencing and single-token vs. multi-token prediction choices. We show that a neural architecture equivalent to multiplicative RNNs arises naturally from a proof-theoretic interpretation of next-token prediction as nested intuitionistic implication, we present a practical low-rank neural realization and position the model relative to Transformers and state-space models. Keywords: logic-based derivation of neural architectures, intuitionistic implicational logic, token-as-operator neural models, state-space models, alternatives to transformer-based foundational models.
- Abstract(参考訳): 本稿では,次の予測の直観論的論理的解釈から派生したニューラルアーキテクチャである 'emph{Arrow Language Model} を紹介する。
トークンを付加的な埋め込みとして注意が混ざって表現する代わりに、プレフィックスを非可換合成を通して順序を保つような \emph{left-nested implication chain} としてエンコードする。
次トーケン予測は \emph{modus ponens} に対応し、シーケンス処理はカリー-ホワード対応の下で構成的証明拡張となる。
我々の Prolog-based special theorem provers は、可換性と非可換性のシークエンシングとシングルトーケンとマルチトーケンの予測選択の関係を、ニューラルモデルの基本的性質を検証している。
乗法的RNNと等価なニューラルネットワークアーキテクチャは、ネストした直観主義的含意として次トーケン予測の証明理論的解釈から自然に出現し、実用的な低ランクなニューラルネットワークの実現と、トランスフォーマーや状態空間モデルに対するモデルの位置を示す。
キーワード: 論理に基づくニューラルアーキテクチャの導出、直観論的含意論理、トークン・アズ・オペレーターニューラルモデル、状態空間モデル、トランスフォーマーベースの基盤モデルに代わるもの。
関連論文リスト
- Geometry of Semantics in Next-Token Prediction: How Optimization Implicitly Organizes Linguistic Representations [34.88156871518115]
Next-token Prediction (NTP) 最適化により、言語モデルがテキストから意味構造を抽出し、整理する。
我々は、より大きな特異値に対応する概念が訓練中に学習され、自然な意味階層が生成されることを示した。
この洞察は、解釈可能なセマンティックカテゴリを識別するための概念記号を組み合わせる方法である、オーサントベースのクラスタリングを動機付けている。
論文 参考訳(メタデータ) (2025-05-13T08:46:04Z) - Scaling Laws and Representation Learning in Simple Hierarchical Languages: Transformers vs. Convolutional Architectures [49.19753720526998]
合成データセット上でのニューラルネットワーク性能に関する理論的スケーリング法則を導出する。
局所性と重み共有によって生成過程の構造が整った畳み込みネットワークは、性能の高速化を享受できることを示す。
この発見は、ニューラルネットワークのスケーリング法則に基づくアーキテクチャ上のバイアスを明らかにし、モデルアーキテクチャとデータの統計的性質の間の相互作用によって表現学習がどのように形成されるかを強調している。
論文 参考訳(メタデータ) (2025-05-11T17:44:14Z) - Semformer: Transformer Language Models with Semantic Planning [18.750863564495006]
次世代の予測は、現在のニューラルネットワークモデルの主要なコンポーネントである。
本稿では,応答のセマンティックプランニングを明示的にモデル化したトランスフォーマー言語モデルのトレーニング手法であるSemformerを紹介する。
論文 参考訳(メタデータ) (2024-09-17T12:54:34Z) - The Foundations of Tokenization: Statistical and Computational Concerns [51.370165245628975]
トークン化は、NLPパイプラインにおける重要なステップである。
NLPにおける標準表現法としての重要性は認識されているが、トークン化の理論的基盤はまだ完全には理解されていない。
本稿では,トークン化モデルの表現と解析のための統一的な形式的枠組みを提案することによって,この理論的ギャップに対処することに貢献している。
論文 参考訳(メタデータ) (2024-07-16T11:12:28Z) - Causal Interpretation of Self-Attention in Pre-Trained Transformers [4.419843514606336]
本稿ではトランスフォーマーニューラルネットワークアーキテクチャにおける自己注意の因果的解釈を提案する。
シンボルの入力シーケンスに対する構造方程式モデルを推定するメカニズムとして自己アテンションを用いる。
本手法は,2つのタスク – 感情分類(NLP)とレコメンデーション – において,トランスフォーマーの結果に対する因果的説明を提供することによって実証する。
論文 参考訳(メタデータ) (2023-10-31T09:27:12Z) - Unsupervised Learning of Equivariant Structure from Sequences [30.974508897223124]
我々は,少なくとも3つの長さの時系列から対称性を学習するための教師なしのフレームワークを提案する。
当社のフレームワークでは,データセットの非絡み合い構造が副産物として自然に現れることを実証します。
論文 参考訳(メタデータ) (2022-10-12T07:29:18Z) - Structured Reordering for Modeling Latent Alignments in Sequence
Transduction [86.94309120789396]
本稿では,分離可能な置換の辺りを正確に推定する効率的な動的プログラミングアルゴリズムを提案する。
結果のSeq2seqモデルは、合成問題やNLPタスクの標準モデルよりも体系的な一般化が優れている。
論文 参考訳(メタデータ) (2021-06-06T21:53:54Z) - Explaining and Improving Model Behavior with k Nearest Neighbor
Representations [107.24850861390196]
モデルの予測に責任のあるトレーニング例を特定するために, k 近傍表現を提案する。
我々は,kNN表現が学習した素因関係を明らかにするのに有効であることを示す。
以上の結果から,kNN手法により,直交モデルが逆入力に対してより堅牢であることが示唆された。
論文 参考訳(メタデータ) (2020-10-18T16:55:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。