論文の概要: Additive Multi-Step Markov Chains and the Curse of Dimensionality in Large Language Models
- arxiv url: http://arxiv.org/abs/2603.04412v1
- Date: Tue, 03 Feb 2026 16:38:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 01:20:08.18961
- Title: Additive Multi-Step Markov Chains and the Curse of Dimensionality in Large Language Models
- Title(参考訳): 大規模言語モデルにおける付加的マルチステップマルコフ連鎖と次元曲線
- Authors: O. V. Usatenko, S. S. Melnyk, G. M. Pritula,
- Abstract要約: N-次加法的マルコフ鎖を用いた力学の理論的に実現可能な近似を探索する。
この研究の主な成果は、加算多段連鎖とステップワイドメモリ機能を持つ連鎖との対応性を確立することである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large-scale language models (LLMs) operate in extremely high-dimensional state spaces, where both token embeddings and their hidden representations create complex dependencies that are not easily reduced to classical Markov structures. In this paper, we explore a theoretically feasible approximation of LLM dynamics using N-order additive Markov chains. Such models allow the conditional probability of the next token to be decomposed into a superposition of contributions from multiple historical depths, reducing the combinatorial explosion typically associated with high-order Markov processes. The main result of the work is the establishment of a correspondence between an additive multi-step chain and a chain with a step-wise memory function. This equivalence allowed the introduction of the concept of information temperature not only for stepwise but also for additive N-order Markov chains.
- Abstract(参考訳): 大規模言語モデル(LLM)は、トークン埋め込みと隠れ表現の両方が、古典マルコフ構造に簡単に還元できない複雑な依存関係を生成する、非常に高次元な状態空間で動作する。
本論文では,N次加法的マルコフ連鎖を用いたLLM力学の理論的に実現可能な近似について検討する。
このようなモデルにより、次のトークンの条件付き確率は、複数の歴史的深さからの貢献の重ね合わせに分解され、通常は高次マルコフ過程に関連する組合せ的爆発が減少する。
この研究の主な成果は、加算多段連鎖とステップワイドメモリ機能を持つ連鎖との対応性を確立することである。
この同値性は情報温度の概念を段階的に導入するだけでなく、加法的なN次マルコフ連鎖にも適用した。
関連論文リスト
- Continuous Autoregressive Language Models [56.49239051750678]
我々はCALM(Continuous Autoregressive Language Models)を紹介する。
CALMは高忠実度オートエンコーダを使用して、Kトークンの塊を1つの連続ベクトルに圧縮する。
我々は、堅牢なトレーニング、評価、および制御可能なサンプリングを可能にする包括的可能性のないフレームワークを開発する。
論文 参考訳(メタデータ) (2025-10-31T17:58:11Z) - Sequential-Parallel Duality in Prefix Scannable Models [68.39855814099997]
近年では Gated Linear Attention (GLA) や Mamba など様々なモデルが開発されている。
ニアコンスタント時間並列評価と線形時間、定数空間シーケンシャル推論をサポートするニューラルネットワークモデルの全クラスを特徴付けることができるだろうか?
論文 参考訳(メタデータ) (2025-06-12T17:32:02Z) - Low-Rank Tensors for Multi-Dimensional Markov Models [33.35376484951434]
多次元状態空間上の遷移確率を表す低ランクテンソルを提案する。
提案したモデルでは,行列ベースのアプローチよりも少ないパラメータで類似表現が得られる。
論文 参考訳(メタデータ) (2024-11-04T14:06:49Z) - Disentanglement via Latent Quantization [60.37109712033694]
本研究では,組織化された潜在空間からの符号化と復号化に向けた帰納的バイアスを構築する。
本稿では,基本データレコーダ (vanilla autoencoder) と潜時再構成 (InfoGAN) 生成モデルの両方に追加することで,このアプローチの広範な適用性を実証する。
論文 参考訳(メタデータ) (2023-05-28T06:30:29Z) - Deep Stochastic Processes via Functional Markov Transition Operators [59.55961312230447]
本稿では,ニューラルパラメータ化マルコフ遷移作用素の列を関数空間に重ねて構築した新しいプロセス群(SP)を紹介する。
これらのマルコフ遷移作用素は、SPの交換可能性と整合性を維持することができることを証明している。
論文 参考訳(メタデータ) (2023-05-24T21:15:23Z) - Enabling Quantum Speedup of Markov Chains using a Multi-level Approach [0.0]
マルコフ連鎖を混合する量子スピードアップは、ゆっくりと変化する$r$マルコフ鎖の構成に基づいて達成できる。
低分解能マルコフ鎖の密度関数を用いてマルコフ鎖を高分解能で温めることができることを示す。
論文 参考訳(メタデータ) (2022-10-25T15:17:52Z) - Generalization Error Bounds on Deep Learning with Markov Datasets [16.3460693863947]
マルコフデータセットを用いたディープニューラルネットワークの一般化誤差の上限を導出する。
マルコフ連鎖の高次元確率における新しい対称性の不等式は、我々の拡張の鍵となる要素である。
論文 参考訳(メタデータ) (2021-12-23T11:14:43Z) - An Information-Theoretic Approach for Automatically Determining the
Number of States when Aggregating Markov Chains [12.716429755564821]
マルコフ連鎖を集約する付加的な情報に基づくアプローチが,状態群数の決定を容易にすることを示す。
最適状態群カウントは、縮退鎖の複雑さが、原鎖と縮退鎖のダイナミックスの間の相互依存と均衡している場合と一致する。
論文 参考訳(メタデータ) (2021-07-05T05:36:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。