論文の概要: Probing Geometry of Next Token Prediction Using Cumulant Expansion of the Softmax Entropy
- arxiv url: http://arxiv.org/abs/2510.04285v1
- Date: Sun, 05 Oct 2025 16:55:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.561255
- Title: Probing Geometry of Next Token Prediction Using Cumulant Expansion of the Softmax Entropy
- Title(参考訳): ソフトマックスエントロピーの累積展開による次トーケン予測の探索幾何学
- Authors: Karthik Viswanathan, Sang Eon Park,
- Abstract要約: 大規模言語モデルが高次統計構造をいかに内包するかを定量化するための累積拡張フレームワークを提案する。
We track cumulants in GPT-2 and Pythia model on Pile-10K prompts。
- 参考スコア(独自算出の注目度): 0.4329197710438657
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce a cumulant-expansion framework for quantifying how large language models (LLMs) internalize higher-order statistical structure during next-token prediction. By treating the softmax entropy of each layer's logit distribution as a perturbation around its "center" distribution, we derive closed-form cumulant observables that isolate successively higher-order correlations. Empirically, we track these cumulants in GPT-2 and Pythia models on Pile-10K prompts. (i) Structured prompts exhibit a characteristic rise-and-plateau profile across layers, whereas token-shuffled prompts remain flat, revealing the dependence of the cumulant profile on meaningful context. (ii) During training, all cumulants increase monotonically before saturating, directly visualizing the model's progression from capturing variance to learning skew, kurtosis, and higher-order statistical structures. (iii) Mathematical prompts show distinct cumulant signatures compared to general text, quantifying how models employ fundamentally different processing mechanisms for mathematical versus linguistic content. Together, these results establish cumulant analysis as a lightweight, mathematically grounded probe of feature-learning dynamics in high-dimensional neural networks.
- Abstract(参考訳): 本稿では,大規模言語モデル (LLM) が次点予測において高次統計構造をいかに内部化するかを定量化するための累積拡張フレームワークを提案する。
それぞれの層の対流分布のソフトマックスエントロピーを「中心」分布の周囲の摂動として扱うことにより、次々に高次相関を分離する閉形式累積可観測物質を導出する。
GPT-2およびPythiaモデルにおけるこれらの累積物質をPile-10Kプロンプト上で追跡する。
(i) 構造的プロンプトは層間に特徴的な立ち上がりと高所なプロファイルを示すが, トークンシャッフルプロンプトは平坦であり, 累積プロファイルが有意な文脈に依存していることを明らかにする。
2) トレーニング中, すべての累積物質は飽和前に単調に増加し, モデルの進行を直接可視化し, 歪, 曲率, 高次統計構造を学習する。
(3)数理的プロンプトは一般的なテキストと異なる累積的シグネチャを示し、モデルが数学的・言語的内容に対して根本的に異なる処理機構をどのように採用するかを定量化する。
これらの結果は、高次元ニューラルネットワークにおける特徴学習ダイナミクスの軽量で数学的基盤となるプローブとして累積解析を確立した。
関連論文リスト
- InfoNCE Induces Gaussian Distribution [7.8922077372145685]
対照的なトレーニングの損失はInfoNCEとその変種である。
我々は、InfoNCEの目的が、対照的な訓練から現れる表現においてガウス構造を誘導することを示す。
ガウスモデルにより、学習された表現の原理的な分析処理が可能となり、コントラスト学習における幅広い応用を支援することが期待されている。
論文 参考訳(メタデータ) (2026-02-27T13:35:58Z) - Maximum entropy based testing in network models: ERGMs and constrained optimization [1.9116784879310027]
ネットワーク空間上での制約付きエントロピー最大化問題を開発する。
得られたテスト統計は、制約付き最適化問題に関連するラグランジュ乗算器によって定義される。
提案するLagrange-multiplierフレームワークは,制約付き最大推定のための古典的スコアテストに自然に接続することを示す。
論文 参考訳(メタデータ) (2026-02-24T12:35:08Z) - In-Context Linear Regression Demystified: Training Dynamics and Mechanistic Interpretability of Multi-Head Softmax Attention [52.159541540613915]
本研究では,マルチヘッド型ソフトマックスアテンションモデルを用いて,線形データを用いたコンテキスト内学習を行う方法について検討する。
この結果から,学習内容の学習能力は,そのアーキテクチャと基礎となるデータ分布の集約的効果として,訓練されたトランスフォーマーから出現することが明らかとなった。
論文 参考訳(メタデータ) (2025-03-17T02:00:49Z) - Spatial Reasoning with Denoising Models [49.83744014336816]
本稿では,連続変数の集合に対する推論を行うためのフレームワークを提案する。
初めて、その生成順序をデノナイジングネットワーク自体によって予測できる。
これらの結果から,特定の推論タスクの精度を1%から50%に向上させることができる。
論文 参考訳(メタデータ) (2025-02-28T14:08:30Z) - On learning higher-order cumulants in diffusion models [6.610338540492242]
本研究では, 高次累積関数, あるいは連結n点関数の挙動を, 前方および後方の両方の過程下で研究する。
モーメントおよび累積生成関数の明示的な表現を導出する。
我々は,非ゼロ累積およびスカラー格子場理論を用いた,正確に解けるおもちゃモデルで実験結果を検証した。
論文 参考訳(メタデータ) (2024-10-28T16:57:02Z) - Convergence of Score-Based Discrete Diffusion Models: A Discrete-Time Analysis [56.442307356162864]
連続時間マルコフ連鎖(CTMC)に基づくスコアベース離散拡散モデルの理論的側面について検討する。
本稿では,事前定義された時間点におけるスコア推定値を利用する離散時間サンプリングアルゴリズムを一般状態空間$[S]d$に導入する。
我々の収束解析はジルサノフ法を用いて離散スコア関数の重要な性質を確立する。
論文 参考訳(メタデータ) (2024-10-03T09:07:13Z) - Bayesian Circular Regression with von Mises Quasi-Processes [57.88921637944379]
本研究では、円値ランダム関数上の表現的および解釈可能な分布の族を探索する。
後部推論のために,高速ギブズサンプリングに寄与するストラトノビッチ様拡張法を導入する。
本研究では,このモデルを用いて風向予測と走行歩行周期のパーセンテージを関節角度の関数として適用する実験を行った。
論文 参考訳(メタデータ) (2024-06-19T01:57:21Z) - Learn2Extend: Extending sequences by retaining their statistical
properties with mixture models [7.15769102504304]
本稿では,実数列の一般有限列を実数列の部分区間内で拡張するという課題に対処する。
我々の焦点は、これらの点集合のギャップ分布とペア相関関数を保存することにある。
本稿では,ポイントプロセスに適用されたディープラーニングの進歩を活用し,自動回帰テキストシーケンス拡張混合モデルの利用について検討する。
論文 参考訳(メタデータ) (2023-12-03T21:05:50Z) - Structured Radial Basis Function Network: Modelling Diversity for
Multiple Hypotheses Prediction [51.82628081279621]
多重モード回帰は非定常過程の予測や分布の複雑な混合において重要である。
構造的放射基底関数ネットワークは回帰問題に対する複数の仮説予測器のアンサンブルとして提示される。
この構造モデルにより, このテッセルレーションを効率よく補間し, 複数の仮説対象分布を近似することが可能であることが証明された。
論文 参考訳(メタデータ) (2023-09-02T01:27:53Z) - Optimal regularizations for data generation with probabilistic graphical
models [0.0]
経験的に、よく調和された正規化スキームは、推論されたモデルの品質を劇的に改善する。
生成的ペアワイドグラフィカルモデルの最大Aポストエリオーリ(MAP)推論におけるL2とL1の正規化について検討する。
論文 参考訳(メタデータ) (2021-12-02T14:45:16Z) - Regularization of Mixture Models for Robust Principal Graph Learning [0.0]
D$次元データポイントの分布から主グラフを学習するために,Mixture Modelsの正規化バージョンを提案する。
モデルのパラメータは期待最大化手順によって反復的に推定される。
論文 参考訳(メタデータ) (2021-06-16T18:00:02Z) - Understanding Neural Abstractive Summarization Models via Uncertainty [54.37665950633147]
seq2seq抽象要約モデルは、自由形式の方法でテキストを生成する。
モデルのトークンレベルの予測のエントロピー、すなわち不確実性について検討する。
要約とテキスト生成モデルをより広範囲に解析する上で,不確実性は有用であることを示す。
論文 参考訳(メタデータ) (2020-10-15T16:57:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。