Fugu-MT 論文翻訳(概要): Probing Geometry of Next Token Prediction Using Cumulant Expansion of the Softmax Entropy

論文の概要: Probing Geometry of Next Token Prediction Using Cumulant Expansion of the Softmax Entropy

arxiv url: http://arxiv.org/abs/2510.04285v1
Date: Sun, 05 Oct 2025 16:55:58 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-07 16:52:59.561255
Title: Probing Geometry of Next Token Prediction Using Cumulant Expansion of the Softmax Entropy
Title（参考訳）: ソフトマックスエントロピーの累積展開による次トーケン予測の探索幾何学
Authors: Karthik Viswanathan, Sang Eon Park,
Abstract要約: 大規模言語モデルが高次統計構造をいかに内包するかを定量化するための累積拡張フレームワークを提案する。 We track cumulants in GPT-2 and Pythia model on Pile-10K prompts。
参考スコア（独自算出の注目度）: 0.4329197710438657
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce a cumulant-expansion framework for quantifying how large language models (LLMs) internalize higher-order statistical structure during next-token prediction. By treating the softmax entropy of each layer's logit distribution as a perturbation around its "center" distribution, we derive closed-form cumulant observables that isolate successively higher-order correlations. Empirically, we track these cumulants in GPT-2 and Pythia models on Pile-10K prompts. (i) Structured prompts exhibit a characteristic rise-and-plateau profile across layers, whereas token-shuffled prompts remain flat, revealing the dependence of the cumulant profile on meaningful context. (ii) During training, all cumulants increase monotonically before saturating, directly visualizing the model's progression from capturing variance to learning skew, kurtosis, and higher-order statistical structures. (iii) Mathematical prompts show distinct cumulant signatures compared to general text, quantifying how models employ fundamentally different processing mechanisms for mathematical versus linguistic content. Together, these results establish cumulant analysis as a lightweight, mathematically grounded probe of feature-learning dynamics in high-dimensional neural networks.
Abstract（参考訳）: 本稿では,大規模言語モデル (LLM) が次点予測において高次統計構造をいかに内部化するかを定量化するための累積拡張フレームワークを提案する。それぞれの層の対流分布のソフトマックスエントロピーを「中心」分布の周囲の摂動として扱うことにより、次々に高次相関を分離する閉形式累積可観測物質を導出する。 GPT-2およびPythiaモデルにおけるこれらの累積物質をPile-10Kプロンプト上で追跡する。 (i) 構造的プロンプトは層間に特徴的な立ち上がりと高所なプロファイルを示すが, トークンシャッフルプロンプトは平坦であり, 累積プロファイルが有意な文脈に依存していることを明らかにする。 2) トレーニング中, すべての累積物質は飽和前に単調に増加し, モデルの進行を直接可視化し, 歪, 曲率, 高次統計構造を学習する。 (3)数理的プロンプトは一般的なテキストと異なる累積的シグネチャを示し、モデルが数学的・言語的内容に対して根本的に異なる処理機構をどのように採用するかを定量化する。これらの結果は、高次元ニューラルネットワークにおける特徴学習ダイナミクスの軽量で数学的基盤となるプローブとして累積解析を確立した。

関連論文リスト

Spatial Reasoning with Denoising Models [49.83744014336816]
本稿では,連続変数の集合に対する推論を行うためのフレームワークを提案する。初めて、その生成順序をデノナイジングネットワーク自体によって予測できる。これらの結果から,特定の推論タスクの精度を1%から50%に向上させることができる。
論文参考訳（メタデータ） (2025-02-28T14:08:30Z)
On learning higher-order cumulants in diffusion models [6.610338540492242]
本研究では, 高次累積関数, あるいは連結n点関数の挙動を, 前方および後方の両方の過程下で研究する。モーメントおよび累積生成関数の明示的な表現を導出する。我々は,非ゼロ累積およびスカラー格子場理論を用いた,正確に解けるおもちゃモデルで実験結果を検証した。
論文参考訳（メタデータ） (2024-10-28T16:57:02Z)
Bayesian Circular Regression with von Mises Quasi-Processes [57.88921637944379]
本研究では、円値ランダム関数上の表現的および解釈可能な分布の族を探索する。後部推論のために,高速ギブズサンプリングに寄与するストラトノビッチ様拡張法を導入する。本研究では,このモデルを用いて風向予測と走行歩行周期のパーセンテージを関節角度の関数として適用する実験を行った。
論文参考訳（メタデータ） (2024-06-19T01:57:21Z)
Learn2Extend: Extending sequences by retaining their statistical properties with mixture models [7.15769102504304]
本稿では,実数列の一般有限列を実数列の部分区間内で拡張するという課題に対処する。我々の焦点は、これらの点集合のギャップ分布とペア相関関数を保存することにある。本稿では,ポイントプロセスに適用されたディープラーニングの進歩を活用し,自動回帰テキストシーケンス拡張混合モデルの利用について検討する。
論文参考訳（メタデータ） (2023-12-03T21:05:50Z)
Optimal regularizations for data generation with probabilistic graphical models [0.0]
経験的に、よく調和された正規化スキームは、推論されたモデルの品質を劇的に改善する。生成的ペアワイドグラフィカルモデルの最大Aポストエリオーリ(MAP)推論におけるL2とL1の正規化について検討する。
論文参考訳（メタデータ） (2021-12-02T14:45:16Z)
Regularization of Mixture Models for Robust Principal Graph Learning [0.0]
D$次元データポイントの分布から主グラフを学習するために,Mixture Modelsの正規化バージョンを提案する。モデルのパラメータは期待最大化手順によって反復的に推定される。
論文参考訳（メタデータ） (2021-06-16T18:00:02Z)
Understanding Neural Abstractive Summarization Models via Uncertainty [54.37665950633147]
seq2seq抽象要約モデルは、自由形式の方法でテキストを生成する。モデルのトークンレベルの予測のエントロピー、すなわち不確実性について検討する。要約とテキスト生成モデルをより広範囲に解析する上で,不確実性は有用であることを示す。
論文参考訳（メタデータ） (2020-10-15T16:57:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。