論文の概要: Data Scaling as Progressive Coverage of a Predictive Contribution Spectrum
- arxiv url: http://arxiv.org/abs/2605.20196v1
- Date: Sun, 05 Apr 2026 10:47:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 12:34:33.960476
- Title: Data Scaling as Progressive Coverage of a Predictive Contribution Spectrum
- Title(参考訳): 予測コントリビューションスペクトルのプログレッシブカバレッジとしてのデータスケーリング
- Authors: Zihui Song, Shihao Ji, Hongxi Li, Shuaizhi Cheng, Chunlin Huang,
- Abstract要約: 我々は,テキストコーパスの接尾辞オートマトン表現を用いて,データ固有のグローバルKL予測コントリビューションスペクトルを定義する。
12個の実コーパスで、このスペクトルの尾傾きは、固定された小さなGPT学習者の経験的データスケーリング指数とすでに強く相関している。
そして,各トレーニングサイズ N に対して,観測された余剰損失を準備された1000kグローバルKLスペクトルの残留テール質量にマッチングすることにより,有効トルーニケートランクK(N) を定義する。
- 参考スコア(独自算出の注目度): 8.712329259931673
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We investigate the hypothesis that real-data scaling laws are governed by progressive coverage of a latent predictive contribution spectrum rather than by token-frequency tails alone. We work with a suffix-automaton representation of text corpora and define a data-intrinsic global-KL predictive contribution spectrum, in which each state contributes according to its empirical mass times its KL deviation from a global next-token baseline. Across 12 real corpora, the tail slope of this spectrum is already strongly correlated with the empirical data-scaling exponent of a fixed small GPT learner. We then go beyond slope correlation and define, for each training size N, an effective truncation rank K(N) by matching the observed excess loss to the residual tail mass of the prepared 1000k global-KL spectrum. Empirically, log K is close to linear in log N, with pooled R^2 about 0.96 for the raw spectrum and R^2 about 0.90 for the smoothed spectrum. These findings provide strong empirical support for a simple mechanism picture: training scale advances an effective frontier through a predictive state spectrum, and the residual tail mass of that spectrum tracks the remaining excess loss.
- Abstract(参考訳): 実データスケーリング法則は、トークン周波数のみではなく、遅延予測寄与スペクトルのプログレッシブカバレッジによって支配されるという仮説を考察する。
我々は、テキストコーパスの接尾辞オートマトン表現を用いて、データ固有のグローバル-KL予測コントリビューションスペクトルを定義し、各状態がグローバル次トーケンベースラインからのKL偏差を経験的質量時間に応じて寄与する。
12個の実コーパスで、このスペクトルの尾傾きは、固定された小さなGPT学習者の経験的データスケーリング指数とすでに強く相関している。
そして,各トレーニングサイズ N に対して,観測された余剰損失を準備された1000kグローバルKLスペクトルの残留テール質量にマッチングすることにより,有効トルーニケートランクK(N) を定義する。
経験的に、log K は log N において線型に近く、プールされた R^2 は生スペクトルで 0.96 、R^2 は滑らかなスペクトルで 0.90 である。
トレーニングスケールは、予測状態スペクトルを通して有効なフロンティアを前進させ、そのスペクトルの残留尾質量は残りの余剰損失を追跡する。
関連論文リスト
- FRIGID: Scaling Diffusion-Based Molecular Generation from Mass Spectra at Training and Inference Time [52.735012862324766]
本稿では,質量スペクトルに条件付き構造を生成する新しい拡散言語モデルを用いたフレームワークFRIGIDを提案する。
スペクトル非一貫性フラグメントを同定することにより、前方フラグメンテーションモデルが推論時間スケーリングを実現する方法を示す。
さらなる実証分析により、FRIGIDは推論時間の増大を伴う対数線形性能のスケーリングを示すことが示された。
論文 参考訳(メタデータ) (2026-04-17T19:11:18Z) - On the Spectral Flattening of Quantized Embeddings [25.64641307046705]
超低精度での大規模言語モデルの訓練は、離散量子化制約と言語データの本質的な重み付きスペクトル特性の相違に根ざした不安定性によって、決定的に阻害される。
この研究は、LLMのスペクトル感度を定量化するだけでなく、安定な低ビット最適化に必要な条件としてスペクトル忠実性を確立する。
論文 参考訳(メタデータ) (2026-02-01T02:21:53Z) - Hessian Spectral Analysis at Foundation Model Scale [1.9244735303181757]
我々は、真のヘッセンの忠実スペクトル解析がフロンティアスケールで抽出可能であることを示す。
我々は、サブ10B体制を超えて、最初の大規模スペクトル密度推定を行う。
論文 参考訳(メタデータ) (2026-01-31T16:57:06Z) - SIGMA: Scalable Spectral Insights for LLM Collapse [51.863164847253366]
SIGMA(Spectral Inequalities for Gram Matrix Analysis)は,モデル崩壊のための統一的なフレームワークである。
行列のスペクトル上の決定論的境界を導出するベンチマークを利用することで、SIGMAは表現空間の収縮を追跡するために数学的に基底化された計量を提供する。
我々は、SIGMAが状態への遷移を効果的に捉え、崩壊のメカニズムに関する理論的知見の両方を提供することを示した。
論文 参考訳(メタデータ) (2026-01-06T19:47:11Z) - Spectral Graph Clustering under Differential Privacy: Balancing Privacy, Accuracy, and Efficiency [53.98433419539793]
エッジ差分プライバシー(DP)下におけるスペクトルグラフクラスタリングの問題点について検討する。
具体的には, (i) エッジフリップによるグラフ摂動と, エッジプライバシを強制する隣接行列シャッフルを併用したグラフ摂動, (ii) 次元と複雑性の複雑さを低減するために低次元空間における加法的ガウス雑音を伴うプライベートグラフプロジェクション, (iii) 収束性を維持しながらエッジDPを確保するために反復的にガウス雑音を分散するノイズの多いパワーイテレーション手法である。
論文 参考訳(メタデータ) (2025-10-08T15:30:27Z) - The moments of the spectral form factor in SYK [0.0]
カオス量子系において、スペクトル形成因子は、重畳された不規則振動を伴う普遍線型ランプとプラトー構造を示す。
本研究では,SYKモデルにおいて,ランプ領域の時間を記述するサドル点を同定する。
我々は、スペクトル形状因子が高雑音の指数的傾斜を示す$q=2$SYKモデルについて検討した。
論文 参考訳(メタデータ) (2024-12-25T01:50:28Z) - Approximate Heavy Tails in Offline (Multi-Pass) Stochastic Gradient
Descent [33.9917975060585]
オフライン(マルチパスとも呼ばれる)SGDの定常分布は「近似的な」パワーローテールを示す。
データポイントの数が増加するにつれて、オフラインのSGDはますます「大義的」に振る舞うのが主な特徴です。
論文 参考訳(メタデータ) (2023-10-27T20:06:03Z) - Bayesian Renormalization [68.8204255655161]
ベイズ統計的推論にインスパイアされた再正規化に対する完全情報理論的アプローチを提案する。
ベイズ再正規化の主な洞察は、フィッシャー計量が創発的RGスケールの役割を担う相関長を定義することである。
本研究では,ベイズ正規化方式が既存のデータ圧縮法やデータ生成法とどのように関係しているかを考察する。
論文 参考訳(メタデータ) (2023-05-17T18:00:28Z) - Optimal policy evaluation using kernel-based temporal difference methods [78.83926562536791]
カーネルヒルベルト空間を用いて、無限水平割引マルコフ報酬過程の値関数を推定する。
我々は、関連するカーネル演算子の固有値に明示的に依存した誤差の非漸近上界を導出する。
MRP のサブクラスに対する minimax の下位境界を証明する。
論文 参考訳(メタデータ) (2021-09-24T14:48:20Z) - Distribution of Classification Margins: Are All Data Equal? [61.16681488656473]
我々は理論的に動機付け、トレーニングセット上のマージン分布の曲線の下の領域が実際は一般化のよい尺度であることを実証的に示す。
結果として生じる"高いキャパシティ"機能のサブセットは、異なるトレーニング実行間で一貫性がない。
論文 参考訳(メタデータ) (2021-07-21T16:41:57Z) - Cycle-StarNet: Bridging the gap between theory and data by leveraging
large datasets [0.0]
現在のスペクトル分析の自動化手法は、(a)データ駆動であり、恒星パラメータと元素の存在量の事前の知識を必要とするか、(b)理論と実践のギャップに影響を受けやすい理論合成モデルに基づくかのいずれかである。
本研究では、シミュレーションされた恒星スペクトルを、教師なし学習を大規模分光サーベイに適用することにより、現実的なスペクトルに変換するハイブリッドな生成領域適応法を提案する。
論文 参考訳(メタデータ) (2020-07-06T23:06:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。