論文の概要: A Hierarchical Language Model with Predictable Scaling Laws and Provable Benefits of Reasoning
- arxiv url: http://arxiv.org/abs/2605.13687v1
- Date: Wed, 13 May 2026 15:42:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:28.148754
- Title: A Hierarchical Language Model with Predictable Scaling Laws and Provable Benefits of Reasoning
- Title(参考訳): 予測可能なスケーリング法則と推論の有効性を備えた階層型言語モデル
- Authors: Jason Gaitonde, Frederic Koehler, Elchanan Mossel, Joonhyung Shin, Allan Sly,
- Abstract要約: 階層構造を持つ合成言語群を紹介する。
自己回帰生成における文脈長と推論の役割を正確に分析することができる。
- 参考スコア(独自算出の注目度): 15.789193816051911
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a family of synthetic languages with hierarchical structure -- generated by a broadcast process on trees -- for which the role of context length and reasoning in autoregressive generation can be analyzed precisely. At the heart of our analytic approach is an \emph{exact $k$-gram ansatz} in place of transformers with context length $k$, a substitution we then validate empirically. Using this ansatz we derive explicit asymptotic predictions for distributional statistics of the sequences produced by a trained model, instantiated in two settings. For the \emph{Ising broadcast process} (a soft-constrained language), we prove that the variance of the generated sum scales log-linearly in the context depth and its kurtosis converges to that of a Gaussian -- both deviating from the true language for any sublinear context. For the \emph{coloring broadcast process} (a hard-constrained language) in the freezing regime, bounded-context autoregression produces sequences that, with high probability, are inconsistent with \emph{any} valid coloring of the underlying tree. Together these results imply an $Ω(n)$ lower bound on the context length required to faithfully sample length-$n$ sequences. In contrast, we prove that an autoregressive \emph{reasoning} model with only $Θ(\log n)$ working memory can sample exactly from the true language -- an exponential improvement. We confirm both the lower-bound predictions and the reasoning-based upper bound empirically with transformers trained on the synthetic language; the trained models track our asymptotic predictions quantitatively across a wide range of context sizes.
- Abstract(参考訳): 木上の放送プロセスによって生成される階層構造を持つ合成言語群を紹介し, 自己回帰生成における文脈長と推論の役割を正確に分析する。
我々の分析手法の中心は、文脈長$k$の変圧器の代わりに \emph{exact $k$-gram ansatz} である。
このアンザッツを用いて、2つの設定でインスタンス化された訓練されたモデルによって生成されたシーケンスの分布統計に対する明示的な漸近予測を導出する。
ソフト制約付き言語である 'emph{Ising broadcast process} に対して、生成された和の分散が文脈深さで対数直線的にスケールし、そのクルトがガウス語に収束することを証明する。
凍結状態における 'emph{coloring broadcast process} (ハード制約言語) では、有界コンテキスト自己回帰は、高い確率で、基礎となる木の 'emph{any} 有効色付けと矛盾するシーケンスを生成する。
これらの結果は、長さ-$n$列を忠実にサンプリングするために必要な文脈長の$Ω(n)$下界を意味する。
これとは対照的に、動作メモリが$(\log n)$の自己回帰的 \emph{reasoning} モデルが真の言語から正確にサンプリングできることは、指数関数的改善である。
学習されたモデルでは, 様々な文脈サイズで, 漸近予測を定量的に追跡し, 学習した言語で学習したトランスフォーマーを用いて, 下位境界予測と推論に基づく上界境界予測の両方を実証的に確認する。
関連論文リスト
- Perturbation is All You Need for Extrapolating Language Models [10.671612115533597]
大規模言語モデルをトレーニングするためのシンプルな、しかし強力なフレームワークを紹介します。
我々は、厳密な外挿可能性の理論、すなわち、信頼性のある予測を行うためのモデルクラスの能力を開発する。
提案手法は,競争力のあるサポート性能を維持しつつ,サポート外予測を継続的に改善することを示す。
論文 参考訳(メタデータ) (2026-05-05T23:03:33Z) - Context-level Language Modeling by Learning Predictive Context Embeddings [79.00607069677393]
textbfContextLMは、固有のtextbfnext-context予測目標で標準事前学習を強化するフレームワークである。
このメカニズムは、将来のトークンチャンクから派生したエラー信号を利用して、マルチトークンコンテキストの予測表現を学ぶようモデルを訓練する。
GPT2およびPythiaモデルファミリーの実験では、1.5ドルBのパラメータまでスケールし、ContextLMがパープレキシティとダウンストリームのタスクパフォーマンスの両方で一貫した改善を提供することを示した。
論文 参考訳(メタデータ) (2025-10-23T07:09:45Z) - Towards a theory of how the structure of language is acquired by deep neural networks [6.363756171493383]
木のような生成モデルを用いて、自然言語で見られる階層構造の多くをキャプチャする。
トークンとトークンの相関は文法の隠れ変数の表現を構築するのに有効であることを示す。
トレーニングセットのサイズと効果的な相関範囲の関係は、我々の合成データセットを超えていると推測する。
論文 参考訳(メタデータ) (2024-05-28T17:01:22Z) - Slaves to the Law of Large Numbers: An Asymptotic Equipartition Property for Perplexity in Generative Language Models [0.0]
言語モデルにより生成された大きなテキストの対数的パープレキシティは、トークン分布の平均エントロピーに収束しなければならないことを示す。
これは、言語モデルによって生成される全ての長い合成テキストが属しなければならない典型的な集合'を定義する。
論文 参考訳(メタデータ) (2024-05-22T16:23:40Z) - A Pseudo-Semantic Loss for Autoregressive Models with Logical
Constraints [87.08677547257733]
ニューロシンボリックAIは、純粋にシンボリックな学習とニューラルな学習のギャップを埋める。
本稿では,ニューラルネットワークの出力分布に対するシンボリック制約の可能性を最大化する方法を示す。
また,スドクと最短経路予測の手法を自己回帰世代として評価した。
論文 参考訳(メタデータ) (2023-12-06T20:58:07Z) - Hierarchical Phrase-based Sequence-to-Sequence Learning [94.10257313923478]
本稿では、学習中の帰納バイアスの源として階層的フレーズを取り入れ、推論中の明示的な制約として、標準的なシーケンス・ツー・シーケンス(seq2seq)モデルの柔軟性を維持するニューラルトランスデューサについて述べる。
本手法では,木が原文と対象句を階層的に整列するブラケット文法に基づく識別的導出法と,整列した句を1対1で翻訳するニューラルネットワークセク2セックモデルという2つのモデルを訓練する。
論文 参考訳(メタデータ) (2022-11-15T05:22:40Z) - Tight Nonparametric Convergence Rates for Stochastic Gradient Descent
under the Noiseless Linear Model [0.0]
このモデルに基づく最小二乗リスクに対する1パス, 固定段差勾配勾配の収束度を解析した。
特殊な場合として、ランダムなサンプリング点における値のノイズのない観測から単位区間上の実関数を推定するオンラインアルゴリズムを解析する。
論文 参考訳(メタデータ) (2020-06-15T08:25:50Z) - On the Discrepancy between Density Estimation and Sequence Generation [92.70116082182076]
log-likelihoodは、同じファミリー内のモデルを考えるとき、BLEUと非常に相関している。
異なる家族間でのモデルランキングの相関はみられない。
論文 参考訳(メタデータ) (2020-02-17T20:13:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。