論文の概要: How Much Is One Recurrence Worth? Iso-Depth Scaling Laws for Looped Language Models
- arxiv url: http://arxiv.org/abs/2604.21106v2
- Date: Mon, 27 Apr 2026 13:50:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:06.923087
- Title: How Much Is One Recurrence Worth? Iso-Depth Scaling Laws for Looped Language Models
- Title(参考訳): 1つの再帰的価値はいくらか? ループ型言語モデルの等深度スケーリング法則
- Authors: Kristian Schwethelm, Daniel Rueckert, Georgios Kaissis,
- Abstract要約: ループ(深度再帰)言語モデルにどれだけの余分な再発があるかを測定する。
本手法は任意のループ化LMに適用し,真のループ改善をトークン予算ゲインから分離する。
- 参考スコア(独自算出の注目度): 33.509836193149795
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We measure how much one extra recurrence is worth to a looped (depth-recurrent) language model, in equivalent unique parameters. From an iso-depth sweep of 116 pretraining runs across recurrence counts $r \in \{1, 2, 4, 8\}$ spanning ${\sim}50\times$ in training compute, we fit a joint scaling law $L = E + A\,(N_\text{once} + r^{\varphi} N_\text{rec})^{-α} + B\,D^{-β}$ and recover a new recurrence-equivalence exponent $\varphi = 0.46$. Intuitively, $\varphi$ tells us whether looping a block $r$ times is equivalent in validation loss to $r$ unique blocks of a non-looped model (full equivalence, $\varphi{=}1$) or to a single block run repeatedly with no capacity gain ($\varphi{=}0$). Our $\varphi = 0.46$ sits in between, so each additional recurrence predictably increases validation loss at matched training compute. For example, at $r{=}4$ a 410M looped model performs on par with a 580M non-looped model, but incurs the training cost of a 1B non-looped one. We demonstrate the utility of $\varphi$ as a measurement tool on two probes. Truncated backpropagation lowers $\varphi$ to $0.38$, indicating that the loop mechanism is poorly trained under truncation, even though validation loss decreases. Conversely, hyperconnections raise $\varphi$ to $0.65$, a genuine capacity gain. Our method applies to any looped LM and separates true loop improvements from token-budget gains.
- Abstract(参考訳): ループ化された(深度再帰的な)言語モデルに対して,等価な一意なパラメータで,1つの余分な再発がどの程度価値があるかを計測する。
r \in \{1, 2, 8\}$ spaning ${\sim}50\times$ in training compute, we fit a joint scaling law $L = E + A\,(N_\text{once} + r^{\varphi} N_\text{rec})^{-α} + B\,D^{-β}$ and recovery a new recurrence-equivalence exponent $\varphi = 0.46$。
直感的には、$\varphi$は、ブロック$r$ timesのループが、非ループモデルの$r$ユニークなブロック(フル同値、$\varphi{=}1$)か、キャパシティゲインなしで繰り返し実行されるシングルブロック($\varphi{=}0$)に等しいかどうかを教えてくれる。
私たちの$\varphi = 0.46$は、中間にあるので、追加の繰り返しは、マッチしたトレーニング計算におけるバリデーション損失を予測的に増加させます。
例えば、$r{=}4$ 410Mのループモデルは、580Mのループなしモデルと同等に動作するが、1Bのループなしモデルのトレーニングコストを発生させる。
2つのプローブ上での測定ツールとして$\varphi$の有用性を実証する。
縮小されたバックプロパゲーションは$\varphi$を$0.38$に下げる。
逆に、ハイパーコネクションは$\varphi$を$0.65$に引き上げる。
本手法は任意のループ化LMに適用し,真のループ改善をトークン予算ゲインから分離する。
関連論文リスト
- Heavy-Tailed Linear Bandits: Huber Regression with One-Pass Update [62.96781471194877]
ヘビーテール付きバンディットには、ヘビーテール付きノイズ、トランケーション、中央値の2つの基本戦略が導入されている。
本稿では,オンラインミラー降下フレームワークに基づくEmphone-passアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-03-01T09:41:45Z) - Federated Linear Bandits with Finite Adversarial Actions [20.1041278044797]
我々は、M$のクライアントが中央サーバと通信し、線形文脈の帯域幅問題を解決するための連合線形帯域幅モデルについて検討する。
逆有限作用集合のユニークな問題に対処するため、FedSupLinUCBアルゴリズムを提案する。
我々は、FedSupLinUCBが$tildeO(sqrtd T)$の完全後悔を達成したことを証明している。
論文 参考訳(メタデータ) (2023-11-02T03:41:58Z) - Scaling Up Differentially Private LASSO Regularized Logistic Regression
via Faster Frank-Wolfe Iterations [51.14495595270775]
我々は,Frank-Wolfeアルゴリズムを$L_1$のペナル化線形回帰に適応させ,スパース入力を認識し,有効利用する。
この方法では,プライバシパラメータ$epsilon$の値とデータセットの分散度に応じて,最大2,200times$の係数でランタイムを削減できることを示す。
論文 参考訳(メタデータ) (2023-10-30T19:52:43Z) - Regret-Optimal Federated Transfer Learning for Kernel Regression with Applications in American Option Pricing [8.723136784230906]
本稿では、中央プランナーがデータセットにアクセス可能なフェデレーショントランスファー学習のための最適反復スキームを提案する。
我々の目標は、生成されたパラメータの累積偏差を$thetai(t)_t=0T$で最小化することである。
後悔と最適化のアルゴリズム内で対称性を活用することで, $mathcalO(Np2)$少なめの初等演算を伴って動作する,ほぼ後悔のいく$_optimalを開発する。
論文 参考訳(メタデータ) (2023-09-08T19:17:03Z) - Near-Optimal Regret Bounds for Multi-batch Reinforcement Learning [54.806166861456035]
本研究では,有限水平マルコフ決定過程(MDP)によってモデル化されたエピソディック強化学習(RL)問題をバッチ数に制約を加えて検討する。
我々は,$tildeO(sqrtSAH3Kln (1/delta))$tildeO(cdot)をほぼ最適に後悔するアルゴリズムを設計し,$(S,A,H,K)$の対数項を$K$で隠蔽する。
技術的貢献は2つある: 1) 探索のためのほぼ最適設計スキーム
論文 参考訳(メタデータ) (2022-10-15T09:22:22Z) - Reward-Mixing MDPs with a Few Latent Contexts are Learnable [75.17357040707347]
報酬混合マルコフ決定過程(RMMDP)におけるエピソード強化学習の検討
我々のゴールは、そのようなモデルにおける時間段階の累積報酬をほぼ最大化する、ほぼ最適に近いポリシーを学ぶことである。
論文 参考訳(メタデータ) (2022-10-05T22:52:00Z) - Training Multi-Layer Over-Parametrized Neural Network in Subquadratic
Time [12.348083977777833]
我々は、損失関数によって引き起こされる経験的リスクを最小限に抑えるために、多層超並列ニューラルネットワークを訓練する問題を考察する。
本研究では,イテレーション毎のトレーニングコストの削減方法を示す。
論文 参考訳(メタデータ) (2021-12-14T18:13:36Z) - An Algorithm for Learning Smaller Representations of Models With Scarce Data [0.0]
本稿では,データセットが問題を完全に表現していない場合のバイナリ分類問題の解法を提案する。
我々のアルゴリズムは、基礎となる分布の支持にある多様体をホモロジーに再構成することで機能する。
論文 参考訳(メタデータ) (2020-10-15T19:17:51Z) - $Q$-learning with Logarithmic Regret [60.24952657636464]
楽観的な$Q$は$mathcalOleft(fracSAcdot mathrmpolyleft(Hright)Delta_minlogleft(SATright)right)$ cumulative regret bound, where $S$ is the number of state, $A$ is the number of action, $H$ is the planning horizon, $T$ is the total number of steps, $Delta_min$ is the least sub-Optitimality gap。
論文 参考訳(メタデータ) (2020-06-16T13:01:33Z) - Model-Free Reinforcement Learning: from Clipped Pseudo-Regret to Sample
Complexity [59.34067736545355]
S$状態、$A$アクション、割引係数$gamma in (0,1)$、近似しきい値$epsilon > 0$の MDP が与えられた場合、$epsilon$-Optimal Policy を学ぶためのモデルなしアルゴリズムを提供する。
十分小さな$epsilon$の場合、サンプルの複雑さで改良されたアルゴリズムを示す。
論文 参考訳(メタデータ) (2020-06-06T13:34:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。