論文の概要: From Growing to Looping: A Unified View of Iterative Computation in LLMs
- arxiv url: http://arxiv.org/abs/2602.16490v1
- Date: Wed, 18 Feb 2026 14:25:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-19 15:58:30.613753
- Title: From Growing to Looping: A Unified View of Iterative Computation in LLMs
- Title(参考訳): 成長からループへ: LLMにおける反復計算の統一的視点
- Authors: Ferdinand Kapl, Emmanouil Angelis, Kaitlin Maile, Johannes von Oswald, Stefan Bauer,
- Abstract要約: ループおよび深さ成長モデルは収束深度ワイドシグネチャを示す。
深度成長モデルの中間ブロックに推論時ループを適用することで、最大2倍の精度が向上する。
深度成長モデルは、高品質で数学に富んだ混合物を使用する場合、最大の推論ゲインを得る。
- 参考スコア(独自算出の注目度): 42.46854018848624
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Looping, reusing a block of layers across depth, and depth growing, training shallow-to-deep models by duplicating middle layers, have both been linked to stronger reasoning, but their relationship remains unclear. We provide a mechanistic unification: looped and depth-grown models exhibit convergent depth-wise signatures, including increased reliance on late layers and recurring patterns aligned with the looped or grown block. These shared signatures support the view that their gains stem from a common form of iterative computation. Building on this connection, we show that the two techniques are adaptable and composable: applying inference-time looping to the middle blocks of a depth-grown model improves accuracy on some reasoning primitives by up to $2\times$, despite the model never being trained to loop. Both approaches also adapt better than the baseline when given more in-context examples or additional supervised fine-tuning data. Additionally, depth-grown models achieve the largest reasoning gains when using higher-quality, math-heavy cooldown mixtures, which can be further boosted by adapting a middle block to loop. Overall, our results position depth growth and looping as complementary, practical methods for inducing and scaling iterative computation to improve reasoning.
- Abstract(参考訳): 中層を重複させることで深層をループ化し、深層を再利用し、深層を深層に成長させ、深層から深層へのモデルを訓練することは、どちらもより強い推論に結びついているが、それらの関係はいまだに不明である。
ループ化および深さ成長モデルでは、遅延層への依存度の増加や、ループ化または成長ブロックに整合した繰り返しパターンを含む、収束した深さワイドなシグネチャが示される。
これらの共有シグネチャは、利得が反復計算の共通形式に由来するという見解を支持する。
この接続に基づいて、この2つの手法が適応可能であり、構成可能であることを示す: 深さ成長モデルの中間ブロックに推論時ループを適用することは、ループの訓練を受けていないモデルにもかかわらず、いくつかの推論プリミティブの精度を最大2\times$に改善する。
どちらのアプローチも、より多くのコンテキスト内例や教師付き微調整データを与えると、ベースラインよりもうまく適応する。
さらに、深度成長モデルでは、中間ブロックをループに適応させることで、より高品質で数学的な重み付けの冷却混合物を使用することで、最大の推理効果が得られる。
全体として,本研究の結果は,推論を改善するために反復計算を誘導・拡張するための補完的,実践的な手法として,深度成長とループが位置づけられている。
関連論文リスト
- Do Depth-Grown Models Overcome the Curse of Depth? An In-Depth Analysis [40.72065859626204]
以上の結果から,非成長型プレ層ノルム変圧器の後半層は,後半層よりも最終出力分布に寄与することが示唆された。
この研究は、モデル深さの段階的な成長が、異なる計算回路の形成にどのように寄与するかを強調している。
論文 参考訳(メタデータ) (2025-12-09T17:12:04Z) - TL;DR: Too Long, Do Re-weighting for Efficient LLM Reasoning Compression [55.37723860832064]
高度なデータアノテーションに依存しない動的比に基づくトレーニングパイプラインを提案する。
我々は、DeepSeek-R1-Distill-7BとDeepSeek-R1-Distill-14Bのモデルと、様々な難易度を持つ様々なベンチマークのモデルに対するアプローチを検証する。
論文 参考訳(メタデータ) (2025-06-03T09:23:41Z) - Do Language Models Use Their Depth Efficiently? [61.0037917291838]
Llama 3.1, Qwen 3, OLMo 2 モデルの残留ストリームを解析した。
後半のレイヤが前半のレイヤよりもはるかに少ないことが分かりました。
マルチホップタスクでは、モデルが深度を増してサブレサルを構成するという証拠が見つからない。
論文 参考訳(メタデータ) (2025-05-20T04:00:56Z) - A Two-Phase Perspective on Deep Learning Dynamics [0.0]
深層ニューラルネットワークの学習は、高速な曲線フィッティングフェーズと、低速な圧縮または粗粒化フェーズの2段階に進むことを提案する。
私たちは、関連する時間スケールが2つのかなり異なる設定で一致していることを実証的に示します。
第2フェーズは、標準的なトレーニングアルゴリズムによって積極的に最適化されておらず、不要に長期化される可能性がある、と我々は主張する。
論文 参考訳(メタデータ) (2025-04-17T06:57:37Z) - Loop Neural Networks for Parameter Sharing [1.1049608786515839]
本稿では,モデルサイズを増大させることなく,より長い計算時間を活用することにより,より優れた性能を実現するループニューラルネットワークを提案する。
提案手法では,残差接続を持つモデルのサブセットを反復的にループすることで,入力を複数回再検討する。
本手法の有効性を,GPT-2とループモデルの比較実験により実証し,類似したパラメータ数を維持しつつ,言語モデリングタスクの性能向上を示す。
論文 参考訳(メタデータ) (2024-09-21T17:07:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。