論文の概要: Do Depth-Grown Models Overcome the Curse of Depth? An In-Depth Analysis
- arxiv url: http://arxiv.org/abs/2512.08819v1
- Date: Tue, 09 Dec 2025 17:12:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-10 22:28:08.060293
- Title: Do Depth-Grown Models Overcome the Curse of Depth? An In-Depth Analysis
- Title(参考訳): 深さ-成長モデルが深さの曲線を上回るか? -深さ解析による検討-
- Authors: Ferdinand Kapl, Emmanouil Angelis, Tobias Höppe, Kaitlin Maile, Johannes von Oswald, Nino Scherrer, Stefan Bauer,
- Abstract要約: 以上の結果から,非成長型プレ層ノルム変圧器の後半層は,後半層よりも最終出力分布に寄与することが示唆された。
この研究は、モデル深さの段階的な成長が、異なる計算回路の形成にどのように寄与するかを強調している。
- 参考スコア(独自算出の注目度): 40.72065859626204
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Gradually growing the depth of Transformers during training can not only reduce training cost but also lead to improved reasoning performance, as shown by MIDAS (Saunshi et al., 2024). Thus far, however, a mechanistic understanding of these gains has been missing. In this work, we establish a connection to recent work showing that layers in the second half of non-grown, pre-layernorm Transformers contribute much less to the final output distribution than those in the first half - also known as the Curse of Depth (Sun et al., 2025, Csordás et al., 2025). Using depth-wise analyses, we demonstrate that growth via gradual middle stacking yields more effective utilization of model depth, alters the residual stream structure, and facilitates the formation of permutable computational blocks. In addition, we propose a lightweight modification of MIDAS that yields further improvements in downstream reasoning benchmarks. Overall, this work highlights how the gradual growth of model depth can lead to the formation of distinct computational circuits and overcome the limited depth utilization seen in standard non-grown models.
- Abstract(参考訳): トレーニング中のトランスフォーマーの深さを徐々に増加させることは、トレーニングコストを削減できるだけでなく、MIDAS(Saunshi et al , 2024)が示すように、推論性能の向上にも繋がる。
しかし、これまでのところ、これらの利得に関する機械的な理解は欠落している。
本研究では,非成長プレ層ノルム変圧器の後半層が最終出力分布に寄与しないことを示す最近の研究とのつながりを確立する(Sun et al , 2025, Csordás et al , 2025)。
深度解析を用いて、段階的な中層化による成長はモデル深度をより効果的に利用し、残差ストリーム構造を変化させ、置換可能な計算ブロックの形成を容易にすることを示した。
さらに、下流推論ベンチマークのさらなる改善をもたらすMIDASの軽量な修正を提案する。
全体として、この研究は、モデル深さの段階的な成長が、異なる計算回路の形成をもたらし、標準の非成長モデルに見られる制限された深度利用を克服する方法について強調する。
関連論文リスト
- Region-aware Depth Scale Adaptation with Sparse Measurements [8.532410904912922]
本研究では,基礎モデルの相対スケール予測を計量スケールの深さに適応させるために,非学習に基づくアプローチを導入する。
本手法では, 再訓練も微調整も必要とせず, 元の基礎モデルの強力な一般化能力を保っている。
論文 参考訳(メタデータ) (2025-07-20T09:36:57Z) - Do Language Models Use Their Depth Efficiently? [61.0037917291838]
Llama 3.1, Qwen 3, OLMo 2 モデルの残留ストリームを解析した。
後半のレイヤが前半のレイヤよりもはるかに少ないことが分かりました。
マルチホップタスクでは、モデルが深度を増してサブレサルを構成するという証拠が見つからない。
論文 参考訳(メタデータ) (2025-05-20T04:00:56Z) - The Curse of Depth in Large Language Models [28.37870372690079]
大きな言語モデルでは、約半数のレイヤが予想よりも効果が低い。
層ノルムスケーリング(LNS)は、層正規化の出力の分散を、その深さの平方根によって逆向きにスケールする。
LNSは、LLM事前学習性能の向上において、従来の正規化およびスケーリング技術よりも一貫して優れている。
論文 参考訳(メタデータ) (2025-02-09T07:03:36Z) - LaCo: Large Language Model Pruning via Layer Collapse [56.92068213969036]
トランスフォーマーに基づく大規模言語モデル(LLM)は、サイズ拡大の顕著な傾向を目撃している。
モデル量子化、知識蒸留、モデルプルーニングといった既存の手法は、様々な問題によって制約されている。
後部モデル層が前層に崩壊する「textitLayer Collapse (LaCo)」と呼ばれる簡潔な層構造プルーナーを提案する。
論文 参考訳(メタデータ) (2024-02-17T04:16:30Z) - Improving Depth Gradient Continuity in Transformers: A Comparative Study on Monocular Depth Estimation with CNN [9.185929396989083]
我々は、トランスフォーマーとCNNの区別を対照的に分析するために、スパースピクセルアプローチを採用している。
以上の結果から,トランスフォーマーはグローバルな文脈や複雑なテクスチャを扱うのに優れるが,CNNより遅れて奥行き勾配の連続性を保っていることが示唆された。
本稿では,高次微分,特徴融合,再校正による深度推定を改良したDGRモジュールを提案する。
論文 参考訳(メタデータ) (2023-08-16T12:46:52Z) - Unlocking the Potential of Federated Learning for Deeper Models [24.875271131226707]
フェデレートラーニング(FL)は、分散機械学習の新しいパラダイムであり、グローバルモデルを複数のクライアントでトレーニングできるようにする。
本稿では,より広義のモデルを用いたり,受容領域を縮小したりするなど,ばらつきの低減に基づくいくつかの技術ガイドラインを提案する。
これらの手法はより深いモデルにおけるFLの精度を大幅に向上させることができる。
論文 参考訳(メタデータ) (2023-06-05T08:45:44Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。