論文の概要: The Depth Delusion: Why Transformers Should Be Wider, Not Deeper
- arxiv url: http://arxiv.org/abs/2601.20994v1
- Date: Wed, 28 Jan 2026 19:45:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.410368
- Title: The Depth Delusion: Why Transformers Should Be Wider, Not Deeper
- Title(参考訳): なぜトランスフォーマーはより広く、より深みがないのか?
- Authors: Md Muhtasim Munif Fahim, Md Rezaul Karim,
- Abstract要約: 最適深さは D* C0.12 であり, 最適幅は W* C0.34 である。
我々は、D_crit W0.44(Wのサブリニア)を超えて、パラメータを追加しても損失を増加させる重要な深さ現象を発見した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural scaling laws describe how language model loss decreases with parameters and data, but treat architecture as interchangeable--a billion parameters could arise from a shallow-wide model (10 layers & 8,192 hidden dimension) or a deep-narrow one (80 layers & 2,048 hidden dimension). We propose architecture-conditioned scaling laws decomposing this dependence, finding that optimal depth scales as D* ~ C^0.12 while optimal width scales as W* ~ C^0.34, meaning width should grow 2.8x faster than depth. We discover a critical depth phenomenon: beyond D_crit ~ W^0.44 (sublinear in W), adding layers increases loss despite adding parameters--the Depth Delusion. Empirically, we validate these findings across 30 transformer architectures spanning 17M to 7B parameters, each trained on representative high-compute samples, achieving R^2 = 0.922. Our central finding: at 7B scale, a 64-layer model (6.38B params) underperforms a 32-layer model (6.86B params) by 0.12 nats, despite being significantly deeper. This demonstrates that optimal depth-width tradeoffs persist at the production scale.
- Abstract(参考訳): ニューラルネットワークのスケーリング法則は、パラメータとデータによって言語モデルの損失がどのように減少するかを記述するが、アーキテクチャを交換可能なものとして扱う - 数十億のパラメータは、浅い幅のモデル(10層と8,192の隠された次元)または深い狭いモデル(80層と2,048の隠された次元)から生じる可能性がある。
この依存を分解するアーキテクチャ条件付きスケーリング法則を提案し、最適深さはD*〜C^0.12、最適幅はW*〜C^0.34、すなわち幅は深さより2.8倍速くなる。
我々は、D_crit ~ W^0.44(Wのサブリニア)を超えて、パラメータを加算しても損失が増加するという重要な深さ現象を発見した。
実験により、17Mから7Bのパラメータにまたがる30のトランスフォーマーアーキテクチャにおいて,それぞれがR^2 = 0.922を達成し,高精度なサンプルをトレーニングした。
中心的な発見: 7Bスケールでは、64層モデル(6.38Bparams)は、より深いにもかかわらず、32層モデル(6.86Bparams)を0.12ナット下回る。
これは、最適深度幅のトレードオフが生産規模で持続していることを示します。
関連論文リスト
- Temporal Zoom Networks: Distance Regression and Continuous Depth for Efficient Action Localization [6.908972852063454]
時間的行動の局所化は、正確な境界検出と計算効率の両方を必要とする。
我々は、境界距離回帰(BDR)と適応時間制限(ATR)という2つの補完的なイノベーションを通じてこの問題に対処する。
THUMOS14では、ActionFormer++ (55.7% mAP@0.7 at 235G) よりも36%少ないFLOPを用いて、151GのFLOPで56.5% mAP@0.7を達成する。
論文 参考訳(メタデータ) (2025-11-06T00:41:54Z) - Light Differentiable Logic Gate Networks [28.844098517315228]
微分論理ゲートネットワーク(DLGN)は、競合精度を保ちながら、推論において極めて効率が高い。
しかし、勾配の消失、離散化エラー、高いトレーニングコストは、これらのネットワークのスケーリングを妨げる。
これらの問題の根本原因は論理ゲートニューロン自体のパラメトリゼーションにあることを示す。
論文 参考訳(メタデータ) (2025-09-26T04:44:51Z) - Do Language Models Use Their Depth Efficiently? [61.0037917291838]
Llama 3.1, Qwen 3, OLMo 2 モデルの残留ストリームを解析した。
後半のレイヤが前半のレイヤよりもはるかに少ないことが分かりました。
マルチホップタスクでは、モデルが深度を増してサブレサルを構成するという証拠が見つからない。
論文 参考訳(メタデータ) (2025-05-20T04:00:56Z) - Prompting Depth Anything for 4K Resolution Accurate Metric Depth Estimation [108.04354143020886]
本稿では、深度基礎モデルにプロンプトを導入し、Prompt Depth Anythingと呼ばれる計量深度推定のための新しいパラダイムを作成する。
低コストのLiDARを用いて、Depth Anythingモデルによる正確なメートル法深度出力を導出し、最大4K解像度を達成する。
論文 参考訳(メタデータ) (2024-12-18T16:32:12Z) - Scale Propagation Network for Generalizable Depth Completion [16.733495588009184]
入力から出力までのスケールを伝搬する新しいスケール伝搬正規化法(SP-Norm)を提案する。
また,SP-NormとConvNeXt V2のバックボーンをベースとした新しいネットワークアーキテクチャを開発した。
我々のモデルは、最先端の手法と比較して、高速かつ低メモリで常に最高の精度を達成している。
論文 参考訳(メタデータ) (2024-10-24T03:53:06Z) - Enhanced Encoder-Decoder Architecture for Accurate Monocular Depth Estimation [0.0]
本稿では,拡張エンコーダデコーダアーキテクチャを用いた新しい深層学習手法を提案する。
マルチスケールの特徴抽出を取り入れ、様々な物体の大きさと距離の深さ予測精度を高める。
KITTIデータセットによる実験結果から,本モデルでは0.019秒でかなり高速な推定時間を達成できた。
論文 参考訳(メタデータ) (2024-10-15T13:46:19Z) - The case for 4-bit precision: k-bit Inference Scaling Laws [75.4335600212427]
量子化法は、モデル内の各パラメータを表すために必要なビット数を減少させる。
最終的なモデルサイズは、元のモデルのパラメータの数と圧縮率の両方に依存する。
我々は16ビットの入力とkビットのパラメータを持つ35,000以上のゼロショット実験を行い、どの量子化手法が3ビットから8ビットの精度でスケーリングを改善するかを検証した。
論文 参考訳(メタデータ) (2022-12-19T18:48:33Z) - Parameter Efficient Deep Neural Networks with Bilinear Projections [16.628045837101237]
本稿では、従来の全射影を双線形射影に置き換えることで、ディープニューラルネットワーク(DNN)のパラメータ冗長性問題に対処する。
入力ノードが$D$と出力ノードが$D$である完全接続層では、双線形プロジェクションを適用することで、モデル空間の複雑さが軽減される。
4つのベンチマークデータセットの実験では、提案された双線形プロジェクションをディープニューラルネットワークに適用すると、さらに高い精度が得られることが示されている。
論文 参考訳(メタデータ) (2020-11-03T00:17:24Z) - Faster Depth-Adaptive Transformers [71.20237659479703]
深さ適応型ニューラルネットワークは入力単語の硬さに応じて動的に深さを調整することができる。
従来の作業は一般的に、計算が各レイヤで続行するか停止するかを決定するために停止ユニットを構築する。
本稿では,停止ユニットを除去し,必要な深さを事前に推定し,より高速な深度適応モデルを生成する。
論文 参考訳(メタデータ) (2020-04-27T15:08:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。