論文の概要: Inverse Depth Scaling From Most Layers Being Similar
- arxiv url: http://arxiv.org/abs/2602.05970v1
- Date: Thu, 05 Feb 2026 18:22:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:09.113053
- Title: Inverse Depth Scaling From Most Layers Being Similar
- Title(参考訳): ほとんどの層からの逆深さスケーリングは似ている
- Authors: Yizhou Liu, Sara Kangaslahti, Ziming Liu, Jeff Gore,
- Abstract要約: 大規模言語モデル (LLM) の分析により, 深さが損失に与える影響を定量化する。
ロススケールはLLMの深さに逆比例するが、これはおそらく、アンサンブル平均化による誤差の低減が機能的に類似しているためである。
- 参考スコア(独自算出の注目度): 20.276718813247786
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural scaling laws relate loss to model size in large language models (LLMs), yet depth and width may contribute to performance differently, requiring more detailed studies. Here, we quantify how depth affects loss via analysis of LLMs and toy residual networks. We find loss scales inversely proportional to depth in LLMs, probably due to functionally similar layers reducing error through ensemble averaging rather than compositional learning or discretizing smooth dynamics. This regime is inefficient yet robust and may arise from the architectural bias of residual networks and target functions incompatible with smooth dynamics. The findings suggest that improving LLM efficiency may require architectural innovations to encourage compositional use of depth.
- Abstract(参考訳): ニューラルスケーリング法則は、大きな言語モデル(LLM)におけるモデルサイズ損失に関連するが、深さと幅は、より詳細な研究を必要とするため、異なるパフォーマンスに寄与する可能性がある。
ここでは, LLMと玩具残差ネットワークの分析により, 深さが損失に与える影響を定量化する。
LLMにおける損失スケールは, 合成学習やスムーズな力学の離散化よりも, アンサンブル平均化による誤差の低減が, 機能的に類似しているためと考えられる。
この構造は非効率で頑健であり、残余ネットワークのアーキテクチャ上の偏りや、スムーズな力学と相容れないターゲット関数から生じる可能性がある。
この結果から,LLMの効率性の向上には設計上の革新が必要である可能性が示唆された。
関連論文リスト
- Closed-Loop LLM Discovery of Non-Standard Channel Priors in Vision Models [48.83701310501069]
大規模言語モデル(LLM)はニューラルアーキテクチャサーチ(NAS)に対する変換的アプローチを提供する
我々は、LLMが性能テレメトリに基づいてアーキテクチャ仕様を洗練する条件付きコード生成タスクのシーケンスとして検索を定式化する。
AST(Abstract Syntax Tree)変異を用いて,有効かつ整合性のあるアーキテクチャの膨大なコーパスを生成する。
CIFAR-100の実験結果は、この手法の有効性を検証し、精度の統計的に有意な改善をもたらすことを示した。
論文 参考訳(メタデータ) (2026-01-13T13:00:30Z) - What Affects the Effective Depth of Large Language Models? [44.85395501835759]
モデルスケール,トレーニングタイプ,タスクの難易度によって,効果的な深さがどう変化するかを検討する。
有効層数はモデルサイズとともに増加するが, 有効深さ比は安定である。
以上の結果から,現在のLLMでは,スケール,トレーニングパラダイム,難易度が異なるタスクにおいて,利用可能な深度を過小評価していることが示唆された。
論文 参考訳(メタデータ) (2025-12-16T04:07:17Z) - Linear Mode Connectivity under Data Shifts for Deep Ensembles of Image Classifiers [0.0]
線形モード接続(LMC)は、ディープラーニングのいくつかの側面をリンクする。
我々はデータシフトの下でLCCを実験的に研究し、その影響を緩和する条件を特定した。
LMC経由でサンプリングされたモデルは、異なる盆地に収束するモデルよりも、同様のエラーを頻繁に起こす傾向にあるが、LCCの利点は、より大きな、より多様なアンサンブルから得られる利得とトレーニング効率のバランスをとることである。
論文 参考訳(メタデータ) (2025-11-06T16:30:56Z) - Layer Separation Deep Learning Model with Auxiliary Variables for Partial Differential Equations [0.6215404942415159]
本稿では,部分方程式の深層学習に基づく手法を改善するために,階層分離モデル(LySep)を提案する。
損失最小化と解誤差低減におけるLySepの利点を理論的に示す。
論文 参考訳(メタデータ) (2025-07-17T03:43:18Z) - DSMoE: Matrix-Partitioned Experts with Dynamic Routing for Computation-Efficient Dense LLMs [86.76714527437383]
本稿では,事前学習したFFN層を計算ブロックに分割することで,分散化を実現するDSMoEを提案する。
我々は,Sigmoid アクティベーションとストレートスルー推定器を用いた適応型エキスパートルーティングを実装し,トークンがモデル知識の様々な側面に柔軟にアクセスできるようにする。
LLaMAモデルを用いた実験により、DSMoEは既存のプルーニング法やMoE法に比べて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-02-18T02:37:26Z) - The Curse of Depth in Large Language Models [28.37870372690079]
大きな言語モデルでは、約半数のレイヤが予想よりも効果が低い。
層ノルムスケーリング(LNS)は、層正規化の出力の分散を、その深さの平方根によって逆向きにスケールする。
LNSは、LLM事前学習性能の向上において、従来の正規化およびスケーリング技術よりも一貫して優れている。
論文 参考訳(メタデータ) (2025-02-09T07:03:36Z) - Search for Efficient Large Language Models [52.98684997131108]
大規模言語モデル(LLMs)は、人工知能研究の領域で長い間停滞してきた。
軽量プルーニング、量子化、蒸留がLLMの圧縮に取り入れられ、メモリの削減と推論の加速を狙った。
ほとんどのモデル圧縮技術は、最適アーキテクチャの探索を見越して重量最適化に重点を置いている。
論文 参考訳(メタデータ) (2024-09-25T21:32:12Z) - CoMMIT: Coordinated Multimodal Instruction Tuning [90.1532838391285]
マルチモーダル大言語モデル(MLLM)は一般に、バックボーンLLMと非テキスト入力モードの特徴エンコーダ間の協調学習を含む。
本稿では,MLLM命令のチューニングを理論的・経験的両面から解析する。
本稿では,学習のバランスを定量的に測定できるマルチモーダルバランス係数を提案する。
論文 参考訳(メタデータ) (2024-07-29T23:18:55Z) - ShortGPT: Layers in Large Language Models are More Redundant Than You Expect [38.148626520751385]
LLM(Large Language Models)の多くの層は高い類似性を示し、いくつかの層はネットワーク機能において無視できる役割を担っている。
レイヤ除去という,冗長なレイヤを直接削除する,簡単なプルーニング手法を提案する。
実験により,我々はShortGPT(ショートGPT)と呼ぶ手法を,モデルプルーニングにおける従来のSOTA(State-of-the-art)手法よりも大幅に優れていることを示した。
論文 参考訳(メタデータ) (2024-03-06T17:04:18Z) - Scaling Forward Gradient With Local Losses [117.22685584919756]
フォワード学習は、ディープニューラルネットワークを学ぶためのバックプロップに代わる生物学的に妥当な代替手段である。
重みよりも活性化に摂動を適用することにより、前方勾配のばらつきを著しく低減できることを示す。
提案手法はMNIST と CIFAR-10 のバックプロップと一致し,ImageNet 上で提案したバックプロップフリーアルゴリズムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-07T03:52:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。