論文の概要: What Affects the Effective Depth of Large Language Models?
- arxiv url: http://arxiv.org/abs/2512.14064v1
- Date: Tue, 16 Dec 2025 04:07:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 16:49:26.579199
- Title: What Affects the Effective Depth of Large Language Models?
- Title(参考訳): 大規模言語モデルの効果的な深さに影響を与えるものは何か?
- Authors: Yi Hu, Cai Zhou, Muhan Zhang,
- Abstract要約: モデルスケール,トレーニングタイプ,タスクの難易度によって,効果的な深さがどう変化するかを検討する。
有効層数はモデルサイズとともに増加するが, 有効深さ比は安定である。
以上の結果から,現在のLLMでは,スケール,トレーニングパラダイム,難易度が異なるタスクにおいて,利用可能な深度を過小評価していることが示唆された。
- 参考スコア(独自算出の注目度): 44.85395501835759
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The scaling of large language models (LLMs) emphasizes increasing depth, yet performance gains diminish with added layers. Prior work introduces the concept of "effective depth", arguing that deeper models fail to fully utilize their layers for meaningful computation. Building on this, we systematically study how effective depth varies with model scale, training type, and task difficulty. First, we analyze the model behavior of Qwen-2.5 family (1.5B-32B) and find that while the number of effective layers grows with model size, the effective depth ratio remains stable. Besides, comparisons between base and corresponding long-CoT models show no increase in effective depth, suggesting that improved reasoning stems from longer context rather than deeper per-token computation. Furthermore, evaluations across tasks of varying difficulty indicate that models do not dynamically use more layers for harder problems. Our results suggest that current LLMs underuse available depth across scales, training paradigms and tasks of varying difficulties, pointing out research opportunities on increasing the layer utilization rate of LLMs, model pruning, and early exiting. Our code is released at https://github.com/AheadOFpotato/what_affects_effective_depth.
- Abstract(参考訳): 大規模言語モデル(LLM)のスケーリングは、深さの増大を強調するが、レイヤーの追加でパフォーマンスが向上する。
先行研究は「効果的な深さ」の概念を導入し、より深いモデルは意味のある計算にレイヤーを完全に活用できないと主張した。
これに基づいて、モデルスケール、トレーニングタイプ、タスクの難易度によって、効果的深さがどのように変化するかを体系的に研究する。
まず, Qwen-2.5 family (1.5B-32B) のモデル挙動を分析し, 有効層数はモデルサイズとともに増加するが, 有効深さ比は安定であることがわかった。
さらに、ベースモデルと対応する長CoTモデルの比較では、効果的な深さの増大は見られず、推論の改善は、より深いトーケン計算よりも長い文脈に由来することが示唆されている。
さらに、様々な困難を伴うタスクに対する評価は、モデルがより難しい問題に対して動的にレイヤーを使わないことを示している。
以上の結果から,現在のLCMでは,スケール,トレーニングパラダイム,課題の多様さなどにより,LCMの層利用率の向上,モデルプルーニング,早期退避といった研究機会が不足していることが示唆された。
私たちのコードはhttps://github.com/AheadOFpotato/what_affects_ Effective_depthでリリースされています。
関連論文リスト
- TL;DR: Too Long, Do Re-weighting for Efficient LLM Reasoning Compression [55.37723860832064]
高度なデータアノテーションに依存しない動的比に基づくトレーニングパイプラインを提案する。
我々は、DeepSeek-R1-Distill-7BとDeepSeek-R1-Distill-14Bのモデルと、様々な難易度を持つ様々なベンチマークのモデルに対するアプローチを検証する。
論文 参考訳(メタデータ) (2025-06-03T09:23:41Z) - Do Language Models Use Their Depth Efficiently? [61.0037917291838]
Llama 3.1, Qwen 3, OLMo 2 モデルの残留ストリームを解析した。
後半のレイヤが前半のレイヤよりもはるかに少ないことが分かりました。
マルチホップタスクでは、モデルが深度を増してサブレサルを構成するという証拠が見つからない。
論文 参考訳(メタデータ) (2025-05-20T04:00:56Z) - LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。
モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。
深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文 参考訳(メタデータ) (2025-02-19T14:58:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。