論文の概要: Scaling Laws Meet Model Architecture: Toward Inference-Efficient LLMs
- arxiv url: http://arxiv.org/abs/2510.18245v1
- Date: Tue, 21 Oct 2025 03:08:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:12.832331
- Title: Scaling Laws Meet Model Architecture: Toward Inference-Efficient LLMs
- Title(参考訳): モデルアーキテクチャにおけるスケーリング法則 - 推論効率のよいLLMに向けて
- Authors: Song Bian, Tao Yu, Shivaram Venkataraman, Youngsuk Park,
- Abstract要約: パラメータの数とトレーニングデータのサイズを拡大することは,大規模言語モデル(LLM)のパフォーマンス向上に有効な戦略であることが証明されている。
その重要性にもかかわらず、モデル精度と推論効率のトレードオフは未解明のままである。
我々は、アーキテクチャ情報でChinchillaフレームワークを増強する条件付きスケーリング法と、同時に推論効率と正確性を持つアーキテクチャを識別する検索フレームワークを導入する。
- 参考スコア(独自算出の注目度): 14.649767264885126
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scaling the number of parameters and the size of training data has proven to be an effective strategy for improving large language model (LLM) performance. Yet, as these models grow increasingly powerful and widely deployed, the cost of inference has become a pressing concern. Despite its importance, the trade-off between model accuracy and inference efficiency remains underexplored. In this work, we examine how key architectural factors, hidden size, the allocation of parameters between MLP and attention (mlp-to-attention ratio), and grouped-query attention (GQA), influence both inference cost and accuracy. We introduce a conditional scaling law that augments the Chinchilla framework with architectural information, along with a search framework for identifying architectures that are simultaneously inference-efficient and accurate. To validate our approach, we train more than 200 models spanning 80M to 3B parameters and 8B to 100B training tokens, and fit the proposed conditional scaling law. Our results show that the conditional scaling law reliably predicts optimal architectural choices and that the resulting models outperform existing open-source baselines. Under the same training budget, optimized architectures achieve up to 2.1% higher accuracy and 42% greater inference throughput compared to LLaMA-3.2.
- Abstract(参考訳): パラメータの数とトレーニングデータのサイズを拡大することは,大規模言語モデル(LLM)のパフォーマンス向上に有効な戦略であることが証明されている。
しかし、これらのモデルがますます強力になり、広く展開されるにつれて、推論のコストが懸念されている。
その重要性にもかかわらず、モデル精度と推論効率のトレードオフは未解明のままである。
本研究では,鍵となるアーキテクチャ要因,隠れサイズ,MLPとアテンションのパラメータの割り当て(mlp-to-attention ratio),グループ型クエリアテンション(GQA)が,推論コストと精度に与える影響について検討する。
我々は、アーキテクチャ情報でChinchillaフレームワークを増強する条件付きスケーリング法と、同時に推論効率と正確性を持つアーキテクチャを識別する検索フレームワークを導入する。
このアプローチを検証するために、80Mから3Bパラメータと8Bから100Bのトレーニングトークンに200以上のモデルをトレーニングし、提案した条件付きスケーリング法に適合する。
その結果、条件付きスケーリング法則は最適なアーキテクチャ選択を確実に予測し、結果として得られるモデルは既存のオープンソースベースラインを上回っていることがわかった。
同じトレーニング予算の下では、最適化されたアーキテクチャはLLaMA-3.2に比べて2.1%高い精度と42%高い推論スループットを達成する。
関連論文リスト
- Towards Greater Leverage: Scaling Laws for Efficient Mixture-of-Experts Language Models [25.608085561102566]
本稿では,高密度等価量上でのMoEモデルの計算優位性を定量化する指標として,レバレッジ効率(EL)を紹介する。
ELは、予測可能な電力法に従って、専門家のアクティベーション比と総計算予算によって駆動される。
我々はこれらの発見を統合スケーリング法則に統合し、その構成に基づいてMoEアーキテクチャのELを正確に予測する。
論文 参考訳(メタデータ) (2025-07-23T17:10:23Z) - Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs [51.21041884010009]
Ring-liteは、強化学習(RL)により最適化されたMixture-of-Experts(MoE)ベースの大規模言語モデルである
我々のアプローチは、挑戦的なベンチマーク上でのSOTA(State-of-the-art)の小規模推論モデルの性能と一致する。
論文 参考訳(メタデータ) (2025-06-17T17:12:34Z) - EfficientLLM: Efficiency in Large Language Models [64.3537131208038]
大規模言語モデル(LLM)は大きな進歩を導いてきたが、その増加とコンテキストウィンドウは計算、エネルギー、金銭的コストを禁止している。
本稿では,新しいベンチマークであるEfficientLLMを紹介する。
論文 参考訳(メタデータ) (2025-05-20T02:27:08Z) - Scaling Inference-Efficient Language Models [3.271571137474847]
モデルアーキテクチャは推論レイテンシに影響を与えており、同じサイズのモデルでは最大3.5倍のレイテンシの差が生じる可能性がある。
我々は、モデルパラメータ数、トレーニングトークンの数、モデルアーキテクチャを共最適化するために、Chinchillaスケーリングの法則を変更します。
下流タスクの精度を維持しつつ、推論遅延を1.8倍改善するMorph-1Bモデルをリリースする。
論文 参考訳(メタデータ) (2025-01-30T03:16:44Z) - Adaptive Pruning for Large Language Models with Structural Importance Awareness [66.2690963378878]
大規模言語モデル(LLM)は言語理解と生成能力を大幅に改善した。
LLMは、高い計算およびストレージリソース要求のため、リソース制約のあるエッジデバイスにデプロイするのは難しい。
モデル性能を維持しつつ,計算コストとメモリコストを大幅に削減する構造的適応型プルーニング(SAAP)を提案する。
論文 参考訳(メタデータ) (2024-12-19T18:08:04Z) - Optimizing Sequential Recommendation Models with Scaling Laws and Approximate Entropy [104.48511402784763]
SRモデルの性能法則は,モデルの性能とデータ品質の関係を理論的に調査し,モデル化することを目的としている。
データ品質を評価するために、従来のデータ量メトリクスと比較して、より曖昧なアプローチを示すために、近似エントロピー(ApEn)を提案する。
論文 参考訳(メタデータ) (2024-11-30T10:56:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。