論文の概要: LLM Architecture, Scaling Laws, and Economics: A Quick Summary
- arxiv url: http://arxiv.org/abs/2511.11572v1
- Date: Thu, 11 Sep 2025 20:31:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-07 19:06:32.159094
- Title: LLM Architecture, Scaling Laws, and Economics: A Quick Summary
- Title(参考訳): LLMアーキテクチャ、スケーリング法、経済学 - 簡単な概要
- Authors: William H. Press,
- Abstract要約: 大規模言語モデル(LLM)の現在の標準アーキテクチャは、QKVの自己注意によるものである。
ここでは新しいものは何もありませんが、この資料は要約形式で簡単には利用できません。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The current standard architecture of Large Language Models (LLMs) with QKV self-attention is briefly summarized, including the architecture of a typical Transformer. Scaling laws for compute (flops) and memory (parameters plus data) are given, along with their present (2025) rough cost estimates for the parameters of present LLMs of various scales, including discussion of whether DeepSeek should be viewed as a special case. Nothing here is new, but this material seems not otherwise readily available in summary form.
- Abstract(参考訳): 大規模言語モデル(LLM)の現在の標準アーキテクチャとQKVの自己注意は、典型的なトランスフォーマーのアーキテクチャを含む、簡単に要約される。
計算(フロップ)とメモリ(パラメータとデータ)のスケーリング法則が与えられ、現在(2025年)の様々なスケールのLLMのパラメーターに対する大まかなコスト推定値が与えられ、DeepSeekを特別なケースと見なすべきかどうかが議論される。
ここでは新しいものは何もありませんが、この資料は要約形式で簡単には利用できません。
関連論文リスト
- Scaling LLM Speculative Decoding: Non-Autoregressive Forecasting in Large-Batch Scenarios [76.85739138203014]
本稿では,一方向および注目メカニズムを加速する新しいアーキテクチャであるSpecFormerを紹介する。
また,SpecFormerはトレーニング要求の低減と計算コストの削減を実現している。
論文 参考訳(メタデータ) (2025-11-25T14:20:08Z) - ShishuLM: Lightweight Language Model with Hybrid Decoder-MLP Architecture and Paired Weight Sharing [0.5565728870245015]
本稿では,パラメータカウントとキーバリュー(KV)キャッシュ要求の両方を削減できる,効率的な言語モデルアーキテクチャであるShishuLMを紹介した。
以上の結果から,ShshuLMは最大25%のメモリ要求を削減し,トレーニングと推論の両方で最大40%のレイテンシ向上を実現していることがわかった。
論文 参考訳(メタデータ) (2025-10-13T04:04:54Z) - Efficient Language Modeling for Low-Resource Settings with Hybrid RNN-Transformer Architectures [8.442206285783463]
トランスフォーマーベースの言語モデルは、最近テキスト生成における活発な研究の最前線にある。
これらのモデルの進歩は、数十億のパラメータ数とペタフロップ/秒単位の計算要求によって、禁止的なトレーニングコストの価格で実現されている。
注目層をフィードフォワードと準リカレントニューラルネットワーク層に選択的に置き換えることで,低データ方式におけるモデル性能向上のためのトランスフォーマーアーキテクチャについて検討する。
論文 参考訳(メタデータ) (2025-02-02T01:05:09Z) - Survey and Evaluation of Converging Architecture in LLMs based on Footsteps of Operations [3.355436702348694]
現在の最先端のLSMは非常に大きく、パラメータは約700億である。
モデルのサイズが大きくなるにつれて、かなりのストレージと計算能力の需要が増大する。
本稿では,レイヤ構成,運用機構,モデルサイズの観点から,これらの収束アーキテクチャがどのように機能するかを解析する。
論文 参考訳(メタデータ) (2024-10-15T08:19:24Z) - Performance Law of Large Language Models [58.32539851241063]
性能法則は、LLMアーキテクチャの選択と計算資源の効率的な割り当てを導くために用いられる。
性能法則は、LLMアーキテクチャの選択と計算資源の効率的な割り当てを広範な実験なしで導くのに利用できる。
論文 参考訳(メタデータ) (2024-08-19T11:09:12Z) - Keep the Cost Down: A Review on Methods to Optimize LLM' s KV-Cache Consumption [66.97998742151918]
大規模言語モデル(LLM)は、先進的な言語理解によって様々な産業に革命をもたらした。
しかし、その効率性はTransformerアーキテクチャが長いテキストを扱うのに苦労していることに疑問を投げかけられている。
KVキャッシュは、トークン生成の時間的複雑さを2次から線形に変換する、重要なソリューションとして登場した。
論文 参考訳(メタデータ) (2024-07-25T12:56:22Z) - Comparison of Open-Source and Proprietary LLMs for Machine Reading Comprehension: A Practical Analysis for Industrial Applications [0.0]
大規模言語モデル(LLM)は、最近、様々な自然言語処理(NLP)アプリケーションで顕著な性能を示した。
本稿では,オープンソースLLMとプロプライエタリモデルの比較分析を行う。
論文 参考訳(メタデータ) (2024-06-19T17:11:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。