論文の概要: LLM-e Guess: Can LLMs Capabilities Advance Without Hardware Progress?
- arxiv url: http://arxiv.org/abs/2505.04075v1
- Date: Wed, 07 May 2025 02:26:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-08 19:07:35.955914
- Title: LLM-e Guess: Can LLMs Capabilities Advance Without Hardware Progress?
- Title(参考訳): LLM-e Guess: LLMの能力はハードウェアの進歩なしに向上できるか?
- Authors: Teddy Foley, Spencer Guo, Henry Josephson, Anqi Qu, Jack Sanderson,
- Abstract要約: 本稿では,大規模言語モデルがさらなる計算処理を伴わずに進化し続けるかどうかを考察する。
高性能ハードウェアへのアクセスを制限することに集中してきた規制の取り組みに動機付けられて、私たちは次のように質問した。 LLMは、計算に制約のある環境で前進できるか?
- 参考スコア(独自算出の注目度): 10.461430685627857
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper examines whether large language model (LLM) capabilities can continue to advance without additional compute by analyzing the development and role of algorithms used in state-of-the-art LLMs. Motivated by regulatory efforts that have largely focused on restricting access to high-performance hardware, we ask: Can LLMs progress in a compute-constrained environment, and how do algorithmic innovations perform under such conditions? To address these questions, we introduce a novel classification framework that distinguishes between compute-dependent innovations -- which yield disproportionate benefits at high compute levels (e.g., the Transformer architecture and mixture-of-experts models) and compute-independent innovations, which improve efficiency across all compute scales (e.g., rotary positional encoding, FlashAttention, or layer normalization). We quantify these contributions using a metric called compute-equivalent gain (CEG), which estimates the additional compute that would be required to achieve similar improvements without these algorithmic advancements. To validate this framework, we conduct small-scale training experiments with a scaled-down GPT-2 model. Our results confirm that compute-independent advancements yield meaningful performance gains even in resource-constrained settings, with a CEG of up to $3.5\times$ over a baseline model. By contrast, compute-dependent advancements provided little benefit or even degraded performance at the small scale, reinforcing the importance of compute availability for certain algorithmic gains.
- Abstract(参考訳): 本稿では,LLMにおけるアルゴリズムの開発と役割を解析することにより,大規模言語モデル(LLM)の能力がさらなる計算なしに向上し続けるかどうかを考察する。
ハイパフォーマンスハードウェアへのアクセスを制限することに集中してきた規制の取り組みに動機付けられて、私たちは次のように質問する。 LLMは計算制約のある環境で前進できるのか、アルゴリズムの革新はそのような条件下でどのように機能するのか?
これらの問題に対処するため、我々は、高い計算レベルで不均等な利益をもたらす計算依存のイノベーション(例えば、トランスフォーマーアーキテクチャとエキスパートの混合モデル)と、すべての計算スケール(例えば、回転位置符号化、FlashAttention、レイヤ正規化)の効率を改善する計算非依存のイノベーションを区別する、新しい分類フレームワークを導入しました。
我々はこれらの貢献を、計算等価ゲイン(CEG)と呼ばれる指標を用いて定量化し、これらのアルゴリズムの進歩なしに同様の改善を達成するために必要となる計算を推定する。
この枠組みを検証するため,スケールダウン型 GPT-2 モデルを用いた小規模トレーニング実験を行った。
計算非依存の進歩は,資源制約された設定でも有意義な性能向上が得られ,CEGはベースラインモデルよりも最大3.5\times$であることを確認した。
これとは対照的に、計算依存の進歩は小さなスケールでの利益や性能の低下をほとんど与えず、特定のアルゴリズム的なゲインに対する計算可用性の重要性を補強した。
関連論文リスト
- R-Sparse: Rank-Aware Activation Sparsity for Efficient LLM Inference [77.47238561728459]
R-スパース(R-Sparse)は、高度なLCMにおいて高い疎度を達成できる訓練不要なアクティベーション・スパシティ・アプローチである。
10種類のタスクにわたるLlama-2/3およびMistralモデルの実験は、R-Sparseが50%のモデルレベルの間隔で同等のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2025-04-28T03:30:32Z) - DSMoE: Matrix-Partitioned Experts with Dynamic Routing for Computation-Efficient Dense LLMs [70.91804882618243]
本稿では,事前学習したFFN層を計算ブロックに分割することで,分散化を実現するDSMoEを提案する。
我々は,Sigmoid アクティベーションとストレートスルー推定器を用いた適応型エキスパートルーティングを実装し,トークンがモデル知識の様々な側面に柔軟にアクセスできるようにする。
LLaMAモデルを用いた実験により、DSMoEは既存のプルーニング法やMoE法に比べて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-02-18T02:37:26Z) - Explore Activation Sparsity in Recurrent LLMs for Energy-Efficient Neuromorphic Computing [3.379854610429579]
Recurrent Large Language Models (R-LLM) は自己注意の複雑さを軽減するのに有効であることが証明されている。
ニューロモルフィックハードウェア上でのエネルギー効率を高めるために,R-LLMの活性化をスパースする,低コストでトレーニング不要なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-01-09T19:13:03Z) - Adaptive Pruning for Large Language Models with Structural Importance Awareness [66.2690963378878]
大規模言語モデル(LLM)は言語理解と生成能力を大幅に改善した。
LLMは、高い計算およびストレージリソース要求のため、リソース制約のあるエッジデバイスにデプロイするのは難しい。
モデル性能を維持しつつ,計算コストとメモリコストを大幅に削減する構造的適応型プルーニング(SAAP)を提案する。
論文 参考訳(メタデータ) (2024-12-19T18:08:04Z) - eFedLLM: Efficient LLM Inference Based on Federated Learning [1.6179784294541053]
大言語モデル(LLMs)は人工知能(AI)の転換期を告げる
本稿では, LLM推論の運用効率と費用対効果を高める効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-11-24T22:50:02Z) - Tender: Accelerating Large Language Models via Tensor Decomposition and Runtime Requantization [0.6445087473595953]
大規模言語モデル(LLM)は、機械学習における様々なタスクにおいて優れたパフォーマンスを示す。
LLM推論のデプロイは、高い計算とメモリ要求のために問題となる。
我々は,低精度でLLM推論を効率的に展開できるアルゴリズム-ハードウェア共設計ソリューションであるテンダーを提案する。
論文 参考訳(メタデータ) (2024-06-16T09:51:55Z) - AxOMaP: Designing FPGA-based Approximate Arithmetic Operators using
Mathematical Programming [2.898055875927704]
FPGAの近似演算子を合成するための,データ解析による数学的プログラミングに基づく手法を提案する。
具体的には、特徴量データの相関解析の結果に基づいて、混合整数の2次制約付きプログラムを定式化する。
従来の進化的アルゴリズムによる最適化と比較して,PPAとBEHAVの併用最適化において,ハイパーボリュームの最大21%の改善が報告されている。
論文 参考訳(メタデータ) (2023-09-23T18:23:54Z) - Towards Compute-Optimal Transfer Learning [82.88829463290041]
我々は、事前訓練されたモデルのゼロショット構造化プルーニングにより、性能を最小限に抑えて計算効率を向上させることができると主張している。
その結果,事前訓練されたモデルの畳み込み畳み込みフィルタは,低計算条件下で20%以上の性能向上をもたらす可能性が示唆された。
論文 参考訳(メタデータ) (2023-04-25T21:49:09Z) - Improved Algorithms for Neural Active Learning [74.89097665112621]
非パラメトリックストリーミング設定のためのニューラルネットワーク(NN)ベースの能動学習アルゴリズムの理論的および経験的性能を改善する。
本研究では,SOTA(State-of-the-art (State-the-art)) 関連研究で使用されるものよりも,アクティブラーニングに適する人口減少を最小化することにより,2つの後悔の指標を導入する。
論文 参考訳(メタデータ) (2022-10-02T05:03:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。