論文の概要: The Fine-Grained Complexity of Gradient Computation for Training Large
Language Models
- arxiv url: http://arxiv.org/abs/2402.04497v1
- Date: Wed, 7 Feb 2024 00:45:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-08 17:33:29.864545
- Title: The Fine-Grained Complexity of Gradient Computation for Training Large
Language Models
- Title(参考訳): 大規模言語モデルの学習のための勾配計算のきめ細かい複雑さ
- Authors: Josh Alman, Zhao Song
- Abstract要約: 大規模言語モデル(LLM)は、ここ数年で基本的な貢献をしている。
本研究では,1層注目ネットワークの損失関数勾配の計算の難易度問題に対して,ほぼ同じ結果を示す。
- 参考スコア(独自算出の注目度): 12.853829771559916
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large language models (LLMs) have made fundamental contributions over the
last a few years. To train an LLM, one needs to alternatingly run `forward'
computations and `backward' computations. The forward computation can be viewed
as attention function evaluation, and the backward computation can be viewed as
a gradient computation. In previous work by [Alman and Song, NeurIPS 2023], it
was proved that the forward step can be performed in almost-linear time in
certain parameter regimes, but that there is no truly sub-quadratic time
algorithm in the remaining parameter regimes unless the popular hypothesis SETH
is false. In this work, we show nearly identical results for the harder-seeming
problem of computing the gradient of loss function of one layer attention
network, and thus for the entire process of LLM training. This completely
characterizes the fine-grained complexity of every step of LLM training.
- Abstract(参考訳): 大規模言語モデル(llm)はここ数年、基本的な貢献を行ってきた。
LLMをトレーニングするには、'forward'計算と'backward'計算を交互に実行する必要がある。
前方計算は注意関数評価と見なすことができ、後方計算は勾配計算と見なすことができる。
これまでの[Alman and Song, NeurIPS 2023]の研究では、あるパラメータ規則では前方ステップがほぼ直線的に実行可能であることが証明されたが、一般的な仮説SETHが偽でない限り、残りのパラメータ規則では真のサブ2次時間アルゴリズムは存在しない。
本研究では,一層注意ネットワークの損失関数の勾配を計算するという難解な問題に対してほぼ同じ結果を示し,それゆえllmトレーニング全体のプロセスについて述べる。
これは、llmトレーニングの各ステップのきめ細かい複雑さを完全に特徴付ける。
関連論文リスト
- Variance Reduction Methods Do Not Need to Compute Full Gradients: Improved Efficiency through Shuffling [44.31966204357333]
大規模機械学習問題に対するメモリ効率のアルゴリズムを開発した。
メモリ効率を向上し、完全な計算を避けるために、2つの重要な手法を用いる。
論文 参考訳(メタデータ) (2025-02-20T15:37:45Z) - IGC: Integrating a Gated Calculator into an LLM to Solve Arithmetic Tasks Reliably and Efficiently [17.525220958618988]
Integrated Gated Calculator (IGC)は,GPU上で計算器をエミュレートすることで,大規模言語モデルが演算を行うことを可能にするモジュールである。
モジュールでLlamaモデルを微調整し、BigBench Arithmeticベンチマークでテストします。
当社のアプローチでは,実行に1回のイテレーションしか必要とせず,外部ツールも必要ありません。
論文 参考訳(メタデータ) (2025-01-01T00:01:27Z) - Skipping Computations in Multimodal LLMs [63.29737699997859]
本研究では,マルチモーダル大言語モデル(MLLM)における推論時の冗長性について検討する。
ブロック全体,FFN,自己保持層をスキップするなど,計算をスキップするさまざまな手法を提案する。
本研究は,推定時に大量の計算を回避できることを実証した。
論文 参考訳(メタデータ) (2024-10-12T09:21:45Z) - Interpreting and Improving Large Language Models in Arithmetic Calculation [72.19753146621429]
大規模言語モデル(LLM)は、多くのアプリケーションにまたがる顕著な可能性を示している。
本研究では,LLMが計算を行う特定のメカニズムを明らかにする。
LLMの計算性能を高めるために、これらの必須ヘッド/MLPを選択的に微調整する潜在的な利点について検討する。
論文 参考訳(メタデータ) (2024-09-03T07:01:46Z) - Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters [27.656263126925815]
LLMにおける推論時間計算のスケーリングについて検討する。
どちらの場合も、テスト時間計算のスケーリングに対する異なるアプローチの有効性は、プロンプトの難しさによって大きく異なることがわかった。
論文 参考訳(メタデータ) (2024-08-06T17:35:05Z) - Reverse That Number! Decoding Order Matters in Arithmetic Learning [49.5504492920404]
本研究は,最少の桁から出力を優先順位付けすることで,桁順を再評価する新たな戦略を導入する。
従来のSOTA法と比較すると,通常のトレーニングで使用するトークンの3分の1しか必要とせず,精度の全体的な改善が見られた。
論文 参考訳(メタデータ) (2024-03-09T09:04:53Z) - Provably Efficient Representation Learning with Tractable Planning in
Low-Rank POMDP [81.00800920928621]
部分的に観測可能なマルコフ決定過程(POMDP)における表現学習の研究
まず,不確実性(OFU)に直面した最大推定(MLE)と楽観性を組み合わせた復調性POMDPのアルゴリズムを提案する。
次に、このアルゴリズムをより広範な$gamma$-observable POMDPのクラスで機能させる方法を示す。
論文 参考訳(メタデータ) (2023-06-21T16:04:03Z) - Acceleration of Subspace Learning Machine via Particle Swarm
Optimization and Parallel Processing [23.33955958124822]
サブスペース・ラーニング・マシン(SLM)は、一般的な分類および回帰タスクにおいて高い性能を提供するために提案されている。
性能改善は高い計算複雑性を犠牲にして達成される。
実験結果から, 加速SLM法はトレーニング時間で577の高速化率を達成することがわかった。
論文 参考訳(メタデータ) (2022-08-15T06:33:15Z) - Optimization-based Block Coordinate Gradient Coding for Mitigating
Partial Stragglers in Distributed Learning [58.91954425047425]
本稿では,分散学習における部分トラグラーの緩和を目的とした,新たな勾配符号化方式を提案する。
L の符号パラメータを L に表わした勾配座標符号化方式を提案する。
論文 参考訳(メタデータ) (2022-06-06T09:25:40Z) - Meta-Learning with Adjoint Methods [16.753336086160598]
メタラーニング(MAML)は、タスクファミリーの優れた初期化を見つけるために広く使われている。
その成功にもかかわらず、MAMLにおける重要な課題は、サンプリングされたタスクに対する長いトレーニング軌跡の初期化で勾配を計算することである。
本稿では,この問題を解決するためにAdjoint MAML (A-MAML)を提案する。
人工メタ学習と実世界のメタ学習の両方において、我々のアプローチの利点を実証する。
論文 参考訳(メタデータ) (2021-10-16T01:18:50Z) - On Function Approximation in Reinforcement Learning: Optimism in the
Face of Large State Spaces [208.67848059021915]
強化学習のコアにおける探索・探索トレードオフについて検討する。
特に、関数クラス $mathcalF$ の複雑さが関数の複雑さを特徴づけていることを証明する。
私たちの後悔の限界はエピソードの数とは無関係です。
論文 参考訳(メタデータ) (2020-11-09T18:32:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。