論文の概要: The Fine-Grained Complexity of Gradient Computation for Training Large
Language Models
- arxiv url: http://arxiv.org/abs/2402.04497v1
- Date: Wed, 7 Feb 2024 00:45:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-08 17:33:29.864545
- Title: The Fine-Grained Complexity of Gradient Computation for Training Large
Language Models
- Title(参考訳): 大規模言語モデルの学習のための勾配計算のきめ細かい複雑さ
- Authors: Josh Alman, Zhao Song
- Abstract要約: 大規模言語モデル(LLM)は、ここ数年で基本的な貢献をしている。
本研究では,1層注目ネットワークの損失関数勾配の計算の難易度問題に対して,ほぼ同じ結果を示す。
- 参考スコア(独自算出の注目度): 12.853829771559916
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large language models (LLMs) have made fundamental contributions over the
last a few years. To train an LLM, one needs to alternatingly run `forward'
computations and `backward' computations. The forward computation can be viewed
as attention function evaluation, and the backward computation can be viewed as
a gradient computation. In previous work by [Alman and Song, NeurIPS 2023], it
was proved that the forward step can be performed in almost-linear time in
certain parameter regimes, but that there is no truly sub-quadratic time
algorithm in the remaining parameter regimes unless the popular hypothesis SETH
is false. In this work, we show nearly identical results for the harder-seeming
problem of computing the gradient of loss function of one layer attention
network, and thus for the entire process of LLM training. This completely
characterizes the fine-grained complexity of every step of LLM training.
- Abstract(参考訳): 大規模言語モデル(llm)はここ数年、基本的な貢献を行ってきた。
LLMをトレーニングするには、'forward'計算と'backward'計算を交互に実行する必要がある。
前方計算は注意関数評価と見なすことができ、後方計算は勾配計算と見なすことができる。
これまでの[Alman and Song, NeurIPS 2023]の研究では、あるパラメータ規則では前方ステップがほぼ直線的に実行可能であることが証明されたが、一般的な仮説SETHが偽でない限り、残りのパラメータ規則では真のサブ2次時間アルゴリズムは存在しない。
本研究では,一層注意ネットワークの損失関数の勾配を計算するという難解な問題に対してほぼ同じ結果を示し,それゆえllmトレーニング全体のプロセスについて述べる。
これは、llmトレーニングの各ステップのきめ細かい複雑さを完全に特徴付ける。
関連論文リスト
- Reverse That Number! Decoding Order Matters in Arithmetic Learning [49.5504492920404]
本研究は,最少の桁から出力を優先順位付けすることで,桁順を再評価する新たな戦略を導入する。
従来のSOTA法と比較すると,通常のトレーニングで使用するトークンの3分の1しか必要とせず,精度の全体的な改善が見られた。
論文 参考訳(メタデータ) (2024-03-09T09:04:53Z) - Quantum Many-Body Physics Calculations with Large Language Models [8.010378126123783]
大規模言語モデル(LLM)は、複数のドメインで複雑なタスクを実行する前例のない能力を示している。
我々は、量子物理学において広く用いられている近似法、Hartree-Fock法に焦点をあてる。
解析計算を標準化されたステップに分解する多段階プロンプトテンプレートを設計する。
我々は過去10年間の15の研究論文の計算におけるGPT-4の性能を評価した。
論文 参考訳(メタデータ) (2024-03-05T17:47:22Z) - Not all Layers of LLMs are Necessary during Inference [71.47726067940539]
LLM(Large Language Models)の理想的な推論段階は、その能力を維持しながら少ない計算資源を利用できる。
本稿では,AdaInfer という単純なアルゴリズムを用いて,入力インスタンスを適応的に推定する手法を提案する。
実験によると、AdaInferは平均14.8%の計算リソースを節約し、最大50%の感情タスクを削減し、同等のパフォーマンスを維持している。
論文 参考訳(メタデータ) (2024-03-04T16:23:58Z) - Convex Relaxations of ReLU Neural Networks Approximate Global Optima in
Polynomial Time [54.01594785269913]
本稿では, 重み劣化と凸緩和に則った2層ReLUネットワーク間の最適性ギャップについて述べる。
トレーニングデータがランダムである場合、元の問題と緩和の間の相対的な最適性ギャップは、サンプルの勾配によって境界付けられることを示す。
論文 参考訳(メタデータ) (2024-02-06T01:29:35Z) - Limited Memory Online Gradient Descent for Kernelized Pairwise Learning
with Dynamic Averaging [18.843097436906618]
実例の独立性を必要としない軽量なOGDアルゴリズムを導入し、カーネル対学習に一般化する。
提案アルゴリズムは,ランダムな例と過去のデータを表す移動平均に基づいて勾配を構築し,その結果,O(T)$の複雑さに縛られたサブ線形後悔が生じる。
実世界のデータセットによるいくつかの実験では、複雑性技術がオフラインおよびオンラインシナリオでカーネルと線形勾配を上回ることが示されている。
論文 参考訳(メタデータ) (2024-02-02T05:21:50Z) - Provably Efficient Representation Learning with Tractable Planning in
Low-Rank POMDP [81.00800920928621]
部分的に観測可能なマルコフ決定過程(POMDP)における表現学習の研究
まず,不確実性(OFU)に直面した最大推定(MLE)と楽観性を組み合わせた復調性POMDPのアルゴリズムを提案する。
次に、このアルゴリズムをより広範な$gamma$-observable POMDPのクラスで機能させる方法を示す。
論文 参考訳(メタデータ) (2023-06-21T16:04:03Z) - Acceleration of Subspace Learning Machine via Particle Swarm
Optimization and Parallel Processing [23.33955958124822]
サブスペース・ラーニング・マシン(SLM)は、一般的な分類および回帰タスクにおいて高い性能を提供するために提案されている。
性能改善は高い計算複雑性を犠牲にして達成される。
実験結果から, 加速SLM法はトレーニング時間で577の高速化率を達成することがわかった。
論文 参考訳(メタデータ) (2022-08-15T06:33:15Z) - Optimization-based Block Coordinate Gradient Coding for Mitigating
Partial Stragglers in Distributed Learning [58.91954425047425]
本稿では,分散学習における部分トラグラーの緩和を目的とした,新たな勾配符号化方式を提案する。
L の符号パラメータを L に表わした勾配座標符号化方式を提案する。
論文 参考訳(メタデータ) (2022-06-06T09:25:40Z) - Meta-Learning with Adjoint Methods [16.753336086160598]
メタラーニング(MAML)は、タスクファミリーの優れた初期化を見つけるために広く使われている。
その成功にもかかわらず、MAMLにおける重要な課題は、サンプリングされたタスクに対する長いトレーニング軌跡の初期化で勾配を計算することである。
本稿では,この問題を解決するためにAdjoint MAML (A-MAML)を提案する。
人工メタ学習と実世界のメタ学習の両方において、我々のアプローチの利点を実証する。
論文 参考訳(メタデータ) (2021-10-16T01:18:50Z) - Efficient time stepping for numerical integration using reinforcement
learning [0.15393457051344295]
機械学習とメタラーニングに基づくデータ駆動型タイムステッピング方式を提案する。
まず、1つまたは複数の基礎学習者(非滑らかまたはハイブリッドシステムの場合)はRLを使用して訓練されます。
次に、メタ学習者は(システムの状態に応じて)現在の状況に最適と思われる基礎学習者を選択する訓練を受ける。
論文 参考訳(メタデータ) (2021-04-08T07:24:54Z) - On Function Approximation in Reinforcement Learning: Optimism in the
Face of Large State Spaces [208.67848059021915]
強化学習のコアにおける探索・探索トレードオフについて検討する。
特に、関数クラス $mathcalF$ の複雑さが関数の複雑さを特徴づけていることを証明する。
私たちの後悔の限界はエピソードの数とは無関係です。
論文 参考訳(メタデータ) (2020-11-09T18:32:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。