Fugu-MT 論文翻訳(概要): The Fine-Grained Complexity of Gradient Computation for Training Large Language Models

論文の概要: The Fine-Grained Complexity of Gradient Computation for Training Large Language Models

arxiv url: http://arxiv.org/abs/2402.04497v1
Date: Wed, 7 Feb 2024 00:45:31 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-08 17:33:29.864545
Title: The Fine-Grained Complexity of Gradient Computation for Training Large Language Models
Title（参考訳）: 大規模言語モデルの学習のための勾配計算のきめ細かい複雑さ
Authors: Josh Alman, Zhao Song
Abstract要約: 大規模言語モデル(LLM)は、ここ数年で基本的な貢献をしている。本研究では,1層注目ネットワークの損失関数勾配の計算の難易度問題に対して,ほぼ同じ結果を示す。
参考スコア（独自算出の注目度）: 12.853829771559916
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Large language models (LLMs) have made fundamental contributions over the last a few years. To train an LLM, one needs to alternatingly run `forward' computations and `backward' computations. The forward computation can be viewed as attention function evaluation, and the backward computation can be viewed as a gradient computation. In previous work by [Alman and Song, NeurIPS 2023], it was proved that the forward step can be performed in almost-linear time in certain parameter regimes, but that there is no truly sub-quadratic time algorithm in the remaining parameter regimes unless the popular hypothesis SETH is false. In this work, we show nearly identical results for the harder-seeming problem of computing the gradient of loss function of one layer attention network, and thus for the entire process of LLM training. This completely characterizes the fine-grained complexity of every step of LLM training.
Abstract（参考訳）: 大規模言語モデル(llm)はここ数年、基本的な貢献を行ってきた。 LLMをトレーニングするには、'forward'計算と'backward'計算を交互に実行する必要がある。前方計算は注意関数評価と見なすことができ、後方計算は勾配計算と見なすことができる。これまでの[Alman and Song, NeurIPS 2023]の研究では、あるパラメータ規則では前方ステップがほぼ直線的に実行可能であることが証明されたが、一般的な仮説SETHが偽でない限り、残りのパラメータ規則では真のサブ2次時間アルゴリズムは存在しない。本研究では,一層注意ネットワークの損失関数の勾配を計算するという難解な問題に対してほぼ同じ結果を示し,それゆえllmトレーニング全体のプロセスについて述べる。これは、llmトレーニングの各ステップのきめ細かい複雑さを完全に特徴付ける。

関連論文リスト

Variance Reduction Methods Do Not Need to Compute Full Gradients: Improved Efficiency through Shuffling [44.31966204357333]
大規模機械学習問題に対するメモリ効率のアルゴリズムを開発した。メモリ効率を向上し、完全な計算を避けるために、2つの重要な手法を用いる。
論文参考訳（メタデータ） (2025-02-20T15:37:45Z)
IGC: Integrating a Gated Calculator into an LLM to Solve Arithmetic Tasks Reliably and Efficiently [17.525220958618988]
Integrated Gated Calculator (IGC)は,GPU上で計算器をエミュレートすることで,大規模言語モデルが演算を行うことを可能にするモジュールである。モジュールでLlamaモデルを微調整し、BigBench Arithmeticベンチマークでテストします。当社のアプローチでは,実行に1回のイテレーションしか必要とせず,外部ツールも必要ありません。
論文参考訳（メタデータ） (2025-01-01T00:01:27Z)
Efficiently Scaling LLM Reasoning with Certaindex [25.549811985276488]
テストタイム推論アルゴリズムは、精度を向上することなく、多くのトークンを無駄に生成することができる。本稿では,アルゴリズムに依存しない測定値であるCertaindexを導入する。 Certaindexは軽量で、早期終了による推論プログラムの推論を加速し、動的トークン割り当てを可能にする。
論文参考訳（メタデータ） (2024-12-30T14:57:53Z)
Skipping Computations in Multimodal LLMs [63.29737699997859]
本研究では,マルチモーダル大言語モデル(MLLM)における推論時の冗長性について検討する。ブロック全体,FFN,自己保持層をスキップするなど,計算をスキップするさまざまな手法を提案する。本研究は,推定時に大量の計算を回避できることを実証した。
論文参考訳（メタデータ） (2024-10-12T09:21:45Z)
Interpreting and Improving Large Language Models in Arithmetic Calculation [72.19753146621429]
大規模言語モデル(LLM)は、多くのアプリケーションにまたがる顕著な可能性を示している。本研究では,LLMが計算を行う特定のメカニズムを明らかにする。 LLMの計算性能を高めるために、これらの必須ヘッド/MLPを選択的に微調整する潜在的な利点について検討する。
論文参考訳（メタデータ） (2024-09-03T07:01:46Z)
Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters [27.656263126925815]
LLMにおける推論時間計算のスケーリングについて検討する。どちらの場合も、テスト時間計算のスケーリングに対する異なるアプローチの有効性は、プロンプトの難しさによって大きく異なることがわかった。
論文参考訳（メタデータ） (2024-08-06T17:35:05Z)
Temporal Scaling Law for Large Language Models [57.83580734589091]
本稿では,LLMの試験損失が,トレーニングステップのスケールアップとともにどのように進展するかを考察する,時間スケーリング法の概念を提案する。テスト損失全体を粗い粒度でモデル化するのとは対照的に、私たちはそれを分解して、各トークン位置のきめ細かいテスト損失に飛び込みます。動的双曲法則におけるパラメータの時間的パターンを研究することにより、より正確な時間的スケーリング法則を導出する。
論文参考訳（メタデータ） (2024-04-27T05:49:11Z)
Reverse That Number! Decoding Order Matters in Arithmetic Learning [49.5504492920404]
本研究は,最少の桁から出力を優先順位付けすることで,桁順を再評価する新たな戦略を導入する。従来のSOTA法と比較すると,通常のトレーニングで使用するトークンの3分の1しか必要とせず,精度の全体的な改善が見られた。
論文参考訳（メタデータ） (2024-03-09T09:04:53Z)
Quantum Many-Body Physics Calculations with Large Language Models [7.679615503214482]
大規模言語モデル(LLM)は、複数のドメインで複雑なタスクを実行する前例のない能力を示している。我々は、量子物理学において広く用いられている近似法、Hartree-Fock法に焦点をあてる。解析計算を標準化されたステップに分解する多段階プロンプトテンプレートを設計する。我々は過去10年間の15の研究論文の計算におけるGPT-4の性能を評価した。
論文参考訳（メタデータ） (2024-03-05T17:47:22Z)
Provably Efficient Representation Learning with Tractable Planning in Low-Rank POMDP [81.00800920928621]
部分的に観測可能なマルコフ決定過程(POMDP)における表現学習の研究まず,不確実性(OFU)に直面した最大推定(MLE)と楽観性を組み合わせた復調性POMDPのアルゴリズムを提案する。次に、このアルゴリズムをより広範な$gamma$-observable POMDPのクラスで機能させる方法を示す。
論文参考訳（メタデータ） (2023-06-21T16:04:03Z)
Acceleration of Subspace Learning Machine via Particle Swarm Optimization and Parallel Processing [23.33955958124822]
サブスペース・ラーニング・マシン(SLM)は、一般的な分類および回帰タスクにおいて高い性能を提供するために提案されている。性能改善は高い計算複雑性を犠牲にして達成される。実験結果から, 加速SLM法はトレーニング時間で577の高速化率を達成することがわかった。
論文参考訳（メタデータ） (2022-08-15T06:33:15Z)
Optimization-based Block Coordinate Gradient Coding for Mitigating Partial Stragglers in Distributed Learning [58.91954425047425]
本稿では,分散学習における部分トラグラーの緩和を目的とした,新たな勾配符号化方式を提案する。 L の符号パラメータを L に表わした勾配座標符号化方式を提案する。
論文参考訳（メタデータ） (2022-06-06T09:25:40Z)
Meta-Learning with Adjoint Methods [16.753336086160598]
メタラーニング(MAML)は、タスクファミリーの優れた初期化を見つけるために広く使われている。その成功にもかかわらず、MAMLにおける重要な課題は、サンプリングされたタスクに対する長いトレーニング軌跡の初期化で勾配を計算することである。本稿では,この問題を解決するためにAdjoint MAML (A-MAML)を提案する。人工メタ学習と実世界のメタ学習の両方において、我々のアプローチの利点を実証する。
論文参考訳（メタデータ） (2021-10-16T01:18:50Z)
Efficient time stepping for numerical integration using reinforcement learning [0.15393457051344295]
機械学習とメタラーニングに基づくデータ駆動型タイムステッピング方式を提案する。まず、1つまたは複数の基礎学習者(非滑らかまたはハイブリッドシステムの場合)はRLを使用して訓練されます。次に、メタ学習者は(システムの状態に応じて)現在の状況に最適と思われる基礎学習者を選択する訓練を受ける。
論文参考訳（メタデータ） (2021-04-08T07:24:54Z)
On Function Approximation in Reinforcement Learning: Optimism in the Face of Large State Spaces [208.67848059021915]
強化学習のコアにおける探索・探索トレードオフについて検討する。特に、関数クラス $mathcalF$ の複雑さが関数の複雑さを特徴づけていることを証明する。私たちの後悔の限界はエピソードの数とは無関係です。
論文参考訳（メタデータ） (2020-11-09T18:32:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。