論文の概要: Tensor-GaLore: Memory-Efficient Training via Gradient Tensor Decomposition
- arxiv url: http://arxiv.org/abs/2501.02379v1
- Date: Sat, 04 Jan 2025 20:51:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-07 17:06:39.025007
- Title: Tensor-GaLore: Memory-Efficient Training via Gradient Tensor Decomposition
- Title(参考訳): Tensor-GaLore: Gradient Tensor Decompositionによるメモリ効率向上トレーニング
- Authors: Robert Joseph George, David Pitt, Jiawei Zhao, Jean Kossaifi, Cheng Luo, Yuandong Tian, Anima Anandkumar,
- Abstract要約: 本研究では,高次テンソル重み付きニューラルネットワークの効率的なトレーニング手法であるNavier-GaLoreを提案する。
様々なPDEタスクの中で、Navier-GaLoreはメモリ節約を実現し、最大75%のメモリ使用量を削減している。
- 参考スコア(独自算出の注目度): 93.98343072306619
- License:
- Abstract: We present Tensor-GaLore, a novel method for efficient training of neural networks with higher-order tensor weights. Many models, particularly those used in scientific computing, employ tensor-parameterized layers to capture complex, multidimensional relationships. When scaling these methods to high-resolution problems makes memory usage grow intractably, and matrix based optimization methods lead to suboptimal performance and compression. We propose to work directly in the high-order space of the complex tensor parameter space using a tensor factorization of the gradients during optimization. We showcase its effectiveness on Fourier Neural Operators (FNOs), a class of models crucial for solving partial differential equations (PDE) and prove the theory of it. Across various PDE tasks like the Navier Stokes and Darcy Flow equations, Tensor-GaLore achieves substantial memory savings, reducing optimizer memory usage by up to 75%. These substantial memory savings across AI for science demonstrate Tensor-GaLore's potential.
- Abstract(参考訳): 本稿では,高次テンソル重み付きニューラルネットワークの効率的なトレーニング法であるTensor-GaLoreを提案する。
多くのモデル、特に科学計算で使用されるモデルは、複雑な多次元の関係を捉えるためにテンソルパラメトリズド層を用いる。
これらの手法を高分解能な問題にスケールすると、メモリ使用量は大幅に増加し、行列ベースの最適化手法は、最適性能と圧縮をもたらす。
我々は、最適化中の勾配のテンソル因子化を用いて、複素テンソルパラメータ空間の高次空間で直接働くことを提案する。
本稿では、偏微分方程式(PDE)を解く上で不可欠なモデルのクラスであるフーリエニューラル演算子(FNO)にその効果を示し、その理論を実証する。
Navier StokesやDarcy FlowといったさまざまなPDEタスクに対して、Tensor-GaLoreは大幅なメモリ節約を実現し、オプティマイザのメモリ使用量を最大75%削減する。
科学のためのAI全体のメモリ節約は、Tensor-GaLoreの可能性を実証している。
関連論文リスト
- Over-parameterized Student Model via Tensor Decomposition Boosted Knowledge Distillation [10.48108719012248]
我々は、より大規模な教師モデルを模倣するために、コンパクトな学生モデルを訓練する知識蒸留(KD)に焦点を当てる。
これまでの作業の多くとは対照的に、トレーニング中の学生モデルのパラメータをスケールアップする。
論文 参考訳(メタデータ) (2024-11-10T12:40:59Z) - Scalable CP Decomposition for Tensor Learning using GPU Tensor Cores [47.87810316745786]
本研究では,エクサスケールテンソル分解を支援する圧縮型テンソル分解フレームワークを提案する。
ベースラインと比較すると、エクスカスケール・テンソルは8000倍のテンソルをサポートし、スピードアップは6.95倍である。
また,本手法を遺伝子解析とテンソル層ニューラルネットワークを含む実世界の2つの応用に適用する。
論文 参考訳(メタデータ) (2023-11-22T21:04:59Z) - Multi-Grid Tensorized Fourier Neural Operator for High-Resolution PDEs [93.82811501035569]
本稿では,メモリ要求を低減し,より一般化したデータ効率・並列化可能な演算子学習手法を提案する。
MG-TFNOは、実世界の実世界の現象の局所的構造と大域的構造を活用することで、大規模な分解能にスケールする。
乱流ナビエ・ストークス方程式において150倍以上の圧縮で誤差の半分以下を達成できる優れた性能を示す。
論文 参考訳(メタデータ) (2023-09-29T20:18:52Z) - Geometry-Informed Neural Operator for Large-Scale 3D PDEs [76.06115572844882]
大規模偏微分方程式の解演算子を学習するために,幾何インフォームド・ニューラル演算子(GINO)を提案する。
我々はGINOを訓練し、わずか500点のデータポイントで車両表面の圧力を予測することに成功した。
論文 参考訳(メタデータ) (2023-09-01T16:59:21Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - Symbolic Regression on FPGAs for Fast Machine Learning Inference [2.0920303420933273]
高エネルギー物理コミュニティは、FPGA(Field-Programmable Gate Arrays)上に機械学習ベースのソリューションをデプロイする可能性を探っている
シンボリックレグレッション(SR)と呼ばれる機械学習技術を利用した新しいエンドツーエンドプロシージャを提案する。
提案手法は,最大で5 nsまでの実行時間を最大13倍に抑えながら,90%以上の近似精度を維持した推論モデルを用いて3層ニューラルネットワークを近似できることを示す。
論文 参考訳(メタデータ) (2023-05-06T17:04:02Z) - Low-Rank Tensor Function Representation for Multi-Dimensional Data
Recovery [52.21846313876592]
低ランクテンソル関数表現(LRTFR)は、無限解像度でメッシュグリッドを超えてデータを連続的に表現することができる。
テンソル関数に対する2つの基本的な概念、すなわちテンソル関数ランクとローランクテンソル関数分解を開発する。
提案手法は,最先端手法と比較して,提案手法の優越性と汎用性を裏付けるものである。
論文 参考訳(メタデータ) (2022-12-01T04:00:38Z) - SHINE: SHaring the INverse Estimate from the forward pass for bi-level
optimization and implicit models [15.541264326378366]
近年,深層ニューラルネットワークの深度を高める手法として暗黙の深度学習が登場している。
トレーニングは双レベル問題として実行され、その計算複雑性は巨大なヤコビ行列の反復反転によって部分的に駆動される。
本稿では,この計算ボトルネックに対処する新たな手法を提案する。
論文 参考訳(メタデータ) (2021-06-01T15:07:34Z) - Fourier Neural Operator for Parametric Partial Differential Equations [57.90284928158383]
積分カーネルを直接フーリエ空間でパラメータ化することで、新しいニューラル演算子を定式化する。
バーガースの方程式、ダーシー流、ナビエ・ストークス方程式の実験を行う。
従来のPDEソルバに比べて最大3桁高速である。
論文 参考訳(メタデータ) (2020-10-18T00:34:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。