論文の概要: TensorGRaD: Tensor Gradient Robust Decomposition for Memory-Efficient Neural Operator Training
- arxiv url: http://arxiv.org/abs/2501.02379v2
- Date: Fri, 30 May 2025 21:08:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-03 16:22:42.976668
- Title: TensorGRaD: Tensor Gradient Robust Decomposition for Memory-Efficient Neural Operator Training
- Title(参考訳): TensorGRaD: 記憶能の高いニューラルオペレータトレーニングのためのテンソル勾配ロバスト分解法
- Authors: Sebastian Loeschcke, David Pitt, Robert Joseph George, Jiawei Zhao, Cheng Luo, Yuandong Tian, Jean Kossaifi, Anima Anandkumar,
- Abstract要約: textbfTensorGRaDは,重み付けに伴うメモリ問題に直接対処する新しい手法である。
SparseGRaD は総メモリ使用量を 50% 以上削減し,同時に精度も向上することを示した。
- 参考スコア(独自算出の注目度): 91.8932638236073
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scientific problems require resolving multi-scale phenomena across different resolutions and learning solution operators in infinite-dimensional function spaces. Neural operators provide a powerful framework for this, using tensor-parameterized layers to capture complex, multi-dimensional relationships. However, scaling neural operators to high-resolution problems leads to significant computational demands, making the training of industrial-scale models prohibitive. In this work, we introduce \textbf{TensorGRaD}, a novel method that directly addresses the memory challenges associated with optimizing large tensor-structured weights. Our approach, based on a \texit{robust tensor decomposition}, factorizes gradients as the sum of a low-rank tensor and a sparse one to efficiently capture information within optimizer states, including outliers. Additionally, we provide a recipe for mixed precision training of TensorGRaD, achieving further memory savings without sacrificing accuracy. We showcase the effectiveness of TensorGRaD on Fourier Neural Operators, a class of models crucial for solving partial differential equations (PDE). We provide theoretical guarantees for TensorGRaD, demonstrating its fundamental advantage over matrix-based gradient compression methods. We empirically demonstrate large improvements across various PDE tasks, including the challenging turbulent Navier-Stokes case at a Reynolds number of $10^5$. TensorGRaD reduces total memory usage by over $50\%$ while maintaining and sometimes even improving accuracy.
- Abstract(参考訳): 科学的な問題には、無限次元函数空間における様々な分解と学習解作用素の多次元現象の解決が必要である。
ニューラルネットワークは、テンソルパラメータ化層を使用して複雑な多次元関係をキャプチャする強力なフレームワークを提供する。
しかし、ニューラル演算子を高分解能な問題にスケーリングすることは、産業規模のモデルのトレーニングを禁止し、大きな計算要求をもたらす。
本研究では,大きなテンソル構造重みの最適化に係わるメモリ問題に直接対処する新しい手法である \textbf{TensorGRaD} を紹介する。
提案手法は,低ランクテンソルとスパーステンソルの和として勾配を分解し,オプティマイザ状態の情報を効率的に取得する。
さらに,TensorGRaDの混合精度トレーニングのレシピを提供し,精度を犠牲にすることなく,さらなるメモリ節約を実現する。
本稿では、偏微分方程式(PDE)の解法に不可欠なモデルのクラスであるフーリエニューラル演算子に対するTensorGRaDの有効性を示す。
我々はTensorGRaDを理論的に保証し、行列ベースの勾配圧縮法に対して根本的な優位性を示す。
我々は,Reynolds数10^5$の乱流Navier-Stokesケースを含む,様々なPDEタスクにおける大幅な改善を実証的に実証した。
TensorGRaDは、総メモリ使用量を50\%以上削減すると同時に、時には正確性も向上する。
関連論文リスト
- SMMF: Square-Matricized Momentum Factorization for Memory-Efficient Optimization [0.5755004576310332]
SMMFはAdamのような広く使われている適応学習率Matrixのメモリ要求を最大96%削減するメモリ効率である。
本研究では,SMMF の残差解析を行い,AdamNC などの非メモリ効率適応学習率 Matrix と同様に収束することを示す。
我々の実験では、SMMFは、Adafactor、CAME、SM3といった最先端のメモリ効率と比較して最大96%のメモリを消費し、同等のモデル性能を実現している。
論文 参考訳(メタデータ) (2024-12-12T03:14:50Z) - Over-parameterized Student Model via Tensor Decomposition Boosted Knowledge Distillation [10.48108719012248]
我々は、より大規模な教師モデルを模倣するために、コンパクトな学生モデルを訓練する知識蒸留(KD)に焦点を当てる。
これまでの作業の多くとは対照的に、トレーニング中の学生モデルのパラメータをスケールアップする。
論文 参考訳(メタデータ) (2024-11-10T12:40:59Z) - Multi-Grid Tensorized Fourier Neural Operator for High-Resolution PDEs [93.82811501035569]
本稿では,メモリ要求を低減し,より一般化したデータ効率・並列化可能な演算子学習手法を提案する。
MG-TFNOは、実世界の実世界の現象の局所的構造と大域的構造を活用することで、大規模な分解能にスケールする。
乱流ナビエ・ストークス方程式において150倍以上の圧縮で誤差の半分以下を達成できる優れた性能を示す。
論文 参考訳(メタデータ) (2023-09-29T20:18:52Z) - Geometry-Informed Neural Operator for Large-Scale 3D PDEs [76.06115572844882]
大規模偏微分方程式の解演算子を学習するために,幾何インフォームド・ニューラル演算子(GINO)を提案する。
我々はGINOを訓練し、わずか500点のデータポイントで車両表面の圧力を予測することに成功した。
論文 参考訳(メタデータ) (2023-09-01T16:59:21Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - Symbolic Regression on FPGAs for Fast Machine Learning Inference [2.0920303420933273]
高エネルギー物理コミュニティは、FPGA(Field-Programmable Gate Arrays)上に機械学習ベースのソリューションをデプロイする可能性を探っている
シンボリックレグレッション(SR)と呼ばれる機械学習技術を利用した新しいエンドツーエンドプロシージャを提案する。
提案手法は,最大で5 nsまでの実行時間を最大13倍に抑えながら,90%以上の近似精度を維持した推論モデルを用いて3層ニューラルネットワークを近似できることを示す。
論文 参考訳(メタデータ) (2023-05-06T17:04:02Z) - Low-Rank Tensor Function Representation for Multi-Dimensional Data
Recovery [52.21846313876592]
低ランクテンソル関数表現(LRTFR)は、無限解像度でメッシュグリッドを超えてデータを連続的に表現することができる。
テンソル関数に対する2つの基本的な概念、すなわちテンソル関数ランクとローランクテンソル関数分解を開発する。
提案手法は,最先端手法と比較して,提案手法の優越性と汎用性を裏付けるものである。
論文 参考訳(メタデータ) (2022-12-01T04:00:38Z) - SHINE: SHaring the INverse Estimate from the forward pass for bi-level
optimization and implicit models [15.541264326378366]
近年,深層ニューラルネットワークの深度を高める手法として暗黙の深度学習が登場している。
トレーニングは双レベル問題として実行され、その計算複雑性は巨大なヤコビ行列の反復反転によって部分的に駆動される。
本稿では,この計算ボトルネックに対処する新たな手法を提案する。
論文 参考訳(メタデータ) (2021-06-01T15:07:34Z) - Fourier Neural Operator for Parametric Partial Differential Equations [57.90284928158383]
積分カーネルを直接フーリエ空間でパラメータ化することで、新しいニューラル演算子を定式化する。
バーガースの方程式、ダーシー流、ナビエ・ストークス方程式の実験を行う。
従来のPDEソルバに比べて最大3桁高速である。
論文 参考訳(メタデータ) (2020-10-18T00:34:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。