Fugu-MT 論文翻訳(概要): Tensor-GaLore: Memory-Efficient Training via Gradient Tensor Decomposition

論文の概要: Tensor-GaLore: Memory-Efficient Training via Gradient Tensor Decomposition

arxiv url: http://arxiv.org/abs/2501.02379v1
Date: Sat, 04 Jan 2025 20:51:51 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-07 16:36:51.174204
Title: Tensor-GaLore: Memory-Efficient Training via Gradient Tensor Decomposition
Title（参考訳）: Tensor-GaLore: Gradient Tensor Decompositionによるメモリ効率向上トレーニング
Authors: Robert Joseph George, David Pitt, Jiawei Zhao, Jean Kossaifi, Cheng Luo, Yuandong Tian, Anima Anandkumar,
Abstract要約: 本研究では,高次テンソル重み付きニューラルネットワークの効率的なトレーニング手法であるNavier-GaLoreを提案する。様々なPDEタスクの中で、Navier-GaLoreはメモリ節約を実現し、最大75%のメモリ使用量を削減している。
参考スコア（独自算出の注目度）: 93.98343072306619
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present Tensor-GaLore, a novel method for efficient training of neural networks with higher-order tensor weights. Many models, particularly those used in scientific computing, employ tensor-parameterized layers to capture complex, multidimensional relationships. When scaling these methods to high-resolution problems makes memory usage grow intractably, and matrix based optimization methods lead to suboptimal performance and compression. We propose to work directly in the high-order space of the complex tensor parameter space using a tensor factorization of the gradients during optimization. We showcase its effectiveness on Fourier Neural Operators (FNOs), a class of models crucial for solving partial differential equations (PDE) and prove the theory of it. Across various PDE tasks like the Navier Stokes and Darcy Flow equations, Tensor-GaLore achieves substantial memory savings, reducing optimizer memory usage by up to 75%. These substantial memory savings across AI for science demonstrate Tensor-GaLore's potential.
Abstract（参考訳）: 本稿では,高次テンソル重み付きニューラルネットワークの効率的なトレーニング法であるTensor-GaLoreを提案する。多くのモデル、特に科学計算で使用されるモデルは、複雑な多次元の関係を捉えるためにテンソルパラメトリズド層を用いる。これらの手法を高分解能な問題にスケールすると、メモリ使用量は大幅に増加し、行列ベースの最適化手法は、最適性能と圧縮をもたらす。我々は、最適化中の勾配のテンソル因子化を用いて、複素テンソルパラメータ空間の高次空間で直接働くことを提案する。本稿では、偏微分方程式(PDE)を解く上で不可欠なモデルのクラスであるフーリエニューラル演算子(FNO)にその効果を示し、その理論を実証する。 Navier StokesやDarcy FlowといったさまざまなPDEタスクに対して、Tensor-GaLoreは大幅なメモリ節約を実現し、オプティマイザのメモリ使用量を最大75%削減する。科学のためのAI全体のメモリ節約は、Tensor-GaLoreの可能性を実証している。

関連論文リスト

tCURLoRA: Tensor CUR Decomposition Based Low-Rank Parameter Adaptation and Its Application in Medical Image Segmentation [1.3281936946796913]
伝達学習は、事前訓練されたモデルからの知識を活用することで、目標タスクの性能を大幅に向上させた。ディープニューラルネットワークのスケールアップに伴って、フル微調整によって、計算とストレージの大幅な課題がもたらされる。テンソルCUR分解に基づく新しい微調整法であるtCURLoRAを提案する。
論文参考訳（メタデータ） (2025-01-04T08:25:32Z)
SMMF: Square-Matricized Momentum Factorization for Memory-Efficient Optimization [0.5755004576310332]
SMMFはAdamのような広く使われている適応学習率Matrixのメモリ要求を最大96%削減するメモリ効率である。本研究では,SMMF の残差解析を行い,AdamNC などの非メモリ効率適応学習率 Matrix と同様に収束することを示す。我々の実験では、SMMFは、Adafactor、CAME、SM3といった最先端のメモリ効率と比較して最大96%のメモリを消費し、同等のモデル性能を実現している。
論文参考訳（メタデータ） (2024-12-12T03:14:50Z)
Over-parameterized Student Model via Tensor Decomposition Boosted Knowledge Distillation [10.48108719012248]
我々は、より大規模な教師モデルを模倣するために、コンパクトな学生モデルを訓練する知識蒸留(KD)に焦点を当てる。これまでの作業の多くとは対照的に、トレーニング中の学生モデルのパラメータをスケールアップする。
論文参考訳（メタデータ） (2024-11-10T12:40:59Z)
DimOL: Dimensional Awareness as A New 'Dimension' in Operator Learning [60.58067866537143]
本稿では,DimOL(Dimension-aware Operator Learning)を紹介し,次元解析から洞察を得る。 DimOLを実装するために,FNOおよびTransformerベースのPDEソルバにシームレスに統合可能なProdLayerを提案する。経験的に、DimOLモデルはPDEデータセット内で最大48%のパフォーマンス向上を達成する。
論文参考訳（メタデータ） (2024-10-08T10:48:50Z)
Computational and Statistical Guarantees for Tensor-on-Tensor Regression with Tensor Train Decomposition [27.29463801531576]
TTに基づくToT回帰モデルの理論的およびアルゴリズム的側面について検討する。制約付き誤差境界に対する解を効率的に見つけるための2つのアルゴリズムを提案する。我々はIHTとRGDの両方の線形収束速度を確立する。
論文参考訳（メタデータ） (2024-06-10T03:51:38Z)
Multi-Grid Tensorized Fourier Neural Operator for High-Resolution PDEs [93.82811501035569]
本稿では,メモリ要求を低減し,より一般化したデータ効率・並列化可能な演算子学習手法を提案する。 MG-TFNOは、実世界の実世界の現象の局所的構造と大域的構造を活用することで、大規模な分解能にスケールする。乱流ナビエ・ストークス方程式において150倍以上の圧縮で誤差の半分以下を達成できる優れた性能を示す。
論文参考訳（メタデータ） (2023-09-29T20:18:52Z)
Geometry-Informed Neural Operator for Large-Scale 3D PDEs [76.06115572844882]
大規模偏微分方程式の解演算子を学習するために,幾何インフォームド・ニューラル演算子(GINO)を提案する。我々はGINOを訓練し、わずか500点のデータポイントで車両表面の圧力を予測することに成功した。
論文参考訳（メタデータ） (2023-09-01T16:59:21Z)
Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文参考訳（メタデータ） (2023-05-24T15:52:08Z)
Symbolic Regression on FPGAs for Fast Machine Learning Inference [2.0920303420933273]
高エネルギー物理コミュニティは、FPGA(Field-Programmable Gate Arrays)上に機械学習ベースのソリューションをデプロイする可能性を探っているシンボリックレグレッション(SR)と呼ばれる機械学習技術を利用した新しいエンドツーエンドプロシージャを提案する。提案手法は,最大で5 nsまでの実行時間を最大13倍に抑えながら,90%以上の近似精度を維持した推論モデルを用いて3層ニューラルネットワークを近似できることを示す。
論文参考訳（メタデータ） (2023-05-06T17:04:02Z)
Low-Rank Tensor Function Representation for Multi-Dimensional Data Recovery [52.21846313876592]
低ランクテンソル関数表現(LRTFR)は、無限解像度でメッシュグリッドを超えてデータを連続的に表現することができる。テンソル関数に対する2つの基本的な概念、すなわちテンソル関数ランクとローランクテンソル関数分解を開発する。提案手法は,最先端手法と比較して,提案手法の優越性と汎用性を裏付けるものである。
論文参考訳（メタデータ） (2022-12-01T04:00:38Z)
Truncated tensor Schatten p-norm based approach for spatiotemporal traffic data imputation with complicated missing patterns [77.34726150561087]
本研究は, モード駆動繊維による3症例の欠失を含む, 4症例の欠失パターンについて紹介する。本モデルでは, 目的関数の非性にもかかわらず, 乗算器の交互データ演算法を統合することにより, 最適解を導出する。
論文参考訳（メタデータ） (2022-05-19T08:37:56Z)
SHINE: SHaring the INverse Estimate from the forward pass for bi-level optimization and implicit models [15.541264326378366]
近年,深層ニューラルネットワークの深度を高める手法として暗黙の深度学習が登場している。トレーニングは双レベル問題として実行され、その計算複雑性は巨大なヤコビ行列の反復反転によって部分的に駆動される。本稿では,この計算ボトルネックに対処する新たな手法を提案する。
論文参考訳（メタデータ） (2021-06-01T15:07:34Z)
Scaling and Scalability: Provable Nonconvex Low-Rank Tensor Estimation from Incomplete Measurements [30.395874385570007]
基本的な課題は、高度に不完全な測定からテンソルを忠実に回収することである。タッカー分解におけるテンソル因子を直接回復するアルゴリズムを開発した。 2つの正準問題に対する基底真理テンソルの線形独立率で確実に収束することを示す。
論文参考訳（メタデータ） (2021-04-29T17:44:49Z)
Fourier Neural Operator for Parametric Partial Differential Equations [57.90284928158383]
積分カーネルを直接フーリエ空間でパラメータ化することで、新しいニューラル演算子を定式化する。バーガースの方程式、ダーシー流、ナビエ・ストークス方程式の実験を行う。従来のPDEソルバに比べて最大3桁高速である。
論文参考訳（メタデータ） (2020-10-18T00:34:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。