論文の概要: Memory-Efficient Training with In-Place FFT Implementation
- arxiv url: http://arxiv.org/abs/2511.01385v1
- Date: Mon, 03 Nov 2025 09:36:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:27.201223
- Title: Memory-Efficient Training with In-Place FFT Implementation
- Title(参考訳): In-Place FFT実装によるメモリ効率向上トレーニング
- Authors: Xinyu Ding, Bangtian Liu, Siyu Liao, Zhongfeng Wang,
- Abstract要約: 標準FFTや実FFTを含む既存の実装は、真のインプレース計算を達成できない。
本稿では,入力-出力メモリ空間の整合性を保った最初の実領域フルインプレースFFTフレームワーク(rdFFT)を提案する。
- 参考スコア(独自算出の注目度): 5.474695910716561
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fast Fourier Transforms (FFT) are widely used to reduce memory and computational costs in deep learning. However, existing implementations, including standard FFT and real FFT (rFFT), cannot achieve true in-place computation. In particular, rFFT maps an input of size n to a complex output of size n/2+1, causing dimensional mismatch and requiring additional memory allocation. We propose the first real-domain, fully in-place FFT framework (rdFFT) that preserves input-output memory space consistency. By leveraging butterfly operation symmetry and conjugate properties in the frequency domain, we design an implicit complex encoding scheme that eliminates intermediate cache usage entirely. Experiments on multiple natural language understanding tasks demonstrate the method effectiveness in reducing training memory cost, offering a promising direction for frequency-domain lightweight adaptation.
- Abstract(参考訳): 高速フーリエ変換(FFT)は、ディープラーニングにおけるメモリと計算コストの削減に広く用いられている。
しかし、標準FFTや実FFT(rFFT)を含む既存の実装では、真のインプレース計算は達成できない。
特に、rFFT は n の大きさの入力を n/2+1 の複素出力にマッピングし、次元的ミスマッチを引き起こし、追加のメモリ割り当てを必要とする。
本稿では,入力-出力メモリ空間の整合性を保った最初の実領域フルインプレースFFTフレームワーク(rdFFT)を提案する。
周波数領域における蝶の動作対称性と共役特性を活用することにより、中間キャッシュの使用を完全に排除する暗黙的な複雑な符号化方式を設計する。
複数の自然言語理解タスクの実験は、トレーニングメモリコストを削減する方法の有効性を示し、周波数領域の軽量適応のための有望な方向を提供する。
関連論文リスト
- Orthogonal Finetuning Made Scalable [92.34573849209238]
OFT(Orthogonal Finetuning)は、壊滅的な忘れ込みを防止しつつ、パラメータ効率の高い適応を提供するが、実行時とメモリの要求が高いため、実際のデプロイメントが制限される。
ここでは,OFTの計算ボトルネックを重み中心の実装とみなす。
本稿では,行列ベクトル乗法(行列フリー計算)を用いて,計算コストを2次に削減する入力中心の変換法OFTv2を提案する。
これらの変更により、OFTv2は最大10倍の高速トレーニングと3倍のGPUメモリ使用率を達成することができる。
論文 参考訳(メタデータ) (2025-06-24T17:59:49Z) - Beyond Homogeneous Attention: Memory-Efficient LLMs via Fourier-Approximated KV Cache [67.47789629197857]
本稿では,トランスヘッド次元の不均一な役割を生かした学習自由フレームワークを提案する。
フーリエアテンションは、長コンテキスト非感性次元をフーリエ基底に投影することにより、その時間的進化を固定長のスペクトル係数で近似する。
本稿では,FourierAttention が LongBench と Needle-In-A-Haystack 上で最高の長文精度を実現することを示す。
論文 参考訳(メタデータ) (2025-06-13T15:35:54Z) - When Foresight Pruning Meets Zeroth-Order Optimization: Efficient Federated Learning for Low-Memory Devices [36.23767349592602]
Federated Learning (FL)は、AIoT(Artificial Intelligence of Things)設計における協調学習を可能にする。
FLはメモリ使用量が多いため、低メモリのAIoTデバイスでは動作しない。
本稿では,フェデレートされたBPフリートレーニングフレームワークとシームレスに統合可能な,ニューラル・タンジェント・カーネル(NTK)に基づくフェデレーションフォレスト・プルーニング手法を提案する。
論文 参考訳(メタデータ) (2024-05-08T02:24:09Z) - Towards A Unified View of Sparse Feed-Forward Network in Pretraining
Large Language Model [58.9100867327305]
大規模かつスパースなフィードフォワード層(S-FFN)は、大きな言語モデルをテキスト処理するためにTransformersモデルのサイズをスケールアップするのに有効であることが証明されている。
我々は,S-FFNの2つの主要な設計選択,すなわち,メモリブロックのサイズとメモリブロックの選択方法について分析した。
言語モデルの事前学習において,より単純な選択方法である textbftextttAvg-K が得られた。
論文 参考訳(メタデータ) (2023-05-23T12:28:37Z) - Transform Once: Efficient Operator Learning in Frequency Domain [69.74509540521397]
本研究では、周波数領域の構造を利用して、空間や時間における長距離相関を効率的に学習するために設計されたディープニューラルネットワークについて検討する。
この研究は、単一変換による周波数領域学習のための青写真を導入している。
論文 参考訳(メタデータ) (2022-11-26T01:56:05Z) - Fast Partial Fourier Transform [28.36925669222461]
高速フーリエ変換(FFT)は、多くの機械学習アプリケーションにおいて離散フーリエ変換を計算するアルゴリズムである。
広く使われているにもかかわらず、既知の全てのFFTアルゴリズムは、ユーザの要求を指定するための微調整オプションを提供していない。
本稿では,係数を計算すべき任意の連続範囲を指定可能な高速部分フーリエ変換(PFT)を提案する。
論文 参考訳(メタデータ) (2020-08-28T10:01:49Z) - Acceleration of Convolutional Neural Network Using FFT-Based Split
Convolutions [11.031841470875571]
畳み込みニューラルネットワーク(CNN)は多数の変数を持つため、実装の複雑さに悩まされる。
高速フーリエ変換(FFT)に基づくCNNの最近の研究は、FFTに必要な計算を単純化することを目的としている。
本稿では,入力分割に基づくFFT領域における新しいCNN処理法を提案する。
論文 参考訳(メタデータ) (2020-03-27T20:16:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。