論文の概要: POET-X: Memory-efficient LLM Training by Scaling Orthogonal Transformation
- arxiv url: http://arxiv.org/abs/2603.05500v1
- Date: Thu, 05 Mar 2026 18:59:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 22:06:11.391598
- Title: POET-X: Memory-efficient LLM Training by Scaling Orthogonal Transformation
- Title(参考訳): POET-X:スケーリング直交変換によるメモリ効率のLLMトレーニング
- Authors: Zeju Qiu, Lixin Liu, Adrian Weller, Han Shi, Weiyang Liu,
- Abstract要約: 大規模言語モデルをトレーニングするためのスケーラブルでメモリ効率のよい変種であるPOET-Xを紹介する。
PoET-Xは、スループットとメモリ効率を大幅に改善しながら、PoETの一般化と安定性の利点を維持している。
- 参考スコア(独自算出の注目度): 57.57816409869894
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Efficient and stable training of large language models (LLMs) remains a core challenge in modern machine learning systems. To address this challenge, Reparameterized Orthogonal Equivalence Training (POET), a spectrum-preserving framework that optimizes each weight matrix through orthogonal equivalence transformation, has been proposed. Although POET provides strong training stability, its original implementation incurs high memory consumption and computational overhead due to intensive matrix multiplications. To overcome these limitations, we introduce POET-X, a scalable and memory-efficient variant that performs orthogonal equivalence transformations with significantly reduced computational cost. POET-X maintains the generalization and stability benefits of POET while achieving substantial improvements in throughput and memory efficiency. In our experiments, POET-X enables the pretraining of billion-parameter LLMs on a single Nvidia H100 GPU, and in contrast, standard optimizers such as AdamW run out of memory under the same settings.
- Abstract(参考訳): 大規模言語モデル(LLM)の効率的かつ安定したトレーニングは、現代の機械学習システムにおいて依然として中心的な課題である。
この課題に対処するため、直交同値変換により各重み行列を最適化するスペクトル保存フレームワークであるReparameterized Orthogonal Equivalence Training (POET)が提案されている。
POETは強力なトレーニング安定性を提供するが、元の実装では集中行列乗算によるメモリ消費と計算オーバーヘッドが増大していた。
これらの制限を克服するために,計算コストを大幅に削減した直交同値変換を行うスケーラブルでメモリ効率のよいPOET-Xを導入する。
POET-Xは、スループットとメモリ効率を大幅に改善しながら、POETの一般化と安定性の利点を維持している。
我々の実験では、POET-Xは1つのNvidia H100 GPU上で10億パラメータのLLMを事前トレーニングすることが可能であり、対照的にAdamWのような標準オプティマイザは、同じ設定でメモリが切れている。
関連論文リスト
- Orthogonal Finetuning Made Scalable [92.34573849209238]
OFT(Orthogonal Finetuning)は、壊滅的な忘れ込みを防止しつつ、パラメータ効率の高い適応を提供するが、実行時とメモリの要求が高いため、実際のデプロイメントが制限される。
ここでは,OFTの計算ボトルネックを重み中心の実装とみなす。
本稿では,行列ベクトル乗法(行列フリー計算)を用いて,計算コストを2次に削減する入力中心の変換法OFTv2を提案する。
これらの変更により、OFTv2は最大10倍の高速トレーニングと3倍のGPUメモリ使用率を達成することができる。
論文 参考訳(メタデータ) (2025-06-24T17:59:49Z) - Scaling Probabilistic Circuits via Monarch Matrices [109.65822339230853]
確率回路(PC)は確率分布の抽出可能な表現である。
そこで本研究では,PCの和ブロックに対する新しいスパースパラメータと構造化パラメータ化を提案する。
論文 参考訳(メタデータ) (2025-06-14T07:39:15Z) - Reparameterized LLM Training via Orthogonal Equivalence Transformation [54.80172809738605]
直交同値変換を用いてニューロンを最適化する新しいトレーニングアルゴリズムPOETを提案する。
POETは、目的関数を安定して最適化し、一般化を改善する。
我々は、大規模ニューラルネットワークのトレーニングにおいて、POETを柔軟かつスケーラブルにするための効率的な近似を開発する。
論文 参考訳(メタデータ) (2025-06-09T17:59:34Z) - SMMF: Square-Matricized Momentum Factorization for Memory-Efficient Optimization [0.5755004576310332]
SMMFはAdamのような広く使われている適応学習率Matrixのメモリ要求を最大96%削減するメモリ効率である。
本研究では,SMMF の残差解析を行い,AdamNC などの非メモリ効率適応学習率 Matrix と同様に収束することを示す。
我々の実験では、SMMFは、Adafactor、CAME、SM3といった最先端のメモリ効率と比較して最大96%のメモリを消費し、同等のモデル性能を実現している。
論文 参考訳(メタデータ) (2024-12-12T03:14:50Z) - Efficient Arbitrary Precision Acceleration for Large Language Models on GPU Tensor Cores [3.6385567224218556]
大規模言語モデル(LLM)は広く応用されているが、効率的な推論では課題に直面している。
本稿では、並列計算を容易にし、対称量子化をサポートする新しいバイポーラ-INTデータフォーマットを提案する。
ビットレベルで分解・復元する任意の精度行列乗算方式を実装し,フレキシブルな精度を実現する。
論文 参考訳(メタデータ) (2024-09-26T14:17:58Z) - Memory-Efficient Optimization with Factorized Hamiltonian Descent [11.01832755213396]
本稿では,この課題に対処するためのメモリ効率因子化手法を取り入れた新しい適応型H-Facを提案する。
運動量とスケーリングパラメータ推定器の両方にランク1パラメータ化を適用することで、H-Facはメモリコストをサブ線形レベルに削減する。
我々はハミルトン力学から導かれる原理に基づいてアルゴリズムを開発し、最適化力学と収束保証において堅牢な理論的基盤を提供する。
論文 参考訳(メタデータ) (2024-06-14T12:05:17Z) - Transforming Image Super-Resolution: A ConvFormer-based Efficient Approach [58.57026686186709]
本稿では, Convolutional Transformer Layer (ConvFormer) を導入し, ConvFormer-based Super-Resolution Network (CFSR) を提案する。
CFSRは畳み込みベースのアプローチとトランスフォーマーベースのアプローチの両方の利点を継承する。
CFSRは計算コストと性能のバランスが最適であることを示す実験である。
論文 参考訳(メタデータ) (2024-01-11T03:08:00Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - Memory-Efficient Differentiable Programming for Quantum Optimal Control
of Discrete Lattices [1.5012666537539614]
量子最適制御問題は通常、GRAPEのような勾配に基づくアルゴリズムによって解決される。
QOCは、メモリ要件が大きなモデルや長時間のスパンをシミュレートする障壁であることを明らかにした。
我々は、適切な再計算コストでメモリ要求を大幅に削減する、非標準微分可能プログラミングアプローチを採用している。
論文 参考訳(メタデータ) (2022-10-15T20:59:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。