論文の概要: Irrational Complex Rotations Empower Low-bit Optimizers
- arxiv url: http://arxiv.org/abs/2501.12896v1
- Date: Wed, 22 Jan 2025 14:17:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-23 13:28:58.329351
- Title: Irrational Complex Rotations Empower Low-bit Optimizers
- Title(参考訳): 低ビットオプティマイザを用いた不合理複素回転
- Authors: Zhen Tian, Wayne Xin Zhao, Ji-Rong Wen,
- Abstract要約: 本稿では,メモリ効率向上のための新しい状態圧縮アルゴリズム,すなわち$pi$-Quantを提案する。
パラメータのビット幅を3.32ビットに削減し,パラメータスケールの75%削減とGPUメモリ使用量の40%削減を実現している。
- 参考スコア(独自算出の注目度): 102.56966165088963
- License:
- Abstract: In this paper, we propose a novel optimizer state compression algorithm, namely $\pi$-Quant, which leverages the properties of irrational numbers (e.g., $\pi$) for memory-efficient training. The core idea is based on our mathematical findings, which show that a pair of parameters can be represented by a single rotation angle using the complex rotation scheme. Building on this insight, we map the parameters into a complex space and perform quantization using the corresponding rotation angles. To efficiently integrate it into optimization process, we develop an efficient system of geometric equations that computes the precise rotation angles with linear complexity. We evaluate $\pi$-Quant on a wide range of tasks. Our experiments show that it can reduce the bit-width of parameters to 3.32-bit, achieving a 75% reduction in parameter scale and a 40% decrease in GPU memory usage, all while maintaining full accuracy.
- Abstract(参考訳): 本稿では、メモリ効率のトレーニングに不合理数(例えば、$\pi$)の特性を利用する、新しいオプティマイザ状態圧縮アルゴリズム($\pi$-Quant)を提案する。
中心となる考え方は、複雑な回転スキームを用いて一対のパラメータを一対の回転角で表現できることを示す数学的発見に基づいている。
この知見に基づいて、パラメータを複素空間にマッピングし、対応する回転角を用いて量子化を行う。
最適化プロセスに効率よく統合するため,線形複雑度で正確な回転角を計算できる幾何方程式の効率的なシステムを開発した。
幅広いタスクで$\pi$-Quantを評価します。
実験の結果,パラメータのビット幅を3.32ビットに削減し,パラメータスケールの75%削減,GPUメモリ使用率の40%削減を実現し,完全精度を維持した。
関連論文リスト
- Improving Gradient Methods via Coordinate Transformations: Applications to Quantum Machine Learning [0.0]
機械学習アルゴリズムは勾配降下などの勾配に基づく最適化アルゴリズムに大きく依存している。
全体的な性能は、局所的なミニマと不毛の高原の出現に依存する。
本稿では,これらの手法の全般的な性能向上を図り,バレンプラトー効果と局所ミニマ効果を緩和する汎用戦略を提案する。
論文 参考訳(メタデータ) (2023-04-13T18:26:05Z) - RAGO: Recurrent Graph Optimizer For Multiple Rotation Averaging [62.315673415889314]
本稿では,複数回転平均化(MRA)のための深部繰り返し回転平均化グラフ(RAGO)を提案する。
我々のフレームワークは、実世界のアプリケーションに小さなサイズでデプロイされた、リアルタイムに学習から最適化するローテーション平均化グラフである。
論文 参考訳(メタデータ) (2022-12-14T13:19:40Z) - Low-complexity Approximate Convolutional Neural Networks [1.7368964547487395]
本稿では,学習された畳み込みニューラルネットワーク(ConvNet)の計算複雑性を最小化する手法を提案する。
この考え方は、与えられたConvNetのすべての要素を計算複雑性を極端に削減できる効率的な近似で近似することである。
このような低複雑さ構造は、低消費電力で効率的なハードウェア設計の道を開く。
論文 参考訳(メタデータ) (2022-07-29T21:59:29Z) - Batch-efficient EigenDecomposition for Small and Medium Matrices [65.67315418971688]
EigenDecomposition (ED)は多くのコンピュータビジョンアルゴリズムとアプリケーションの中心にある。
本稿では,コンピュータビジョンの応用シナリオに特化したQRベースのED手法を提案する。
論文 参考訳(メタデータ) (2022-07-09T09:14:12Z) - Unsupervised strategies for identifying optimal parameters in Quantum
Approximate Optimization Algorithm [3.508346077709686]
最適化なしでパラメータを設定するための教師なし機械学習手法について検討する。
繰り返しに使用するQAOAパラメータの数が3ドルに制限された場合、これらをRecursive-QAOAで3ドルまで紹介します。
我々は、アングルを広範囲に最適化し、多数のサーキットコールを省く場合と同じような性能を得る。
論文 参考訳(メタデータ) (2022-02-18T19:55:42Z) - Parallelized Computation and Backpropagation Under Angle-Parametrized
Orthogonal Matrices [0.0]
そこで本研究では, 連続した初等回転パラメトリゼーションを可換演算ブロックに再構成する方法を示す。
本稿では、生成モデルに対する関心のパラメトリックな制限について論じ、GPUのプロトタイプ実装による有望な性能結果を示す。
論文 参考訳(メタデータ) (2021-05-30T00:47:03Z) - Square Root Bundle Adjustment for Large-Scale Reconstruction [56.44094187152862]
QR分解によるランドマーク変数のnullspace marginalizationに依存するバンドル調整問題の新たな定式化を提案する。
平方根束調整と呼ばれる私たちのアプローチは、一般的に使用されるSchur補完トリックと代数的に等価です。
BALデータセットを用いた実世界での実験では、提案されたソルバが単一の精度でも平均的等しく正確なソリューションで達成できることを示す。
論文 参考訳(メタデータ) (2021-03-02T16:26:20Z) - Hybrid Trilinear and Bilinear Programming for Aligning Partially
Overlapping Point Sets [85.71360365315128]
多くの応用において、部分重なり合う点集合が対応するRPMアルゴリズムに不変であるようなアルゴリズムが必要である。
まず、目的が立方体有界関数であることを示し、次に、三線型および双線型単相変換の凸エンベロープを用いて、その下界を導出する。
次に、変換変数上の分岐のみを効率よく実行するブランチ・アンド・バウンド(BnB)アルゴリズムを開発する。
論文 参考訳(メタデータ) (2021-01-19T04:24:23Z) - Kernel methods through the roof: handling billions of points efficiently [94.31450736250918]
カーネル法は、非パラメトリック学習に対するエレガントで原則化されたアプローチを提供するが、今のところ大規模な問題ではほとんど利用できない。
最近の進歩は、最適化、数値線形代数、ランダム射影など、多くのアルゴリズム的アイデアの利点を示している。
ここでは、これらの取り組みをさらに進めて、GPUハードウェアを最大限に活用する解決器を開発し、テストする。
論文 参考訳(メタデータ) (2020-06-18T08:16:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。