論文の概要: The Two-Pass Softmax Algorithm
- arxiv url: http://arxiv.org/abs/2001.04438v1
- Date: Mon, 13 Jan 2020 18:17:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-12 00:02:05.928162
- Title: The Two-Pass Softmax Algorithm
- Title(参考訳): 2パスソフトマックスアルゴリズム
- Authors: Marat Dukhan and Artsiom Ablavatski
- Abstract要約: ソフトマックス関数は、実数値スコアを確率分布に正規化するために機械学習モデルで広く用いられている。
3Passアルゴリズムの2つの変種を解析し,HPC級プロセッサ上でのメモリ帯域幅に制限があることを示す。
2つのパスでソフトマックスのための新しいオーバーフローアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 3.397295835203868
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The softmax (also called softargmax) function is widely used in machine
learning models to normalize real-valued scores into a probability
distribution. To avoid floating-point overflow, the softmax function is
conventionally implemented in three passes: the first pass to compute the
normalization constant, and two other passes to compute outputs from normalized
inputs. We analyze two variants of the Three-Pass algorithm and demonstrate
that in a well-optimized implementation on HPC-class processors performance of
all three passes is limited by memory bandwidth. We then present a novel
algorithm for softmax computation in just two passes. The proposed Two-Pass
algorithm avoids both numerical overflow and the extra normalization pass by
employing an exotic representation for intermediate values, where each value is
represented as a pair of floating-point numbers: one representing the
"mantissa" and another representing the "exponent". Performance evaluation
demonstrates that on out-of-cache inputs on an Intel Skylake-X processor the
new Two-Pass algorithm outperforms the traditional Three-Pass algorithm by up
to 28% in AVX512 implementation, and by up to 18% in AVX2 implementation. The
proposed Two-Pass algorithm also outperforms the traditional Three-Pass
algorithm on Intel Broadwell and AMD Zen 2 processors. To foster
reproducibility, we released an open-source implementation of the new Two-Pass
Softmax algorithm and other experiments in this paper as a part of XNNPACK
library at GitHub.com/google/XNNPACK.
- Abstract(参考訳): ソフトマックス(Softargmax)関数は、実数値スコアを確率分布に正規化するために機械学習モデルで広く用いられている。
浮動小数点オーバーフローを避けるために、ソフトマックス関数は従来の3つのパス(正規化定数を計算する最初のパスと正規化入力からの出力を計算するための他の2つのパス)で実装されている。
3パスアルゴリズムの2つの変種を分析し、hpcクラスのプロセッサの性能を最適化した実装では、メモリ帯域幅によって性能が制限されることを示した。
次に, 2 回のパスでソフトマックス計算を行う新しいアルゴリズムを提案する。
提案する2パスアルゴリズムは、中間値に対するエキゾチック表現を用いて数値オーバーフローと余剰正規化の両方を避け、各値は浮動小数点数("mantissa"を表すものと"exponent"を表すもの)のペアとして表現される。
性能評価では、intel skylake-xプロセッサ上のキャッシュ外入力において、新しい2パスアルゴリズムが従来の3パスアルゴリズムを28%、avx512実装を最大18%上回っていることが示されている。
提案する2パスアルゴリズムは、intel broadwellとamd zen 2プロセッサの従来の3パスアルゴリズムよりも優れている。
再現性を向上するため、GitHub.com/google/XNNPACKのXNNPACKライブラリの一部として、新しいTwo-Pass Softmaxアルゴリズムや他の実験をオープンソースで実装した。
関連論文リスト
- Quantum-Trajectory-Inspired Lindbladian Simulation [15.006625290843187]
リンドブラディアンズが支配するオープン量子系の力学をシミュレーションする2つの量子アルゴリズムを提案する。
最初のアルゴリズムはジャンプ演算子数とは無関係にゲート複雑性を達成し、$m$は効率を大幅に向上させる。
第二のアルゴリズムは進化時間$t$と精度$epsilon$にほぼ最適に依存し、追加の$tildeO(m)$ factorを導入する。
論文 参考訳(メタデータ) (2024-08-20T03:08:27Z) - Extreme Compression of Large Language Models via Additive Quantization [59.3122859349777]
我々のアルゴリズムは、AQLMと呼ばれ、情報検索のための古典的な加算量子化(AQ)アプローチを一般化する。
トークン生成のためのAQLMの高速GPUおよびCPU実装を提供しており、最適化されたFP16実装を高速にマッチングまたは性能良くすることができる。
論文 参考訳(メタデータ) (2024-01-11T18:54:44Z) - INR-Arch: A Dataflow Architecture and Compiler for Arbitrary-Order
Gradient Computations in Implicit Neural Representation Processing [66.00729477511219]
計算グラフとして表される関数を考えると、従来のアーキテクチャはn階勾配を効率的に計算する上で困難に直面している。
InR-Archは,n階勾配の計算グラフをハードウェア最適化データフローアーキテクチャに変換するフレームワークである。
1.8-4.8x と 1.5-3.6x の高速化を CPU と GPU のベースラインと比較した結果を示す。
論文 参考訳(メタデータ) (2023-08-11T04:24:39Z) - Deep Unfolded Simulated Bifurcation for Massive MIMO Signal Detection [7.969977930633441]
深層学習技術と量子(インスパイアされた)アルゴリズムに基づく様々な信号検出器が提案され,検出性能が向上した。
本稿では、量子インスパイアされたアルゴリズムであるシミュレート・バイフルケーション(SB)アルゴリズムに焦点を当てる。
論文 参考訳(メタデータ) (2023-06-28T14:46:55Z) - Fast Computation of Optimal Transport via Entropy-Regularized Extragradient Methods [75.34939761152587]
2つの分布間の最適な輸送距離の効率的な計算は、様々な応用を促進するアルゴリズムとして機能する。
本稿では,$varepsilon$加法精度で最適な輸送を計算できるスケーラブルな一階最適化法を提案する。
論文 参考訳(メタデータ) (2023-01-30T15:46:39Z) - Fast Differentiable Matrix Square Root and Inverse Square Root [65.67315418971688]
微分可能な行列平方根と逆平方根を計算するためのより効率的な2つの変種を提案する。
前方伝搬には, Matrix Taylor Polynomial (MTP) を用いる方法と, Matrix Pad'e Approximants (MPA) を使用する方法がある。
一連の数値実験により、両方の手法がSVDやNSの繰り返しと比較してかなりスピードアップすることが示された。
論文 参考訳(メタデータ) (2022-01-29T10:00:35Z) - RAMA: A Rapid Multicut Algorithm on GPU [23.281726932718232]
本稿では,マルチカット問題(マグニチュード相関クラスタリング)に対する高並列原始双対アルゴリズムを提案する。
我々のアルゴリズムは、最適距離を推定する原始解と双対下界を生成する。
最大$mathcalO(108)$変数を数秒で、小さな原始双対ギャップで、非常に大規模なベンチマーク問題を解くことができる。
論文 参考訳(メタデータ) (2021-09-04T10:33:59Z) - Provably Faster Algorithms for Bilevel Optimization [54.83583213812667]
バイレベル最適化は多くの重要な機械学習アプリケーションに広く適用されている。
両レベル最適化のための2つの新しいアルゴリズムを提案する。
両アルゴリズムが$mathcalO(epsilon-1.5)$の複雑さを達成し,既存のアルゴリズムを桁違いに上回っていることを示す。
論文 参考訳(メタデータ) (2021-06-08T21:05:30Z) - Lower Bounds and Optimal Algorithms for Smooth and Strongly Convex
Decentralized Optimization Over Time-Varying Networks [79.16773494166644]
通信ネットワークのノード間を分散的に保存するスムーズで強い凸関数の和を最小化するタスクについて検討する。
我々は、これらの下位境界を達成するための2つの最適アルゴリズムを設計する。
我々は,既存の最先端手法と実験的な比較を行うことにより,これらのアルゴリズムの理論的効率を裏付ける。
論文 参考訳(メタデータ) (2021-06-08T15:54:44Z) - Quantum Algorithms for Prediction Based on Ridge Regression [0.7612218105739107]
本稿では,リッジ回帰モデルに基づく量子アルゴリズムを提案する。
提案アルゴリズムは幅広い応用範囲を持ち,提案アルゴリズムは他の量子アルゴリズムのサブルーチンとして利用することができる。
論文 参考訳(メタデータ) (2021-04-27T11:03:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。