論文の概要: Concurrent Alternating Least Squares for multiple simultaneous Canonical
Polyadic Decompositions
- arxiv url: http://arxiv.org/abs/2010.04678v2
- Date: Wed, 8 Sep 2021 11:27:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-09 06:33:21.718122
- Title: Concurrent Alternating Least Squares for multiple simultaneous Canonical
Polyadic Decompositions
- Title(参考訳): 多成分同時分解のための同時交互最小方形
- Authors: Christos Psarras, Lars Karlsson, Rasmus Bro and Paolo Bientinesi
- Abstract要約: 我々は,Matlabにインターフェースを提供するConcurrent ALSアルゴリズムとライブラリを紹介する。
我々は,同じテンソルの複数の分解をアルゴリズムレベルで融合させて算術強度を増大させる方法を示す。
人工データセットと実データセットの実験結果は、算術強度の増加による完了までの時間短縮を示す。
- 参考スコア(独自算出の注目度): 2.3513645401551333
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tensor decompositions, such as CANDECOMP/PARAFAC (CP), are widely used in a
variety of applications, such as chemometrics, signal processing, and machine
learning. A broadly used method for computing such decompositions relies on the
Alternating Least Squares (ALS) algorithm. When the number of components is
small, regardless of its implementation, ALS exhibits low arithmetic intensity,
which severely hinders its performance and makes GPU offloading ineffective. We
observe that, in practice, experts often have to compute multiple
decompositions of the same tensor, each with a small number of components
(typically fewer than 20), to ultimately find the best ones to use for the
application at hand. In this paper, we illustrate how multiple decompositions
of the same tensor can be fused together at the algorithmic level to increase
the arithmetic intensity. Therefore, it becomes possible to make efficient use
of GPUs for further speedups; at the same time the technique is compatible with
many enhancements typically used in ALS, such as line search, extrapolation,
and non-negativity constraints. We introduce the Concurrent ALS algorithm and
library, which offers an interface to Matlab, and a mechanism to effectively
deal with the issue that decompositions complete at different times.
Experimental results on artificial and real datasets demonstrate a shorter time
to completion due to increased arithmetic intensity.
- Abstract(参考訳): CANDECOMP/PARAFAC (CP) のようなテンソル分解は、化学、信号処理、機械学習といった様々な用途で広く使われている。
このような分解の計算には、Alternating Least Squares (ALS)アルゴリズムが使われている。
実装に関わらず、コンポーネントの数が少ない場合、ALSは演算強度が低く、パフォーマンスを著しく妨げ、GPUのオフロードを非効率にする。
実際、専門家は、手元のアプリケーションで使うのに最適なものを見つけるために、それぞれが少数のコンポーネント(典型的には20未満)を持つ同じテンソルの複数の分解を計算する必要があるのである。
本稿では,同じテンソルの複数の分解をアルゴリズムレベルで融合して算術強度を増加させる方法について述べる。
そのため、さらなる高速化のためにGPUの効率的な利用が可能となり、同時に、線探索、外挿、非負性制約などのALSで一般的に使用される多くの拡張とも互換性がある。
我々は,Matlabにインターフェースを提供するConcurrent ALSアルゴリズムとライブラリを導入し,異なるタイミングで分解する問題を効果的に処理するメカニズムについて紹介する。
人工データセットと実データセットの実験結果は、算術強度の増加による完了までの時間短縮を示す。
関連論文リスト
- Stochastic Optimization for Non-convex Problem with Inexact Hessian
Matrix, Gradient, and Function [99.31457740916815]
信頼領域(TR)と立方体を用いた適応正則化は、非常に魅力的な理論的性質を持つことが証明されている。
TR法とARC法はヘッセン関数,勾配関数,関数値の非コンパクトな計算を同時に行うことができることを示す。
論文 参考訳(メタデータ) (2023-10-18T10:29:58Z) - An Efficient Algorithm for Clustered Multi-Task Compressive Sensing [60.70532293880842]
クラスタ化マルチタスク圧縮センシングは、複数の圧縮センシングタスクを解決する階層モデルである。
このモデルに対する既存の推論アルゴリズムは計算コストが高く、高次元ではうまくスケールしない。
本稿では,これらの共分散行列を明示的に計算する必要をなくし,モデル推論を大幅に高速化するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-09-30T15:57:14Z) - Decreasing the Computing Time of Bayesian Optimization using
Generalizable Memory Pruning [56.334116591082896]
本稿では,任意のサロゲートモデルと取得関数で使用可能なメモリプルーニングとバウンダリ最適化のラッパーを示す。
BOを高次元または大規模データセット上で実行することは、この時間の複雑さのために難解になる。
すべてのモデル実装はMIT Supercloudの最先端コンピューティングハードウェア上で実行される。
論文 参考訳(メタデータ) (2023-09-08T14:05:56Z) - Faster Adaptive Momentum-Based Federated Methods for Distributed
Composition Optimization [14.579475552088692]
非分散合成問題の解法として,高速なフェデレート合成最適化アルゴリズム(MFCGDとAdaMFCGD)を提案する。
特に、我々の適応アルゴリズム(AdaMFCGD)は、様々な適応学習率を柔軟に組み込むために統一適応行列を使用する。
論文 参考訳(メタデータ) (2022-11-03T15:17:04Z) - Batch-efficient EigenDecomposition for Small and Medium Matrices [65.67315418971688]
EigenDecomposition (ED)は多くのコンピュータビジョンアルゴリズムとアプリケーションの中心にある。
本稿では,コンピュータビジョンの応用シナリオに特化したQRベースのED手法を提案する。
論文 参考訳(メタデータ) (2022-07-09T09:14:12Z) - A Communication-Efficient Distributed Gradient Clipping Algorithm for
Training Deep Neural Networks [11.461878019780597]
グラディエントDescentは、ディープニューラルネットワークにおいてゆっくりと収束する。
勾配クリッピング方式が並列スピードアップを楽しむために複数のマシンを活用できるかどうかは謎のままである。
論文 参考訳(メタデータ) (2022-05-10T16:55:33Z) - Alternating Mahalanobis Distance Minimization for Stable and Accurate CP
Decomposition [4.847980206213335]
本稿では, テンソルの特異値とベクトルを導出するための新しい定式化を導入する。
このアルゴリズムのサブスウィープは、既知のランクの正確なCPDに対して超線形収束率を達成することができることを示す。
すると、アルゴリズムは各因子に対するマハラノビス距離を最適化するものであり、基底距離は他の因子に依存していると見なす。
論文 参考訳(メタデータ) (2022-04-14T19:56:36Z) - Efficient GPU implementation of randomized SVD and its applications [17.71779625877989]
行列分解は、次元データの圧縮やディープラーニングアルゴリズムなど、機械学習においてユビキタスである。
行列分解の典型的な解は、計算コストと時間を大幅に増大させる複雑さを持つ。
我々は,計算行列分解の計算負担を軽減するために,現代のグラフィカル処理ユニット(GPU)で並列に動作する効率的な処理操作を利用する。
論文 参考訳(メタデータ) (2021-10-05T07:42:41Z) - AsySQN: Faster Vertical Federated Learning Algorithms with Better
Computation Resource Utilization [159.75564904944707]
垂直連合学習(VFL)のための非同期準ニュートン(AsySQN)フレームワークを提案する。
提案アルゴリズムは、逆ヘッセン行列を明示的に計算することなく、近似して降下ステップをスケールする。
本稿では,非同期計算を採用することにより,計算資源の有効利用が期待できることを示す。
論文 参考訳(メタデータ) (2021-09-26T07:56:10Z) - Poly-NL: Linear Complexity Non-local Layers with Polynomials [76.21832434001759]
性能を損なわずに2次から線形に複雑性を低減できる新しい高速非局所ブロックを定式化する。
The proposed method, we dub that "Poly-NL" is competitive to state-of-the-art performance across image recognition, instance segmentation, and face detection task。
論文 参考訳(メタデータ) (2021-07-06T19:51:37Z) - Efficient Alternating Least Squares Algorithms for Low Multilinear Rank
Approximation of Tensors [6.308492837096872]
テンソルの低次階数近似を効率的に計算するための最小二乗(ALS)に基づく新しいクラスHOSVDアルゴリズムを提案する。
ALSに基づくアプローチは、中間行列の特異ベクトルの冗長な計算を排除し、したがってデータの爆発をなくすことができる。
合成および実世界の双方の大規模テンソルを用いた数値実験により、ALSベースの手法が原材料全体のコストを大幅に削減し、並列計算に非常にスケーラブルであることを示す。
論文 参考訳(メタデータ) (2020-04-06T11:58:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。