論文の概要: DS-FACTO: Doubly Separable Factorization Machines
- arxiv url: http://arxiv.org/abs/2004.13940v1
- Date: Wed, 29 Apr 2020 03:36:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 12:59:07.070664
- Title: DS-FACTO: Doubly Separable Factorization Machines
- Title(参考訳): ds-facto:二重分離可能なファクタライゼーションマシン
- Authors: Parameswaran Raman, S.V.N. Vishwanathan
- Abstract要約: 因子化マシン(FM)は、線形モデルにより表現力を加えるために、特徴間の高次相互作用を含む強力なモデルのクラスである。
ペアワイズ機能に低ランク表現を使用するにもかかわらず、大規模な実世界のデータセットにファクタライズマシンを使用することのメモリオーバーヘッドは禁じられるほど高い。
単一マシンで動作する従来のFMアルゴリズムでは,このスケールを処理できないため,クラスタ間で計算を並列化する分散アルゴリズムは避けられない。
- 参考スコア(独自算出の注目度): 4.281959480566438
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Factorization Machines (FM) are powerful class of models that incorporate
higher-order interaction among features to add more expressive power to linear
models. They have been used successfully in several real-world tasks such as
click-prediction, ranking and recommender systems. Despite using a low-rank
representation for the pairwise features, the memory overheads of using
factorization machines on large-scale real-world datasets can be prohibitively
high. For instance on the criteo tera dataset, assuming a modest $128$
dimensional latent representation and $10^{9}$ features, the memory requirement
for the model is in the order of $1$ TB. In addition, the data itself occupies
$2.1$ TB. Traditional algorithms for FM which work on a single-machine are not
equipped to handle this scale and therefore, using a distributed algorithm to
parallelize the computation across a cluster is inevitable. In this work, we
propose a hybrid-parallel stochastic optimization algorithm DS-FACTO, which
partitions both the data as well as parameters of the factorization machine
simultaneously. Our solution is fully de-centralized and does not require the
use of any parameter servers. We present empirical results to analyze the
convergence behavior, predictive power and scalability of DS-FACTO.
- Abstract(参考訳): 因子化マシン(FM)は、線形モデルにより表現力を加えるために、特徴間の高次相互作用を含む強力なモデルのクラスである。
それらは、クリック予測、ランキング、レコメンデーションシステムなど、いくつかの現実世界のタスクでうまく使われている。
ペアワイズ機能に低ランク表現を使用するにもかかわらず、大規模な実世界のデータセットにファクタライズマシンを使用することのメモリオーバーヘッドは禁忌である。
例えば、Criteo teraデータセットでは、控えめな128$のラテント表現と10^{9}$のフィーチャを仮定すると、モデルのメモリ要件は1$ TBである。
さらに、データ自体が2.1ドル TB である。
単一マシンで動作するfmの従来のアルゴリズムは、このスケールを処理できないため、クラスタをまたいで計算を並列化する分散アルゴリズムを使うことは避けられない。
本研究では,データと因子化マシンのパラメータを同時に分割するハイブリッド並列確率最適化アルゴリズムds-factoを提案する。
私たちのソリューションは完全に分散しており、パラメータサーバーの使用は不要です。
本稿では,ds-factoの収束挙動,予測力,拡張性を分析するための実験結果を示す。
関連論文リスト
- HiRE: High Recall Approximate Top-$k$ Estimation for Efficient LLM
Inference [68.59839755875252]
HiREは2つの新しいコンポーネントから構成される: (i) (i) (i) (i) (i) (i) (i) (i) (i) (i) (ii) DA-TOP-$k$: 効率的なマルチデバイス近似トップ-k$演算子) (i) (i) (i) (i) (i) (i) (i) DA-TOP-$k$演算子) 。
我々は、10億のパラメータモデルにおいて、HiREがソフトマックスとフィードフォワード層の両方に適用され、ほぼ一致した事前学習と下流の精度を実現し、1台のTPUv5eデバイスで1.47Times$の推論遅延を高速化することを示した。
論文 参考訳(メタデータ) (2024-02-14T18:04:36Z) - Transformers as Support Vector Machines [54.642793677472724]
自己アテンションの最適化幾何と厳密なSVM問題との間には,形式的等価性を確立する。
勾配降下に最適化された1層変圧器の暗黙バイアスを特徴付ける。
これらの発見は、最適なトークンを分離し選択するSVMの階層としてのトランスフォーマーの解釈を刺激していると信じている。
論文 参考訳(メタデータ) (2023-08-31T17:57:50Z) - Flag Aggregator: Scalable Distributed Training under Failures and
Augmented Losses using Convex Optimization [14.732408788010313]
MLアプリケーションはますます、複雑なディープラーニングモデルと大規模なデータセットに依存している。
計算とデータをスケールするために、これらのモデルはノードのクラスタ内で分散的にトレーニングされ、それらの更新はモデルに適用される前に集約される。
これらの設定にデータ拡張を加えることで、堅牢で効率的なアグリゲーションシステムが必要である。
この手法は,最先端のビザンツ系レジリエントアグリゲータのロバスト性を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2023-02-12T06:38:30Z) - Transformers meet Stochastic Block Models: Attention with Data-Adaptive
Sparsity and Cost [53.746169882193456]
最近の研究は、自己注意の二次的コストを克服するために、様々なスパークアテンションモジュールを提案している。
本稿では,それぞれの注意を混合メンバーシップブロックモデルで表現することで,両方の問題を解決するモデルを提案する。
我々のモデルは、以前の効率的な変種とオリジナルのトランスフォーマーより優れており、十分に注目されています。
論文 参考訳(メタデータ) (2022-10-27T15:30:52Z) - FeDXL: Provable Federated Learning for Deep X-Risk Optimization [105.17383135458897]
我々は、既存のアルゴリズムが適用できないXリスクのファミリーを最適化するために、新しい連邦学習(FL)問題に取り組む。
Xリスクに対するFLアルゴリズムを設計する際の課題は、複数のマシンに対する目的の非可逆性と、異なるマシン間の相互依存にある。
論文 参考訳(メタデータ) (2022-10-26T00:23:36Z) - Towards Robust and Automatic Hyper-Parameter Tunning [39.04604349338802]
我々は,新しいHPO法を導入し,畳み込みネットワークの中間層の低ランク因子分解を用いて解析応答面を定義する方法について検討する。
我々は,この表面がモデル性能の代理としてどのように振る舞うかを定量化し,オートHyperと呼ぶ信頼領域探索アルゴリズムを用いて解くことができる。
論文 参考訳(メタデータ) (2021-11-28T05:27:34Z) - Multimodal Data Fusion in High-Dimensional Heterogeneous Datasets via
Generative Models [16.436293069942312]
我々は、教師なしの方法で高次元異種データから確率的生成モデルを学習することに興味がある。
本稿では,指数関数的な分布系を通じて異なるデータ型を結合する一般的なフレームワークを提案する。
提案アルゴリズムは、実数値(ガウス)とカテゴリー(マルチノミカル)の特徴を持つ、よく遭遇する異種データセットについて詳細に述べる。
論文 参考訳(メタデータ) (2021-08-27T18:10:31Z) - Memory-Efficient Factorization Machines via Binarizing both Data and
Model Coefficients [9.692334398809457]
ファクトリゼーションマシン(FM)の限界を克服するサブスペースイミネーティングマシン(SEFM)が提案されている。
本稿では,モデルパラメータを2値に制約する2値化FM法を提案する。
提案手法はSEFMと同等の精度を達成できるが,メモリコストははるかに少ない。
論文 参考訳(メタデータ) (2021-08-17T03:30:52Z) - Memory and Computation-Efficient Kernel SVM via Binary Embedding and
Ternary Model Coefficients [18.52747917850984]
カーネル近似はカーネルSVMのトレーニングと予測のスケールアップに広く用いられている。
メモリ制限されたデバイスにデプロイしたい場合、カーネル近似モデルのメモリと計算コストはまだ高すぎる。
本稿では,バイナリ埋め込みとバイナリモデル係数を用いて,新しいメモリと計算効率の高いカーネルSVMモデルを提案する。
論文 参考訳(メタデータ) (2020-10-06T09:41:54Z) - Coded Stochastic ADMM for Decentralized Consensus Optimization with Edge
Computing [113.52575069030192]
セキュリティ要件の高いアプリケーションを含むビッグデータは、モバイルデバイスやドローン、車両など、複数の異種デバイスに収集され、格納されることが多い。
通信コストとセキュリティ要件の制限のため、核融合センターにデータを集約するのではなく、分散的に情報を抽出することが最重要となる。
分散エッジノードを介してデータを局所的に処理するマルチエージェントシステムにおいて,モデルパラメータを学習する問題を考える。
分散学習モデルを開発するために,乗算器アルゴリズムの最小バッチ交互方向法(ADMM)のクラスについて検討した。
論文 参考訳(メタデータ) (2020-10-02T10:41:59Z) - Model Fusion via Optimal Transport [64.13185244219353]
ニューラルネットワークのための階層モデル融合アルゴリズムを提案する。
これは、不均一な非i.d.データに基づいてトレーニングされたニューラルネットワーク間での"ワンショット"な知識伝達に成功していることを示す。
論文 参考訳(メタデータ) (2019-10-12T22:07:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。