論文の概要: Training with Multi-Layer Embeddings for Model Reduction
- arxiv url: http://arxiv.org/abs/2006.05623v1
- Date: Wed, 10 Jun 2020 02:47:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-23 04:32:03.102239
- Title: Training with Multi-Layer Embeddings for Model Reduction
- Title(参考訳): モデルリダクションのための多層埋め込みによるトレーニング
- Authors: Benjamin Ghaemmaghami, Zihao Deng, Benjamin Cho, Leo Orshansky, Ashish
Kumar Singh, Mattan Erez, and Michael Orshansky
- Abstract要約: 複数層埋め込み学習アーキテクチャを導入し, 一連の線形層を通して埋め込みを訓練する。
その結果,メモリフットプリントの精度が向上し,dを4~8倍削減できることがわかった。
- 参考スコア(独自算出の注目度): 0.9046327456472286
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern recommendation systems rely on real-valued embeddings of categorical
features. Increasing the dimension of embedding vectors improves model accuracy
but comes at a high cost to model size. We introduce a multi-layer embedding
training (MLET) architecture that trains embeddings via a sequence of linear
layers to derive superior embedding accuracy vs. model size trade-off.
Our approach is fundamentally based on the ability of factorized linear
layers to produce superior embeddings to that of a single linear layer. We
focus on the analysis and implementation of a two-layer scheme. Harnessing the
recent results in dynamics of backpropagation in linear neural networks, we
explain the ability to get superior multi-layer embeddings via their tendency
to have lower effective rank. We show that substantial advantages are obtained
in the regime where the width of the hidden layer is much larger than that of
the final embedding (d). Crucially, at conclusion of training, we convert the
two-layer solution into a single-layer one: as a result, the inference-time
model size scales as d.
We prototype the MLET scheme within Facebook's PyTorch-based open-source Deep
Learning Recommendation Model. We show that it allows reducing d by 4-8X, with
a corresponding improvement in memory footprint, at given model accuracy. The
experiments are run on two publicly available click-through-rate prediction
benchmarks (Criteo-Kaggle and Avazu). The runtime cost of MLET is 25%, on
average.
- Abstract(参考訳): 現代のレコメンデーションシステムは、カテゴリの特徴の実際の価値埋め込みに依存している。
埋め込みベクトルの次元を増加させることでモデルの精度は向上するが、モデルのサイズには高いコストがかかる。
モデルサイズトレードオフよりも優れた埋め込み精度を導出するために, 線形層による埋め込みを訓練する多層埋め込み訓練(MLET)アーキテクチャを導入する。
本手法は, 線形層を分解し, 単一の線形層に対して優れた埋め込みを実現できることに基づく。
本稿では,2層方式の解析と実装に焦点をあてる。
線形ニューラルネットワークにおけるバックプロパゲーションのダイナミクスの最近の結果に言及し、より優れた多層埋め込みを実現する能力について説明する。
隠れた層の幅が最終埋め込み(d)の幅よりもはるかに大きい場合において、実質的な利点が得られることを示す。
重要なことに、トレーニングの結論として、2層解を単層解に変換する: 結果として、推論時間モデルのサイズはdとしてスケールする。
我々は、FacebookのPyTorchベースのオープンソースのDeep Learning Recommendation ModelでMLETスキームをプロトタイプする。
その結果,dを4~8倍削減でき,メモリフットプリントが改善され,モデルの精度が向上した。
実験は2つの公開クリックスルーレート予測ベンチマーク(Criteo-KaggleとAvazu)で実施されている。
MLETのランタイムコストは平均25%である。
関連論文リスト
- Starbucks: Improved Training for 2D Matryoshka Embeddings [32.44832240958393]
我々は,Matryoshkaライクな埋め込みモデルの新たなトレーニング戦略であるStarbucksを提案する。
微調整相について、我々は、小さなサイズから大きなサイズの層次元対の固定されたリストを提供する。
また,サブレイヤとサブディメンジョンにマスク付きオートエンコーダ言語モデリングを適用する,新しい事前学習戦略を導入する。
論文 参考訳(メタデータ) (2024-10-17T05:33:50Z) - Enhancing Cross-Category Learning in Recommendation Systems with
Multi-Layer Embedding Training [2.4862527485819186]
多層埋め込み訓練(MLET)は、埋め込み層の因子化による埋め込みを訓練する。
MLETは、特に稀なアイテムに対して、一貫してより良いモデルを生成する。
モデル品質が一定であれば、MLETは埋め込み寸法とモデルサイズを最大16倍、平均5.8倍まで減らすことができる。
論文 参考訳(メタデータ) (2023-09-27T09:32:10Z) - Layer-wise Linear Mode Connectivity [52.6945036534469]
ニューラルネットワークパラメータの平均化は、2つの独立したモデルの知識の直感的な方法である。
フェデレートラーニングにおいて最も顕著に用いられている。
私たちは、単一グループやグループを平均化するモデルの性能を分析します。
論文 参考訳(メタデータ) (2023-07-13T09:39:10Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - Improved Convergence Guarantees for Shallow Neural Networks [91.3755431537592]
勾配降下法により訓練された深度2ニューラルネットの収束度を世界最小とする。
我々のモデルには、二次損失関数による回帰、完全連結フィードフォワードアーキテクチャ、RelUアクティベーション、ガウスデータインスタンス、逆ラベルといった特徴がある。
彼らは、少なくとも我々のモデルでは、収束現象がNTK体制をはるかに超越していることを強く示唆している」。
論文 参考訳(メタデータ) (2022-12-05T14:47:52Z) - Slimmable Networks for Contrastive Self-supervised Learning [69.9454691873866]
自己教師付き学習は、大規模なモデルを事前訓練する上で大きな進歩を遂げるが、小さなモデルでは苦労する。
追加の教師を必要とせず、訓練済みの小型モデルを得るための1段階のソリューションも導入する。
スリム化可能なネットワークは、完全なネットワークと、様々なネットワークを得るために一度にトレーニングできるいくつかの重み共有サブネットワークから構成される。
論文 参考訳(メタデータ) (2022-09-30T15:15:05Z) - LV-BERT: Exploiting Layer Variety for BERT [85.27287501885807]
我々は,事前学習モデルに有益である層型集合に畳み込みを導入する。
次に、事前学習による進化的アルゴリズムを採用し、最適なアーキテクチャを求める。
提案手法により得られたLV-BERTモデルは,様々な下流タスクにおいてBERTとその変種より優れる。
論文 参考訳(メタデータ) (2021-06-22T13:20:14Z) - A Bayesian Perspective on Training Speed and Model Selection [51.15664724311443]
モデルのトレーニング速度の測定値を用いて,その限界確率を推定できることを示す。
線形モデルと深部ニューラルネットワークの無限幅限界に対するモデル選択タスクの結果を検証する。
以上の結果から、勾配勾配勾配で訓練されたニューラルネットワークが、一般化する関数に偏りがある理由を説明するための、有望な新たな方向性が示唆された。
論文 参考訳(メタデータ) (2020-10-27T17:56:14Z) - A block coordinate descent optimizer for classification problems
exploiting convexity [0.0]
隠れ層の重み付けにおけるクロスエントロピー損失の凸性を利用した分類タスクのためのディープ線形ネットワークに座標降下法を導入する。
線形層に対する大域的最適パラメータと隠蔽層への勾配勾配を求める2次法とを交互に組み合わせることで、トレーニング全体を通してデータに対する適応基底の最適適合性を確保する。
論文 参考訳(メタデータ) (2020-06-17T19:49:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。