Fugu-MT 論文翻訳(概要): Training with Multi-Layer Embeddings for Model Reduction

論文の概要: Training with Multi-Layer Embeddings for Model Reduction

arxiv url: http://arxiv.org/abs/2006.05623v1
Date: Wed, 10 Jun 2020 02:47:40 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-23 04:32:03.102239
Title: Training with Multi-Layer Embeddings for Model Reduction
Title（参考訳）: モデルリダクションのための多層埋め込みによるトレーニング
Authors: Benjamin Ghaemmaghami, Zihao Deng, Benjamin Cho, Leo Orshansky, Ashish Kumar Singh, Mattan Erez, and Michael Orshansky
Abstract要約: 複数層埋め込み学習アーキテクチャを導入し, 一連の線形層を通して埋め込みを訓練する。その結果,メモリフットプリントの精度が向上し,dを4～8倍削減できることがわかった。
参考スコア（独自算出の注目度）: 0.9046327456472286
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Modern recommendation systems rely on real-valued embeddings of categorical features. Increasing the dimension of embedding vectors improves model accuracy but comes at a high cost to model size. We introduce a multi-layer embedding training (MLET) architecture that trains embeddings via a sequence of linear layers to derive superior embedding accuracy vs. model size trade-off. Our approach is fundamentally based on the ability of factorized linear layers to produce superior embeddings to that of a single linear layer. We focus on the analysis and implementation of a two-layer scheme. Harnessing the recent results in dynamics of backpropagation in linear neural networks, we explain the ability to get superior multi-layer embeddings via their tendency to have lower effective rank. We show that substantial advantages are obtained in the regime where the width of the hidden layer is much larger than that of the final embedding (d). Crucially, at conclusion of training, we convert the two-layer solution into a single-layer one: as a result, the inference-time model size scales as d. We prototype the MLET scheme within Facebook's PyTorch-based open-source Deep Learning Recommendation Model. We show that it allows reducing d by 4-8X, with a corresponding improvement in memory footprint, at given model accuracy. The experiments are run on two publicly available click-through-rate prediction benchmarks (Criteo-Kaggle and Avazu). The runtime cost of MLET is 25%, on average.
Abstract（参考訳）: 現代のレコメンデーションシステムは、カテゴリの特徴の実際の価値埋め込みに依存している。埋め込みベクトルの次元を増加させることでモデルの精度は向上するが、モデルのサイズには高いコストがかかる。モデルサイズトレードオフよりも優れた埋め込み精度を導出するために, 線形層による埋め込みを訓練する多層埋め込み訓練(MLET)アーキテクチャを導入する。本手法は, 線形層を分解し, 単一の線形層に対して優れた埋め込みを実現できることに基づく。本稿では,2層方式の解析と実装に焦点をあてる。線形ニューラルネットワークにおけるバックプロパゲーションのダイナミクスの最近の結果に言及し、より優れた多層埋め込みを実現する能力について説明する。隠れた層の幅が最終埋め込み(d)の幅よりもはるかに大きい場合において、実質的な利点が得られることを示す。重要なことに、トレーニングの結論として、2層解を単層解に変換する: 結果として、推論時間モデルのサイズはdとしてスケールする。我々は、FacebookのPyTorchベースのオープンソースのDeep Learning Recommendation ModelでMLETスキームをプロトタイプする。その結果,dを4～8倍削減でき,メモリフットプリントが改善され,モデルの精度が向上した。実験は2つの公開クリックスルーレート予測ベンチマーク(Criteo-KaggleとAvazu)で実施されている。 MLETのランタイムコストは平均25%である。

関連論文リスト

LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文参考訳（メタデータ） (2025-02-19T14:58:48Z)
Starbucks: Improved Training for 2D Matryoshka Embeddings [32.44832240958393]
我々は,Matryoshkaライクな埋め込みモデルの新たなトレーニング戦略であるStarbucksを提案する。微調整相について、我々は、小さなサイズから大きなサイズの層次元対の固定されたリストを提供する。また,サブレイヤとサブディメンジョンにマスク付きオートエンコーダ言語モデリングを適用する,新しい事前学習戦略を導入する。
論文参考訳（メタデータ） (2024-10-17T05:33:50Z)
Enhancing Cross-Category Learning in Recommendation Systems with Multi-Layer Embedding Training [2.4862527485819186]
多層埋め込み訓練(MLET)は、埋め込み層の因子化による埋め込みを訓練する。 MLETは、特に稀なアイテムに対して、一貫してより良いモデルを生成する。モデル品質が一定であれば、MLETは埋め込み寸法とモデルサイズを最大16倍、平均5.8倍まで減らすことができる。
論文参考訳（メタデータ） (2023-09-27T09:32:10Z)
Layer-wise Linear Mode Connectivity [52.6945036534469]
ニューラルネットワークパラメータの平均化は、2つの独立したモデルの知識の直感的な方法である。フェデレートラーニングにおいて最も顕著に用いられている。私たちは、単一グループやグループを平均化するモデルの性能を分析します。
論文参考訳（メタデータ） (2023-07-13T09:39:10Z)
Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文参考訳（メタデータ） (2023-05-24T15:52:08Z)
Improved Convergence Guarantees for Shallow Neural Networks [91.3755431537592]
勾配降下法により訓練された深度2ニューラルネットの収束度を世界最小とする。我々のモデルには、二次損失関数による回帰、完全連結フィードフォワードアーキテクチャ、RelUアクティベーション、ガウスデータインスタンス、逆ラベルといった特徴がある。彼らは、少なくとも我々のモデルでは、収束現象がNTK体制をはるかに超越していることを強く示唆している」。
論文参考訳（メタデータ） (2022-12-05T14:47:52Z)
Slimmable Networks for Contrastive Self-supervised Learning [69.9454691873866]
自己教師付き学習は、大規模なモデルを事前訓練する上で大きな進歩を遂げるが、小さなモデルでは苦労する。追加の教師を必要とせず、訓練済みの小型モデルを得るための1段階のソリューションも導入する。スリム化可能なネットワークは、完全なネットワークと、様々なネットワークを得るために一度にトレーニングできるいくつかの重み共有サブネットワークから構成される。
論文参考訳（メタデータ） (2022-09-30T15:15:05Z)
LV-BERT: Exploiting Layer Variety for BERT [85.27287501885807]
我々は,事前学習モデルに有益である層型集合に畳み込みを導入する。次に、事前学習による進化的アルゴリズムを採用し、最適なアーキテクチャを求める。提案手法により得られたLV-BERTモデルは,様々な下流タスクにおいてBERTとその変種より優れる。
論文参考訳（メタデータ） (2021-06-22T13:20:14Z)
A Bayesian Perspective on Training Speed and Model Selection [51.15664724311443]
モデルのトレーニング速度の測定値を用いて,その限界確率を推定できることを示す。線形モデルと深部ニューラルネットワークの無限幅限界に対するモデル選択タスクの結果を検証する。以上の結果から、勾配勾配勾配で訓練されたニューラルネットワークが、一般化する関数に偏りがある理由を説明するための、有望な新たな方向性が示唆された。
論文参考訳（メタデータ） (2020-10-27T17:56:14Z)
A block coordinate descent optimizer for classification problems exploiting convexity [0.0]
隠れ層の重み付けにおけるクロスエントロピー損失の凸性を利用した分類タスクのためのディープ線形ネットワークに座標降下法を導入する。線形層に対する大域的最適パラメータと隠蔽層への勾配勾配を求める2次法とを交互に組み合わせることで、トレーニング全体を通してデータに対する適応基底の最適適合性を確保する。
論文参考訳（メタデータ） (2020-06-17T19:49:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。