論文の概要: Tensor Casting: Co-Designing Algorithm-Architecture for Personalized
Recommendation Training
- arxiv url: http://arxiv.org/abs/2010.13100v1
- Date: Sun, 25 Oct 2020 12:04:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 04:23:20.845210
- Title: Tensor Casting: Co-Designing Algorithm-Architecture for Personalized
Recommendation Training
- Title(参考訳): テンソルキャスティング:パーソナライズドレコメンデーショントレーニングのためのアルゴリズムアーキテクチャー
- Authors: Youngeun Kwon, Yunjae Lee, Minsoo Rhu
- Abstract要約: 本稿では,組込み層をトレーニングする上で重要なすべてのプリミティブを包含する,集合散乱のための汎用的な加速器アーキテクチャを提案する。
実際のCPU-GPUシステムのプロトタイプでは、Castingは最先端のアプローチに比べてトレーニングスループットが1.9-21倍改善されている。
- 参考スコア(独自算出の注目度): 1.5011098158866707
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Personalized recommendations are one of the most widely deployed machine
learning (ML) workload serviced from cloud datacenters. As such, architectural
solutions for high-performance recommendation inference have recently been the
target of several prior literatures. Unfortunately, little have been explored
and understood regarding the training side of this emerging ML workload. In
this paper, we first perform a detailed workload characterization study on
training recommendations, root-causing sparse embedding layer training as one
of the most significant performance bottlenecks. We then propose our
algorithm-architecture co-design called Tensor Casting, which enables the
development of a generic accelerator architecture for tensor gather-scatter
that encompasses all the key primitives of training embedding layers. When
prototyped on a real CPU-GPU system, Tensor Casting provides 1.9-21x
improvements in training throughput compared to state-of-the-art approaches.
- Abstract(参考訳): パーソナライズドレコメンデーションは、クラウドデータセンタから提供される最も広くデプロイされた機械学習(ml)ワークロードの1つである。
そのため、近年、高性能レコメンデーション推論のためのアーキテクチャソリューションが、いくつかの先行する文献の標的となっている。
残念ながら、この新興MLワークロードのトレーニング側について、ほとんど調査され、理解されていない。
本稿では,まず,最も重要な性能ボトルネックの1つとして,根源を含まないスパース埋め込み層トレーニングのトレーニング勧告について,詳細なワークロード評価を行った。
そこで,我々はテンソルキャスティングと呼ばれるアルゴリズムアーキテクチャの共同設計を提案し,エンベッド層をトレーニングする上で重要なプリミティブを包含するテンソル集合散乱のための汎用的なアクセラレーションアーキテクチャの開発を可能にした。
実際のCPU-GPUシステムのプロトタイプでは、Tensor Castingは最先端のアプローチに比べてトレーニングスループットが1.9-21倍改善されている。
関連論文リスト
- Universal Pooling Method of Multi-layer Features from Pretrained Models for Speaker Verification [7.005068872406135]
大規模事前学習ネットワークを活用した自動話者検証(ASV)研究の最近の進歩が達成されている。
ASVのための事前学習モデルの多層特性を利用するための新しい手法を提案する。
提案した層間処理が,事前学習モデルを利用する利点の最大化にどのように役立つかを示す。
論文 参考訳(メタデータ) (2024-09-12T05:55:32Z) - Back to Basics: A Simple Recipe for Improving Out-of-Domain Retrieval in
Dense Encoders [63.28408887247742]
得られたモデルにおいて,より優れた一般化能力を得るために,トレーニング手順の改善が可能であるかを検討する。
我々は、高密度エンコーダをトレーニングするための簡単なレシピを推奨する: LoRAのようなパラメータ効率のよいMSMARCOのトレーニング。
論文 参考訳(メタデータ) (2023-11-16T10:42:58Z) - Reduction of Class Activation Uncertainty with Background Information [0.0]
マルチタスク学習は、一般化を改善したハイパフォーマンスニューラルネットワークをトレーニングするための一般的なアプローチである。
マルチタスク学習と比較して,より低い計算量での一般化を実現するためのバックグラウンドクラスを提案する。
本稿では,背景画像の選択手法を提案し,今後の改善について論じる。
論文 参考訳(メタデータ) (2023-05-05T01:40:00Z) - Disentangled Pre-training for Image Matting [74.10407744483526]
画像マッチングは、深層モデルのトレーニングをサポートするために高品質なピクセルレベルの人間のアノテーションを必要とする。
本研究では、無限個のデータを活用する自己教師付き事前学習手法を提案し、マッチング性能を向上する。
論文 参考訳(メタデータ) (2023-04-03T08:16:02Z) - COMET: A Comprehensive Cluster Design Methodology for Distributed Deep Learning Training [42.514897110537596]
現代のディープラーニング(DL)モデルは、トレーニングする専門的でハイエンドなノードの大規模なクラスタを必要とするサイズに成長しています。
このようなクラスタを設計してパフォーマンスと利用の両方を最大化します。
本稿では,並列化戦略と鍵クラスタリソースのプロビジョニングが分散DLトレーニングのパフォーマンスに与える影響を共同で研究する,総合的なクラスタ設計方法論とワークフローであるCOMETを紹介する。
論文 参考訳(メタデータ) (2022-11-30T00:32:37Z) - Towards All-in-one Pre-training via Maximizing Multi-modal Mutual
Information [77.80071279597665]
マルチモーダル相互情報事前学習(M3I事前学習)を最大化するオールインワン単段階事前学習手法を提案する。
提案手法は,ImageNet分類,オブジェクト検出,LVIS長鎖オブジェクト検出,ADE20kセマンティックセマンティックセマンティックセマンティクスなど,様々なビジョンベンチマークにおける事前学習手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2022-11-17T18:59:49Z) - FlowNAS: Neural Architecture Search for Optical Flow Estimation [65.44079917247369]
本研究では,フロー推定タスクにおいて,より優れたエンコーダアーキテクチャを自動で見つけるために,FlowNASというニューラルアーキテクチャ探索手法を提案する。
実験の結果、スーパーネットワークから受け継いだ重み付きアーキテクチャは、KITTI上で4.67%のF1-allエラーを達成していることがわかった。
論文 参考訳(メタデータ) (2022-07-04T09:05:25Z) - LV-BERT: Exploiting Layer Variety for BERT [85.27287501885807]
我々は,事前学習モデルに有益である層型集合に畳み込みを導入する。
次に、事前学習による進化的アルゴリズムを採用し、最適なアーキテクチャを求める。
提案手法により得られたLV-BERTモデルは,様々な下流タスクにおいてBERTとその変種より優れる。
論文 参考訳(メタデータ) (2021-06-22T13:20:14Z) - A Deeper Look at Salient Object Detection: Bi-stream Network with a
Small Training Dataset [62.26677215668959]
4K画像のみを含む新しい小規模トレーニングセットを構築するための実現可能な方法を提案する。
提案する小型トレーニングセットをフル活用するために,新しい双方向ネットワークを提案する。
論文 参考訳(メタデータ) (2020-08-07T01:24:33Z) - Centaur: A Chiplet-based, Hybrid Sparse-Dense Accelerator for
Personalized Recommendations [5.732486559142434]
本稿ではまず、パーソナライズされたレコメンデーションに関する詳細なワークロードの特徴を説明し、2つの重要なパフォーマンス制限を識別する。
Centaurはチップレットベースのハイブリッドディエンスアクセラレータで、埋め込みレイヤのメモリスループットの課題とスパースレイヤの計算制限の両方に対処します。
我々は、パッケージ統合されたCPU+FPGAデバイスであるIntel HARPv2の実装と実演を行い、1.7~17.2倍の性能向上と1.7-19.5倍のエネルギー効率向上を示す。
論文 参考訳(メタデータ) (2020-05-12T07:53:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。