論文の概要: Ember: A Compiler for Efficient Embedding Operations on Decoupled Access-Execute Architectures
- arxiv url: http://arxiv.org/abs/2504.09870v1
- Date: Mon, 14 Apr 2025 04:29:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:48:47.053198
- Title: Ember: A Compiler for Efficient Embedding Operations on Decoupled Access-Execute Architectures
- Title(参考訳): Ember: 分離したAccess-Executeアーキテクチャ上での効率的な埋め込み操作のためのコンパイラ
- Authors: Marco Siracusa, Olivia Hsu, Victor Soria-Pardos, Joshua Randall, Arnaud Grasset, Eric Biscondi, Doug Joseph, Randy Allen, Fredrik Kjolstad, Miquel Moretó Planas, Adrià Armejach,
- Abstract要約: 不規則なルックアップは、レコメンダモデル、疎大な言語モデル、グラフ学習モデルにおいて重要なボトルネックである。
これらのルックアップを特別なアクセスユニットにオフロードすることで、De Access-Executeプロセッサはエンド・ツー・エンドのモデルよりも2.6倍の性能と6.4倍の性能/ワットを達成する。
- 参考スコア(独自算出の注目度): 0.5498239096258088
- License:
- Abstract: Irregular embedding lookups are a critical bottleneck in recommender models, sparse large language models, and graph learning models. In this paper, we first demonstrate that, by offloading these lookups to specialized access units, Decoupled Access-Execute (DAE) processors achieve 2.6$\times$ higher performance and 6.4$\times$ higher performance/watt than GPUs on end-to-end models. Then, we propose the Ember compiler for automatically generating optimized DAE code from PyTorch and TensorFlow. Conversely from other DAE compilers, Ember features multiple intermediate representations specifically designed for different optimization levels. In this way, Ember can implement all optimizations to match the performance of hand-written code, unlocking the full potential of DAE architectures at scale.
- Abstract(参考訳): 不規則な埋め込みルックアップは、レコメンデータモデル、疎大な言語モデル、グラフ学習モデルにおいて重要なボトルネックである。
本稿では、これらのルックアップを専用アクセスユニットにオフロードすることで、Decoupled Access-Execute(DAE)プロセッサが2.6$\times$高パフォーマンス、6.4$\times$高パフォーマンス/ワットを実現していることを示す。
次に、PyTorchとTensorFlowから最適化されたDAEコードを自動的に生成するEmberコンパイラを提案する。
他のDAEコンパイラとは対照的に、Emberは異なる最適化レベルのために特別に設計された複数の中間表現を備えている。
このように、Emberは手書きのコードのパフォーマンスに合うように全ての最適化を実装でき、大規模なDAEアーキテクチャの潜在能力を解放できる。
関連論文リスト
- An Automatic Graph Construction Framework based on Large Language Models for Recommendation [49.51799417575638]
本稿では,大規模言語モデルに基づく自動グラフ構築フレームワークであるAutoGraphを紹介する。
LLMはユーザ好みとアイテムの知識を推論し、セマンティックベクターとして符号化する。
潜在因子は、ユーザ/イテムノードをリンクする余分なノードとして組み込まれ、結果として、深いグローバルビューセマンティクスを持つグラフとなる。
論文 参考訳(メタデータ) (2024-12-24T07:51:29Z) - COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement [80.18490952057125]
反復改良は、複雑なタスクにおける大規模言語モデル(LLM)の能力を高める効果的なパラダイムとして登場した。
我々はこれらの課題を克服するために、コンテキストワイズ順序非依存言語モデリング(COrAL)を提案する。
当社のアプローチでは、管理可能なコンテキストウィンドウ内で複数のトークン依存関係をモデル化しています。
論文 参考訳(メタデータ) (2024-10-12T23:56:19Z) - KerasCV and KerasNLP: Vision and Language Power-Ups [9.395199188271254]
KerasCVとKerasNLPはコンピュータビジョンと自然言語処理のためのKeras APIの拡張である。
これらのドメインパッケージは、使いやすさとパフォーマンスを重視した高速な実験を可能にするように設計されている。
ライブラリは完全にオープンソース(Apache 2.0ライセンス)で、GitHubから入手できる。
論文 参考訳(メタデータ) (2024-05-30T16:58:34Z) - PockEngine: Sparse and Efficient Fine-tuning in a Pocket [62.955793932377524]
さまざまなエッジデバイスで微調整が可能な,小型でスパースで効率的なエンジンであるPockEngineを紹介します。
PockEngineはスパースバックプロパゲーションをサポートし、測定メモリの節約とレイテンシの削減でモデルをスパース更新する。
注目すべきなのは、PockEngineはNVIDIA Jetson AGX OrinのLLaMav2-7Bを550トークン/秒で微調整できることだ。
論文 参考訳(メタデータ) (2023-10-26T19:46:11Z) - Pipeline MoE: A Flexible MoE Implementation with Pipeline Parallelism [91.9372563527801]
既存のMoEモデルは、膨大な内部ノードとノード間通信オーバーヘッドに悩まされる。
本稿では,新しいMoEアーキテクチャであるPipeline MoE(PPMoE)を提案する。
PPMoEは、テンソル並列を組み込んだ専門家の並列処理を構築し、通信集約型の全対一のディスパッチとコレクションを置き換える。
論文 参考訳(メタデータ) (2023-04-22T14:09:14Z) - ALT: Breaking the Wall between Graph and Operator Level Optimizations
for Deep Learning Compilation [38.8918502461244]
ALTはディープモデルのためのグラフと演算子レベルの共同最適化を行うコンパイラである。
JOGは、単一の演算子の性能とエンドツーエンドの推論性能の両方の観点から、最先端のコンパイラ(例えばAnsor)よりも大幅に優れている。
論文 参考訳(メタデータ) (2022-10-22T11:09:36Z) - Runtime Performances Benchmark for Knowledge Graph Embedding Methods [0.0]
本稿は,KGE alghoritmsの最先端実装のランタイム性能のキャラクタリゼーションについて述べる。
論文 参考訳(メタデータ) (2020-11-05T21:58:11Z) - VEGA: Towards an End-to-End Configurable AutoML Pipeline [101.07003005736719]
VEGAは効率よく包括的なAutoMLフレームワークで、複数のハードウェアプラットフォームに互換性があり、最適化されている。
VEGAは既存のAutoMLアルゴリズムを改善し、SOTAメソッドに対して新しい高性能モデルを発見する。
論文 参考訳(メタデータ) (2020-11-03T06:53:53Z) - Bringing Light Into the Dark: A Large-scale Evaluation of Knowledge
Graph Embedding Models Under a Unified Framework [31.35912529064612]
我々はPyKEENソフトウェアパッケージで21のインタラクションモデルを再実装し評価した。
4つのデータセットに対して、数千の実験と24,804のGPU時間で大規模なベンチマークを行いました。
論文 参考訳(メタデータ) (2020-06-23T22:30:52Z) - Multi-layer Optimizations for End-to-End Data Analytics [71.05611866288196]
代替アプローチを実現するフレームワークであるIFAQ(Iterative Functional Aggregate Queries)を紹介する。
IFAQは、特徴抽出クエリと学習タスクを、IFAQのドメイン固有言語で与えられた1つのプログラムとして扱う。
IFAQ の Scala 実装が mlpack,Scikit,特殊化を数桁で上回り,線形回帰木モデルや回帰木モデルを複数の関係データセット上で処理可能であることを示す。
論文 参考訳(メタデータ) (2020-01-10T16:14:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。