Fugu-MT 論文翻訳(概要): Ember: A Compiler for Efficient Embedding Operations on Decoupled Access-Execute Architectures

論文の概要: Ember: A Compiler for Efficient Embedding Operations on Decoupled Access-Execute Architectures

arxiv url: http://arxiv.org/abs/2504.09870v1
Date: Mon, 14 Apr 2025 04:29:46 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-22 23:35:40.99103
Title: Ember: A Compiler for Efficient Embedding Operations on Decoupled Access-Execute Architectures
Title（参考訳）: Ember: 分離したAccess-Executeアーキテクチャ上での効率的な埋め込み操作のためのコンパイラ
Authors: Marco Siracusa, Olivia Hsu, Victor Soria-Pardos, Joshua Randall, Arnaud Grasset, Eric Biscondi, Doug Joseph, Randy Allen, Fredrik Kjolstad, Miquel Moretó Planas, Adrià Armejach,
Abstract要約: 不規則なルックアップは、レコメンダモデル、疎大な言語モデル、グラフ学習モデルにおいて重要なボトルネックである。これらのルックアップを特別なアクセスユニットにオフロードすることで、De Access-Executeプロセッサはエンド・ツー・エンドのモデルよりも2.6倍の性能と6.4倍の性能/ワットを達成する。
参考スコア（独自算出の注目度）: 0.5498239096258088
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Irregular embedding lookups are a critical bottleneck in recommender models, sparse large language models, and graph learning models. In this paper, we first demonstrate that, by offloading these lookups to specialized access units, Decoupled Access-Execute (DAE) processors achieve 2.6$\times$ higher performance and 6.4$\times$ higher performance/watt than GPUs on end-to-end models. Then, we propose the Ember compiler for automatically generating optimized DAE code from PyTorch and TensorFlow. Conversely from other DAE compilers, Ember features multiple intermediate representations specifically designed for different optimization levels. In this way, Ember can implement all optimizations to match the performance of hand-written code, unlocking the full potential of DAE architectures at scale.
Abstract（参考訳）: 不規則な埋め込みルックアップは、レコメンデータモデル、疎大な言語モデル、グラフ学習モデルにおいて重要なボトルネックである。本稿では、これらのルックアップを専用アクセスユニットにオフロードすることで、Decoupled Access-Execute(DAE)プロセッサが2.6$\times$高パフォーマンス、6.4$\times$高パフォーマンス/ワットを実現していることを示す。次に、PyTorchとTensorFlowから最適化されたDAEコードを自動的に生成するEmberコンパイラを提案する。他のDAEコンパイラとは対照的に、Emberは異なる最適化レベルのために特別に設計された複数の中間表現を備えている。このように、Emberは手書きのコードのパフォーマンスに合うように全ての最適化を実装でき、大規模なDAEアーキテクチャの潜在能力を解放できる。

関連論文リスト

Optimizing FDTD Solvers for Electromagnetics: A Compiler-Guided Approach with High-Level Tensor Abstractions [0.7373617024876725]
差分時間領域シミュレーションのためのMLIR/LLVMインフラストラクチャに基づくエンドツーエンドのドメイン固有コンパイラを提案する。我々は3次元のカーネルを明示的な計算意味論を持つ3次元テンソル抽象の演算として実装する。ループタイリング、融合、ベクトル化といったハイレベルな最適化はコンパイラによって自動的に適用される。
論文参考訳（メタデータ） (2025-04-12T08:08:12Z)
An Automatic Graph Construction Framework based on Large Language Models for Recommendation [49.51799417575638]
本稿では,大規模言語モデルに基づく自動グラフ構築フレームワークであるAutoGraphを紹介する。 LLMはユーザ好みとアイテムの知識を推論し、セマンティックベクターとして符号化する。潜在因子は、ユーザ/イテムノードをリンクする余分なノードとして組み込まれ、結果として、深いグローバルビューセマンティクスを持つグラフとなる。
論文参考訳（メタデータ） (2024-12-24T07:51:29Z)
Intelligent Spark Agents: A Modular LangGraph Framework for Scalable, Visualized, and Enhanced Big Data Machine Learning Workflows [1.4582633500696451]
LangGraphフレームワークは、スケーラビリティ、視覚化、インテリジェントなプロセス最適化を通じて機械学習を強化するように設計されている。このフレームワークの中核となるのは、Sparkの分散コンピューティング機能を活用する重要なイノベーションであるAgent AIだ。フレームワークにはLangChainエコシステムを通じて大きな言語モデルも組み込まれており、構造化されていないデータとのインタラクションが強化されている。
論文参考訳（メタデータ） (2024-12-02T13:41:38Z)
COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement [80.18490952057125]
反復改良は、複雑なタスクにおける大規模言語モデル(LLM)の能力を高める効果的なパラダイムとして登場した。我々はこれらの課題を克服するために、コンテキストワイズ順序非依存言語モデリング(COrAL)を提案する。当社のアプローチでは、管理可能なコンテキストウィンドウ内で複数のトークン依存関係をモデル化しています。
論文参考訳（メタデータ） (2024-10-12T23:56:19Z)
KerasCV and KerasNLP: Vision and Language Power-Ups [9.395199188271254]
KerasCVとKerasNLPはコンピュータビジョンと自然言語処理のためのKeras APIの拡張である。これらのドメインパッケージは、使いやすさとパフォーマンスを重視した高速な実験を可能にするように設計されている。ライブラリは完全にオープンソース(Apache 2.0ライセンス)で、GitHubから入手できる。
論文参考訳（メタデータ） (2024-05-30T16:58:34Z)
PockEngine: Sparse and Efficient Fine-tuning in a Pocket [62.955793932377524]
さまざまなエッジデバイスで微調整が可能な,小型でスパースで効率的なエンジンであるPockEngineを紹介します。 PockEngineはスパースバックプロパゲーションをサポートし、測定メモリの節約とレイテンシの削減でモデルをスパース更新する。注目すべきなのは、PockEngineはNVIDIA Jetson AGX OrinのLLaMav2-7Bを550トークン/秒で微調整できることだ。
論文参考訳（メタデータ） (2023-10-26T19:46:11Z)
Joint Entity and Relation Extraction with Span Pruning and Hypergraph Neural Networks [58.43972540643903]
PLマーカ(最先端マーカーベースピプレリンモデル)上に構築されたEREのためのHyperGraphニューラルネットワーク(hgnn$)を提案する。エラーの伝播を軽減するため,NERモジュールからのエンティティ識別とラベル付けの負担をモデルのジョイントモジュールに転送するために,ハイリコールプルーナー機構を用いる。 EREタスクに広く使用されている3つのベンチマークの実験は、以前の最先端のPLマーカーよりも大幅に改善されている。
論文参考訳（メタデータ） (2023-10-26T08:36:39Z)
Pipeline MoE: A Flexible MoE Implementation with Pipeline Parallelism [91.9372563527801]
既存のMoEモデルは、膨大な内部ノードとノード間通信オーバーヘッドに悩まされる。本稿では,新しいMoEアーキテクチャであるPipeline MoE(PPMoE)を提案する。 PPMoEは、テンソル並列を組み込んだ専門家の並列処理を構築し、通信集約型の全対一のディスパッチとコレクションを置き換える。
論文参考訳（メタデータ） (2023-04-22T14:09:14Z)
ALT: Breaking the Wall between Graph and Operator Level Optimizations for Deep Learning Compilation [38.8918502461244]
ALTはディープモデルのためのグラフと演算子レベルの共同最適化を行うコンパイラである。 JOGは、単一の演算子の性能とエンドツーエンドの推論性能の両方の観点から、最先端のコンパイラ(例えばAnsor)よりも大幅に優れている。
論文参考訳（メタデータ） (2022-10-22T11:09:36Z)
Runtime Performances Benchmark for Knowledge Graph Embedding Methods [0.0]
本稿は,KGE alghoritmsの最先端実装のランタイム性能のキャラクタリゼーションについて述べる。
論文参考訳（メタデータ） (2020-11-05T21:58:11Z)
VEGA: Towards an End-to-End Configurable AutoML Pipeline [101.07003005736719]
VEGAは効率よく包括的なAutoMLフレームワークで、複数のハードウェアプラットフォームに互換性があり、最適化されている。 VEGAは既存のAutoMLアルゴリズムを改善し、SOTAメソッドに対して新しい高性能モデルを発見する。
論文参考訳（メタデータ） (2020-11-03T06:53:53Z)
Bringing Light Into the Dark: A Large-scale Evaluation of Knowledge Graph Embedding Models Under a Unified Framework [31.35912529064612]
我々はPyKEENソフトウェアパッケージで21のインタラクションモデルを再実装し評価した。 4つのデータセットに対して、数千の実験と24,804のGPU時間で大規模なベンチマークを行いました。
論文参考訳（メタデータ） (2020-06-23T22:30:52Z)
Multi-layer Optimizations for End-to-End Data Analytics [71.05611866288196]
代替アプローチを実現するフレームワークであるIFAQ(Iterative Functional Aggregate Queries)を紹介する。 IFAQは、特徴抽出クエリと学習タスクを、IFAQのドメイン固有言語で与えられた1つのプログラムとして扱う。 IFAQ の Scala 実装が mlpack,Scikit,特殊化を数桁で上回り,線形回帰木モデルや回帰木モデルを複数の関係データセット上で処理可能であることを示す。
論文参考訳（メタデータ） (2020-01-10T16:14:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。