Fugu-MT 論文翻訳(概要): End-to-end Optimization of Machine Learning Prediction Queries

論文の概要: End-to-end Optimization of Machine Learning Prediction Queries

arxiv url: http://arxiv.org/abs/2206.00136v1
Date: Tue, 31 May 2022 22:39:14 GMT
ステータス: 翻訳完了
システム内更新日: 2022-06-02 13:09:50.976007
Title: End-to-end Optimization of Machine Learning Prediction Queries
Title（参考訳）: 機械学習予測クエリのエンドツーエンド最適化
Authors: Kwanghyun Park, Karla Saur, Dalitso Banda, Rathijit Sen, Matteo Interlandi, Konstantinos Karanasos
Abstract要約: 予測クエリは、高度な分析を行い、データから洞察を引き出すために、業界全体で広く利用されている。これまでのところ、これらの部分は分離して最適化されており、最適化のかなりの機会は未調査のまま残されている。予測クエリを最適化するプロダクション対応システムであるRavenを提案する。
参考スコア（独自算出の注目度）: 6.839660044063858
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Prediction queries are widely used across industries to perform advanced analytics and draw insights from data. They include a data processing part (e.g., for joining, filtering, cleaning, featurizing the datasets) and a machine learning (ML) part invoking one or more trained models to perform predictions. These parts have so far been optimized in isolation, leaving significant opportunities for optimization unexplored. We present Raven, a production-ready system for optimizing prediction queries. Raven follows the enterprise architectural trend of collocating data and ML runtimes. It relies on a unified intermediate representation that captures both data and ML operators in a single graph structure to unlock two families of optimizations. First, it employs logical optimizations that pass information between the data part (and the properties of the underlying data) and the ML part to optimize each other. Second, it introduces logical-to-physical transformations that allow operators to be executed on different runtimes (relational, ML, and DNN) and hardware (CPU, GPU). Novel data-driven optimizations determine the runtime to be used for each part of the query to achieve optimal performance. Our evaluation shows that Raven improves performance of prediction queries on Apache Spark and SQL Server by up to 13.1x and 330x, respectively. For complex models where GPU acceleration is beneficial, Raven provides up to 8x speedup compared to state-of-the-art systems.
Abstract（参考訳）: 予測クエリは、高度な分析を行い、データから洞察を引き出すために、業界全体で広く使われている。それらは、データ処理部(例えば、データセットの結合、フィルタリング、クリーニング、拡張)と、1つ以上の訓練されたモデルを呼び出して予測を行う機械学習(ml)部を含む。これまでのところ、これらの部分は分離して最適化されており、最適化の重要な機会は未調査のままである。予測クエリを最適化するプロダクション対応システムであるRavenを提案する。 Raven氏は、データとMLランタイムをコロケーションするエンタープライズアーキテクチャのトレンドに従っている。これは1つのグラフ構造でデータとml演算子の両方をキャプチャし、2種類の最適化をアンロックする統一中間表現に依存している。まず、データ部分(および基礎となるデータの性質)とML部分の間で情報を渡す論理最適化を使用して、相互に最適化する。第二に、演算子を異なるランタイム(リレーショナル、ML、DNN)とハードウェア(CPU、GPU)で実行可能にする論理-物理変換を導入する。新しいデータ駆動最適化は、クエリの各部分で使用するランタイムを判断し、最適なパフォーマンスを達成する。評価の結果、ravenはapache sparkとsql serverの予測クエリのパフォーマンスをそれぞれ13.1倍と330倍向上させた。 GPUアクセラレーションが有用である複雑なモデルでは、Ravenは最先端システムと比較して最大8倍のスピードアップを提供する。

関連論文リスト

Embedding based retrieval for long tail search queries in ecommerce [4.22966572735637]
我々はBest Buyでセマンティックプロダクト検索を実装するための一連の最適化を提案する。最初の最適化は、変換信号の空間性を改善するために、大きな言語モデルを使用することである。 2つめの最適化は、Best Buyカタログデータに基づいて、既製のトランスフォーマーベースのモデルを事前学習することである。
論文参考訳（メタデータ） (2025-05-03T23:47:15Z)
Fake Runs, Real Fixes -- Analyzing xPU Performance Through Simulation [4.573673188291683]
機械コードレベルでMLモデルを分析するための詳細な方法論であるxPU-Sharkを提案する。 xPU-Sharkは、アクセラレータ上で動作する運用デプロイメントのトレースをキャプチャして、修正されたマイクロアーキテクチャシミュレータで再生する。共通通信集合を最大15%まで最適化し、トークン生成遅延を最大4.1%削減する。
論文参考訳（メタデータ） (2025-03-18T23:15:02Z)
Trace is the Next AutoDiff: Generative Optimization with Rich Feedback, Execution Traces, and LLMs [19.89948665187903]
我々は、コーディングアシスタント、ロボット、コピロなどのAIシステムの設計と更新を自動化することによって動機付けられた最適化問題のクラスについて研究する。 PyTorchのような構文を用いて、ワークフロー最適化問題をOPTOインスタンスに効率的に変換するPython、Traceを提供する。
論文参考訳（メタデータ） (2024-06-23T21:05:31Z)
PIM-Opt: Demystifying Distributed Optimization Algorithms on a Real-World Processing-In-Memory System [21.09681871279162]
大規模データセットに対するモダン機械学習(ML)トレーニングは、時間を要する作業量である。最適化アルゴリズムであるGradient Descent (SGD) は、その効率性、単純さ、一般化性能に頼っている。プロセッサ中心のアーキテクチャは、MLトレーニングワークロードの実行中に低パフォーマンスと高エネルギー消費に悩まされる。 Processing-In-Memory(PIM)は、データ移動のボトルネックを軽減するための有望なソリューションである。
論文参考訳（メタデータ） (2024-04-10T17:00:04Z)
Optimizing LLM Queries in Relational Workloads [58.254894049950366]
本稿では,LLMをリレーショナルクエリ内で実行する解析処理に対して,LLM(Large Language Models)推論を最適化する方法を示す。私たちはこれらの最適化をApache Sparkで実装し、vLLMをバックエンドとして提供しています。実データセット上の多様なLLMベースのクエリのベンチマークで、エンドツーエンドのレイテンシを最大4.4倍改善する。
論文参考訳（メタデータ） (2024-03-09T07:01:44Z)
MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文参考訳（メタデータ） (2023-08-25T01:41:04Z)
ParaGraph: Weighted Graph Representation for Performance Optimization of HPC Kernels [1.304892050913381]
抽象構文木を拡張した並列アプリケーションのためのグラフベースの新しいプログラム表現を提案する。提案した表現は,OpenMPコード領域のランタイムを予測するために,グラフニューラルネットワーク(GNN)をトレーニングすることで評価する。その結果,本手法は実効性があり,実行時予測では 0.004 から 0.01 に RMSE を正規化していることがわかった。
論文参考訳（メタデータ） (2023-04-07T05:52:59Z)
Performance Embeddings: A Similarity-based Approach to Automatic Performance Optimization [71.69092462147292]
パフォーマンス埋め込みは、アプリケーション間でパフォーマンスチューニングの知識伝達を可能にする。本研究では, 深層ニューラルネットワーク, 密度およびスパース線形代数合成, および数値風速予測ステンシルのケーススタディにおいて, この伝達チューニング手法を実証する。
論文参考訳（メタデータ） (2023-03-14T15:51:35Z)
Lero: A Learning-to-Rank Query Optimizer [49.841082217997354]
これは、ネイティブクエリの上に構築され、クエリ最適化を改善するために継続的に学習される。 Leroはスクラッチから学習を構築するのではなく、数十年にわたるデータベースの知恵を活用し、ネイティブ性を改善するように設計されている。 Leroはいくつかのベンチマークでほぼ最適なパフォーマンスを達成する。
論文参考訳（メタデータ） (2023-02-14T07:31:11Z)
VeLO: Training Versatile Learned Optimizers by Scaling Up [67.90237498659397]
私たちは、ディープラーニングの成功の背後にある同じスケーリングアプローチを活用して、汎用性を学びます。私たちは、パラメータの更新を取り込み出力する小さなニューラルネットワークであるディープラーニングのためのインジェクションをトレーニングします。学習したメタトレーニングコード、関連するトレインテストデータ、およびvelo-code.ioのベースラインを備えた広範なベンチマークスイートをオープンソースとして公開しています。
論文参考訳（メタデータ） (2022-11-17T18:39:07Z)
NumS: Scalable Array Programming for the Cloud [82.827921577004]
タスクベース分散システム上でNumPyのような表現を最適化する配列プログラミングライブラリであるNumSを提案する。これはLoad Simulated Hierarchical Scheduling (LSHS)と呼ばれる新しいスケジューラによって実現される。 LSHSは、ネットワーク負荷を2倍減らし、メモリを4倍減らし、ロジスティック回帰問題において実行時間を10倍減らし、Rayの性能を向上させる。
論文参考訳（メタデータ） (2022-06-28T20:13:40Z)
Multi-layer Optimizations for End-to-End Data Analytics [71.05611866288196]
代替アプローチを実現するフレームワークであるIFAQ(Iterative Functional Aggregate Queries)を紹介する。 IFAQは、特徴抽出クエリと学習タスクを、IFAQのドメイン固有言語で与えられた1つのプログラムとして扱う。 IFAQ の Scala 実装が mlpack,Scikit,特殊化を数桁で上回り,線形回帰木モデルや回帰木モデルを複数の関係データセット上で処理可能であることを示す。
論文参考訳（メタデータ） (2020-01-10T16:14:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。