論文の概要: Taskflow: A Lightweight Parallel and Heterogeneous Task Graph Computing
System
- arxiv url: http://arxiv.org/abs/2004.10908v4
- Date: Mon, 6 Sep 2021 18:36:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-10 10:05:36.415988
- Title: Taskflow: A Lightweight Parallel and Heterogeneous Task Graph Computing
System
- Title(参考訳): taskflow: 軽量で並列で異種なタスクグラフ計算システム
- Authors: Tsung-Wei Huang, Dian-Lun Lin, Chun-Xun Lin, and Yibo Lin
- Abstract要約: Taskflowは、軽量なタスクグラフベースのアプローチを使用して、並列および異種アプリケーションの構築を合理化することを目的としている。
我々のプログラミングモデルは、グラフ内制御フローを伴うタスクグラフ並列性の非常に一般的なクラスとして、自分自身を区別する。
我々は実世界のアプリケーションでTaskflowの有望な性能を実証した。
- 参考スコア(独自算出の注目度): 12.813275501138193
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Taskflow aims to streamline the building of parallel and heterogeneous
applications using a lightweight task graph-based approach. Taskflow introduces
an expressive task graph programming model to assist developers in the
implementation of parallel and heterogeneous decomposition strategies on a
heterogeneous computing platform. Our programming model distinguishes itself as
a very general class of task graph parallelism with in-graph control flow to
enable end-to-end parallel optimization. To support our model with high
performance, we design an efficient system runtime that solves many of the new
scheduling challenges arising out of our models and optimizes the performance
across latency, energy efficiency, and throughput. We have demonstrated the
promising performance of Taskflow in real-world applications. As an example,
Taskflow solves a large-scale machine learning workload up to 29% faster, 1.5x
less memory, and 1.9x higher throughput than the industrial system, oneTBB, on
a machine of 40 CPUs and 4 GPUs. We have opened the source of Taskflow and
deployed it to large numbers of users in the open-source community.
- Abstract(参考訳): taskflowは軽量なタスクグラフベースのアプローチで、並列および異種アプリケーションの構築を合理化することを目指している。
Taskflowは表現力のあるタスクグラフプログラミングモデルを導入し、異種コンピューティングプラットフォーム上での並列および異種分解戦略の実装を支援する。
私たちのプログラミングモデルは、エンドツーエンドの並列最適化を可能にするために、グラフ内制御フローと非常に一般的なタスクグラフ並列処理クラスと区別します。
高い性能でモデルをサポートするために、我々は、モデルから生じる新しいスケジューリング課題の多くを解決し、レイテンシ、エネルギー効率、スループットでパフォーマンスを最適化する効率的なシステムランタイムを設計する。
我々は実世界のアプリケーションでTaskflowの有望な性能を実証した。
例えば、taskflowは、40cpuと4gpuのマシン上の産業システムonetbbよりも、最大29%高速、1.5倍のメモリ、および1.9倍のスループットで、大規模な機械学習ワークロードを解決している。
私たちはTaskflowのソースを公開し、オープンソースコミュニティの多くのユーザにデプロイしました。
関連論文リスト
- Benchmarking Agentic Workflow Generation [80.74757493266057]
複数面シナリオと複雑なグラフワークフロー構造を備えた統合ワークフロー生成ベンチマークであるWorFBenchを紹介する。
また,サブシーケンスとサブグラフマッチングアルゴリズムを利用したシステム評価プロトコルWorFEvalを提案する。
我々は、生成されたタスクが下流のタスクを強化し、推論中により少ない時間で優れたパフォーマンスを達成することができることを観察する。
論文 参考訳(メタデータ) (2024-10-10T12:41:19Z) - Specx: a C++ task-based runtime system for heterogeneous distributed architectures [0.0]
Specxは、C++で書かれたタスクベースのランタイムシステムである。
現代のC++で記述されたタスクベースのランタイムシステムであるSpecxを紹介する。
論文 参考訳(メタデータ) (2023-08-30T11:41:30Z) - Automatic Task Parallelization of Dataflow Graphs in ML/DL models [0.0]
本稿では,MLデータフローグラフに固有の並列パスを利用する線形クラスタリング手法を提案する。
我々はONNX形式で入力MLモデルから可読かつ実行可能な並列Pytorch+Pythonコードを生成する。
いくつかのMLグラフの予備結果は、シリアル実行よりも1.9$times$スピードアップである。
論文 参考訳(メタデータ) (2023-08-22T04:54:30Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - Partitioning Distributed Compute Jobs with Reinforcement Learning and
Graph Neural Networks [58.720142291102135]
大規模な機械学習モデルは、幅広い分野に進歩をもたらしている。
これらのモデルの多くは、単一のマシンでトレーニングするには大きすぎるため、複数のデバイスに分散する必要がある。
スループットやブロッキングレートといったユーザクリティカルな指標に対して,並列化の最大化が準最適であることを示す。
論文 参考訳(メタデータ) (2023-01-31T17:41:07Z) - A heuristic method for data allocation and task scheduling on
heterogeneous multiprocessor systems under memory constraints [14.681986126866452]
本稿では,メモリ制約下でのデータ割り当てとタスクスケジューリングの問題に焦点をあてる。
本稿では,いくつかの特徴を組み合わせたタブ探索アルゴリズムを提案する。
実験により,提案アルゴリズムは比較的高品質な解を妥当な計算時間で得られることを示した。
論文 参考訳(メタデータ) (2022-05-09T10:46:08Z) - Arch-Graph: Acyclic Architecture Relation Predictor for
Task-Transferable Neural Architecture Search [96.31315520244605]
Arch-Graphはタスク固有の最適アーキテクチャを予測するトランスファー可能なNASメソッドである。
Arch-Graphの転送性と,多数のタスクにわたる高いサンプル効率を示す。
わずか50モデルの予算の下で、2つの検索スペースで平均して0.16%と0.29%のアーキテクチャを見つけることができる。
論文 参考訳(メタデータ) (2022-04-12T16:46:06Z) - HyperGrid: Efficient Multi-Task Transformers with Grid-wise Decomposable
Hyper Projections [96.64246471034195]
我々は,マルチタスク学習を効果的に行う新しいアプローチであるtextscHyperGridを提案する。
本手法は,微調整とマルチタスク学習のギャップを埋めるのに役立つ。
論文 参考訳(メタデータ) (2020-07-12T02:49:16Z) - Heterogeneous CPU+GPU Stochastic Gradient Descent Algorithms [1.3249453757295084]
ヘテロジニアスCPU+GPUアーキテクチャの深層学習のためのトレーニングアルゴリズムについて検討する。
私たちの2倍の目標 -- 収束率と資源利用を同時に最大化する -- は、この問題を難しくします。
これらのアルゴリズムの実装は,複数の実データセットよりも高速な収束と資源利用の両立を実現していることを示す。
論文 参考訳(メタデータ) (2020-04-19T05:21:20Z) - MPLP++: Fast, Parallel Dual Block-Coordinate Ascent for Dense Graphical
Models [96.1052289276254]
この研究は、人気のあるDual Block-Coordinate Ascent原則に基づく新しいMAP-solverを導入している。
驚いたことに、性能の低い解法に小さな変更を加えることで、既存の解法を大きなマージンで大幅に上回る新しい解法MPLP++を導出します。
論文 参考訳(メタデータ) (2020-04-16T16:20:53Z) - Optimizing Streaming Parallelism on Heterogeneous Many-Core
Architectures: A Machine Learning Based Approach [16.702537371391053]
本稿では、異種多コアアーキテクチャ上のタスクベース並列アプリケーションにおいて、ハードウェアリソース分割とタスク粒度に関する優れたソリューションを導出する自動手法を提案する。
提案手法では,与えられたリソース分割とタスクの粒度設定に基づいて,対象アプリケーションの結果のパフォーマンスを推定するために,性能モデルを用いる。
シングルストリームバージョンと比較すると,XeonPhiとGPUプラットフォームでそれぞれ1.6倍,1.1倍の高速化を実現している。
論文 参考訳(メタデータ) (2020-03-05T21:18:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。