論文の概要: FuseFlow: A Fusion-Centric Compilation Framework for Sparse Deep Learning on Streaming Dataflow
- arxiv url: http://arxiv.org/abs/2511.04768v1
- Date: Thu, 06 Nov 2025 19:40:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-10 21:00:44.572247
- Title: FuseFlow: A Fusion-Centric Compilation Framework for Sparse Deep Learning on Streaming Dataflow
- Title(参考訳): FuseFlow: ストリーミングデータフローのスパースディープラーニングのためのフュージョン中心コンパイルフレームワーク
- Authors: Rubens Lacouture, Nathan Zhang, Ritvik Sharma, Marco Siracusa, Fredrik Kjolstad, Kunle Olukotun, Olivia Hsu,
- Abstract要約: 我々は,PyTorchで記述されたスパース機械学習モデルを融合したスパースデータフローグラフに変換するコンパイラFuseFlowを提案する。
FuseFlowはスパース操作の一般的なクロス圧縮融合をサポートする最初のコンパイラである。
我々はFuseFlowを使って、空白のある4つの現実世界の機械学習アプリケーションを設計空間で探索する。
- 参考スコア(独自算出の注目度): 2.4342405886016407
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As deep learning models scale, sparse computation and specialized dataflow hardware have emerged as powerful solutions to address efficiency. We propose FuseFlow, a compiler that converts sparse machine learning models written in PyTorch to fused sparse dataflow graphs for reconfigurable dataflow architectures (RDAs). FuseFlow is the first compiler to support general cross-expression fusion of sparse operations. In addition to fusion across kernels (expressions), FuseFlow also supports optimizations like parallelization, dataflow ordering, and sparsity blocking. It targets a cycle-accurate dataflow simulator for microarchitectural analysis of fusion strategies. We use FuseFlow for design-space exploration across four real-world machine learning applications with sparsity, showing that full fusion (entire cross-expression fusion across all computation in an end-to-end model) is not always optimal for sparse models-fusion granularity depends on the model itself. FuseFlow also provides a heuristic to identify and prune suboptimal configurations. Using Fuseflow, we achieve performance improvements, including a ~2.7x speedup over an unfused baseline for GPT-3 with BigBird block-sparse attention.
- Abstract(参考訳): ディープラーニングモデルがスケールするにつれて、スパース計算と特殊なデータフローハードウェアが、効率性に対処するための強力なソリューションとして登場した。
我々は,PyTorchで記述されたスパース機械学習モデルを,再構成可能なデータフローアーキテクチャ(RDAs)のために融合したスパースデータフローグラフに変換するコンパイラであるFuseFlowを提案する。
FuseFlowはスパース操作の一般的なクロス圧縮融合をサポートする最初のコンパイラである。
カーネル間の融合(表現)に加えて、FuseFlowは並列化、データフローの順序付け、スパシティブロッキングといった最適化もサポートする。
核融合戦略の微構造解析のためのサイクル精度データフローシミュレータを目標としている。
FuseFlowを4つの現実世界の機械学習アプリケーションに分散した空間探索に使用し、フルフュージョン(終端から終端モデルにおける全ての計算にまたがるエントロプレッション融合)が必ずしもスパースモデルに最適であるとは限らないことを示した。
FuseFlowはまた、最適以下の設定を識別およびプーンするためのヒューリスティックを提供する。
Fuseflowを使用することで、GPT-3の未使用ベースラインに対する約2.7倍のスピードアップや、BigBirdブロックスパースアテンションなどのパフォーマンス向上を実現しています。
関連論文リスト
- HybridFlow: A Flexible and Efficient RLHF Framework [13.80577212781375]
人間のフィードバックからの強化学習は、Large Language Model (LLM)アライメントで広く使われている。
従来のRLはデータフローとしてモデル化することができ、各ノードはニューラルネットワーク(NN)の計算を表す。
RLHFデータフローの柔軟な表現と効率的な実行を可能にするために,シングルコントローラとマルチコントローラのパラダイムをハイブリッド方式で組み合わせたHybridFlowを提案する。
論文 参考訳(メタデータ) (2024-09-28T06:20:03Z) - Boundary-aware Decoupled Flow Networks for Realistic Extreme Rescaling [49.215957313126324]
Invertible rescaling Network (IRN) やgenerative adversarial Network (GAN) などを含む最近の生成手法は、画像再スケーリングにおいて例外的な性能を示した。
しかし、IRNベースの手法は過度に滑らかな結果を生成する傾向にあり、一方、GANベースの手法は偽の細部を容易に生成する。
本稿では,現実的かつ視覚的に満足な結果を生成するために,境界対応デカップリングフローネットワーク(BDFlow)を提案する。
論文 参考訳(メタデータ) (2024-05-05T14:05:33Z) - MemFlow: Optical Flow Estimation and Prediction with Memory [54.22820729477756]
本稿では,メモリを用いた光フロー推定と予測をリアルタイムに行うMemFlowを提案する。
本手法では,メモリの読み出しと更新を行うモジュールをリアルタイムに収集する。
われわれのアプローチは、過去の観測に基づいて、将来の光流の予測にシームレスに拡張する。
論文 参考訳(メタデータ) (2024-04-07T04:56:58Z) - Trieste: Efficiently Exploring The Depths of Black-box Functions with
TensorFlow [50.691232400959656]
Triesteは、ベイジアン最適化とアクティブラーニングのためのオープンソースのPythonパッケージである。
我々のライブラリは、シーケンシャルな意思決定ループ内で人気のあるモデルのプラグアンドプレイを可能にする。
論文 参考訳(メタデータ) (2023-02-16T17:21:49Z) - Flag Aggregator: Scalable Distributed Training under Failures and
Augmented Losses using Convex Optimization [14.732408788010313]
MLアプリケーションはますます、複雑なディープラーニングモデルと大規模なデータセットに依存している。
計算とデータをスケールするために、これらのモデルはノードのクラスタ内で分散的にトレーニングされ、それらの更新はモデルに適用される前に集約される。
これらの設定にデータ拡張を加えることで、堅牢で効率的なアグリゲーションシステムが必要である。
この手法は,最先端のビザンツ系レジリエントアグリゲータのロバスト性を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2023-02-12T06:38:30Z) - OneFlow: Redesign the Distributed Deep Learning Framework from Scratch [17.798586916628174]
OneFlowは、SBP(スプリット、ブロードキャスト、部分値)の抽象化とアクターモデルに基づく、新しい分散トレーニングフレームワークである。
SBPは既存のフレームワークよりも、データ並列処理やモデル並列処理のプログラミングがずっと簡単になります。
OneFlowは、最先端のフレームワーク上に構築された多くの有名なカスタマイズライブラリよりも優れています。
論文 参考訳(メタデータ) (2021-10-28T11:32:14Z) - Highly Parallel Autoregressive Entity Linking with Discriminative
Correction [51.947280241185]
自己回帰リンクを全ての潜在的な言及に対して並列化する,非常に効率的な手法を提案する。
我々のモデルは以前の生成法より70倍高速で精度が高い。
論文 参考訳(メタデータ) (2021-09-08T17:28:26Z) - AutoFlow: Learning a Better Training Set for Optical Flow [62.40293188964933]
AutoFlowは、光学フローのトレーニングデータをレンダリングする手法である。
AutoFlowはPWC-NetとRAFTの両方の事前トレーニングにおいて最先端の精度を実現する。
論文 参考訳(メタデータ) (2021-04-29T17:55:23Z) - Multi-layer Optimizations for End-to-End Data Analytics [71.05611866288196]
代替アプローチを実現するフレームワークであるIFAQ(Iterative Functional Aggregate Queries)を紹介する。
IFAQは、特徴抽出クエリと学習タスクを、IFAQのドメイン固有言語で与えられた1つのプログラムとして扱う。
IFAQ の Scala 実装が mlpack,Scikit,特殊化を数桁で上回り,線形回帰木モデルや回帰木モデルを複数の関係データセット上で処理可能であることを示す。
論文 参考訳(メタデータ) (2020-01-10T16:14:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。