論文の概要: Balancing Computation Load and Representation Expressivity in Parallel Hybrid Neural Networks
- arxiv url: http://arxiv.org/abs/2505.19472v1
- Date: Mon, 26 May 2025 03:52:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.146454
- Title: Balancing Computation Load and Representation Expressivity in Parallel Hybrid Neural Networks
- Title(参考訳): 並列ハイブリッドニューラルネットワークにおける計算負荷と表現率のバランシング
- Authors: Mohammad Mahdi Moradi, Walid Ahmed, Shuangyue Wen, Sudhir Mudur, Weiwei Zhang, Yang Liu,
- Abstract要約: FlowHNは、ロードバランシングのさまざまな戦略に対応する、新しい並列ハイブリッドネットワークアーキテクチャである。
FlowHNの2つの革新的な差別化要因は、注意とSSMブランチの間で分割されたFLOP認識動的トークンである。
- 参考スコア(独自算出の注目度): 5.877451898618022
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Attention and State-Space Models (SSMs) when combined in a hybrid network in sequence or in parallel provide complementary strengths. In a hybrid sequential pipeline they alternate between applying a transformer to the input and then feeding its output into a SSM. This results in idle periods in the individual components increasing end-to-end latency and lowering throughput caps. In the parallel hybrid architecture, the transformer operates independently in parallel with the SSM, and these pairs are cascaded, with output from one pair forming the input to the next. Two issues are (i) creating an expressive knowledge representation with the inherently divergent outputs from these separate branches, and (ii) load balancing the computation between these parallel branches, while maintaining representation fidelity. In this work we present FlowHN, a novel parallel hybrid network architecture that accommodates various strategies for load balancing, achieved through appropriate distribution of input tokens between the two branches. Two innovative differentiating factors in FlowHN include a FLOP aware dynamic token split between the attention and SSM branches yielding efficient balance in compute load, and secondly, a method to fuse the highly divergent outputs from individual branches for enhancing representation expressivity. Together they enable much better token processing speeds, avoid bottlenecks, and at the same time yield significantly improved accuracy as compared to other competing works. We conduct comprehensive experiments on autoregressive language modeling for models with 135M, 350M, and 1B parameters. FlowHN outperforms sequential hybrid models and its parallel counterpart, achieving up to 4* higher Tokens per Second (TPS) and 2* better Model FLOPs Utilization (MFU).
- Abstract(参考訳): Atention and State-Space Models (SSM) は、連続または並列にハイブリッドネットワークに組み合わされた場合、相補的な強みを提供する。
ハイブリッドシーケンシャルパイプラインでは、入力にトランスフォーマーを適用した後、出力をSSMに供給する。
これにより、個々のコンポーネントのアイドル期間は、エンドツーエンドのレイテンシの増加とスループットの上限の低下をもたらす。
並列ハイブリッドアーキテクチャでは、トランスフォーマーはSSMと独立に動作し、これらのペアはカスケードされ、一方のペアから次のペアへの出力が生成される。
2つの問題
(i)これらの分枝から本質的に発散した出力を持つ表現的知識表現を作成し、
(2) 表現の忠実さを維持しながら、これらの並列分岐間の計算の負荷分散を図る。
本研究では,ロードバランシングのための様々な戦略に対応する並列ハイブリッドネットワークアーキテクチャであるFlowHNを提案する。
FlowHNの2つの革新的な差別化要因は、注意力とSSMブランチ間で分割されたFLOP認識動的トークンと、計算負荷の効率的なバランスをもたらす方法と、表現表現性を高めるために個々のブランチから高度に発散した出力を融合する方法である。
同時に、トークン処理の速度を大幅に向上させ、ボトルネックを回避すると同時に、他の競合する処理に比べて精度が大幅に向上する。
我々は135M,350M,1Bパラメータを持つモデルに対する自己回帰言語モデリングに関する総合的な実験を行った。
FlowHNはシーケンシャルなハイブリッドモデルとその並列モデルよりも優れており、最大で4*高いトークン/秒(TPS)と2*より良いモデルFLOP(MFU)を実現している。
関連論文リスト
- Systems and Algorithms for Convolutional Multi-Hybrid Language Models at Scale [68.6602625868888]
本稿では,2つの簡単な観測に基づいて,畳み込み型マルチハイブリッドアーキテクチャを提案する。
ハイブリッドモデルのオペレータは、インコンテキストリコール、マルチトークンリコール、圧縮などのトークン操作タスクにカスタマイズできる。
我々は、最適化されたトランスフォーマーの1.2倍から2.9倍、以前の世代のハイブリッドの1.1倍から1.4倍の速さでエンドツーエンドを訓練する。
論文 参考訳(メタデータ) (2025-02-25T19:47:20Z) - Recurrent Stochastic Configuration Networks with Incremental Blocks [0.0]
リカレント・コンフィグレーション・ネットワーク(RSCN)は、順序の不確実性を伴う非線形力学系のモデリングにおいて、将来性を示す。
本稿では,ブロックインクリメントを持つブロックRCCN(BRSCN)を開発した。
BRSCNは建設中に複数の貯水池ノード(貯水池)を同時に追加することができる。
論文 参考訳(メタデータ) (2024-11-18T05:58:47Z) - EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,既存の並列処理方式を超越したMoE用パイプラインスケジューラであるEPS-MoEを紹介する。
その結果,既存の並列推論手法と比較して,プリフィルスループットは52.4%向上した。
論文 参考訳(メタデータ) (2024-10-16T05:17:49Z) - Asynchronous Multi-Model Dynamic Federated Learning over Wireless
Networks: Theory, Modeling, and Optimization [20.741776617129208]
分散機械学習(ML)の鍵となる技術として、フェデレートラーニング(FL)が登場した。
まず、システムパラメータが学習性能に与える影響を捉えるために、長方形のスケジューリングステップと関数を定式化する。
我々の分析は、デバイストレーニング変数と非同期スケジューリング決定の協調的影響に光を当てている。
論文 参考訳(メタデータ) (2023-05-22T21:39:38Z) - AMT: All-Pairs Multi-Field Transforms for Efficient Frame Interpolation [80.33846577924363]
ビデオフレームギスブのための新しいネットワークアーキテクチャであるAMT(All-Pairs Multi-Field Transforms)を提案する。
まず、すべての画素に対して双方向のボリュームを構築し、予測された両側フローを用いて相関関係を検索する。
第2に、入力フレーム上で逆向きのワープを行うために、一対の更新された粗い流れから細粒度の流れ場の複数のグループを導出する。
論文 参考訳(メタデータ) (2023-04-19T16:18:47Z) - Paraformer: Fast and Accurate Parallel Transformer for
Non-autoregressive End-to-End Speech Recognition [62.83832841523525]
そこで我々はParaformerと呼ばれる高速かつ高精度な並列トランスを提案する。
出力トークンの数を正確に予測し、隠れた変数を抽出する。
10倍以上のスピードアップで、最先端のARトランスフォーマーに匹敵するパフォーマンスを実現することができる。
論文 参考訳(メタデータ) (2022-06-16T17:24:14Z) - Pathways: Asynchronous Distributed Dataflow for ML [24.940220376358457]
本稿では,加速器用大規模オーケストレーション層の設計について述べる。
私たちのシステムであるPathwaysは、新しいシステムやML研究のアイデアを探索できるように明示的に設計されています。
論文 参考訳(メタデータ) (2022-03-23T16:50:53Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。