論文の概要: ClusterFusion: Expanding Operator Fusion Scope for LLM Inference via Cluster-Level Collective Primitive
- arxiv url: http://arxiv.org/abs/2508.18850v1
- Date: Tue, 26 Aug 2025 09:29:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-27 17:42:38.782588
- Title: ClusterFusion: Expanding Operator Fusion Scope for LLM Inference via Cluster-Level Collective Primitive
- Title(参考訳): ClusterFusion: クラスタレベル集団プリミティブによるLLM推論のための演算子フュージョンスコープの拡張
- Authors: Xinhao Luo, Zihan Liu, Yangjie Zhou, Shihan Fang, Ziyu Huang, Yu Feng, Chen Zhang, Shixuan Sun, Zhenzhe Zheng, Jingwen Leng, Minyi Guo,
- Abstract要約: 大規模言語モデル(LLM)の復号化は、演算子間での断片化によるレイテンシの低下に悩まされる。
本稿では,クラスタレベルの通信プリミティブであるClusterGatherとClusterFusionを紹介する。
通信をスケジュールし、演算子融合スコープを拡張するための共同実行フレームワークであるClusterFusionを設計する。
- 参考スコア(独自算出の注目度): 38.22906887556149
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language model (LLM) decoding suffers from high latency due to fragmented execution across operators and heavy reliance on off-chip memory for data exchange and reduction. This execution model limits opportunities for fusion and incurs significant memory traffic and kernel launch overhead. While modern architectures such as NVIDIA Hopper provide distributed shared memory and low-latency intra-cluster interconnects, they expose only low-level data movement instructions, lacking structured abstractions for collective on-chip communication. To bridge this software-hardware gap, we introduce two cluster-level communication primitives, ClusterReduce and ClusterGather, which abstract common communication patterns and enable structured, high-speed data exchange and reduction between thread blocks within a cluster, allowing intermediate results to be on-chip without involving off-chip memory. Building on these abstractions, we design ClusterFusion, an execution framework that schedules communication and computation jointly to expand operator fusion scope by composing decoding stages such as QKV Projection, Attention, and Output Projection into a single fused kernels. Evaluations on H100 GPUs show that ClusterFusion outperforms state-of-the-art inference frameworks by 1.61x on average in end-to-end latency across different models and configurations. The source code is available at https://github.com/xinhao-luo/ClusterFusion.
- Abstract(参考訳): 大規模言語モデル(LLM)の復号化は、演算子間での断片的な実行と、データ交換と削減のためのオフチップメモリへの依存により、レイテンシの低下に悩まされる。
この実行モデルは、核融合の機会を制限し、重要なメモリトラフィックとカーネルの起動オーバーヘッドを発生させる。
NVIDIA Hopperのような現代的なアーキテクチャは、分散共有メモリと低レイテンシのクラスタ間相互接続を提供するが、低レベルのデータ移動命令のみを公開し、全体的なオンチップ通信のための構造化された抽象化を欠いている。
このソフトウェアとハードウェアのギャップを埋めるために、クラスタレベルの通信プリミティブであるClusterReduceとClusterGatherを導入し、共通の通信パターンを抽象化し、クラスタ内の構造化された高速データ交換とスレッドブロック間の削減を可能にし、中間結果をオフチップメモリを介さずにオンチップ化できるようにする。
これらの抽象化に基づいて、QKVプロジェクション、アテンション、アウトプットプロジェクションなどのデコードステージを1つの融合カーネルに構成することにより、演算子融合スコープを拡張するために、通信と計算を協調的にスケジュールする実行フレームワークであるClusterFusionを設計する。
H100 GPUの評価によると、ClusterFusionは、さまざまなモデルや構成にわたって、エンドツーエンドのレイテンシの平均で、最先端の推論フレームワークを1.61倍上回っている。
ソースコードはhttps://github.com/xinhao-luo/ClusterFusion.comで入手できる。
関連論文リスト
- Self-Enhanced Image Clustering with Cross-Modal Semantic Consistency [57.961869351897384]
効率的な画像クラスタリングのためのクロスモーダルなセマンティック一貫性に基づくフレームワークを提案する。
当社のフレームワークはまず,クロスモーダルセマンティック一貫性を通じて,強力な基盤を構築します。
最初の段階では、トレーニング済みモデルのリッチなセマンティクスに合わせて、軽量クラスタリングヘッドをトレーニングします。
第2段階では、自己強化微調整戦略を導入する。
論文 参考訳(メタデータ) (2025-08-02T08:12:57Z) - DiffCLIP: Differential Attention Meets CLIP [57.396578974401734]
本稿では,CLIPアーキテクチャに差分アテンション機構を拡張する新しい視覚言語モデルであるDiffCLIPを提案する。
最小限の追加パラメータで、DiffCLIPは画像テキスト理解タスクにおいて優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-03-09T14:04:09Z) - P-MSDiff: Parallel Multi-Scale Diffusion for Remote Sensing Image Segmentation [8.46409964236009]
拡散モデルとマルチスケール機能はセグメンテーションタスクにおいて不可欠な要素である。
並列なマルチスケール分岐を持つ拡散モデルとして知られるセマンティックセグメンテーションの新しいモデルを提案する。
我々のモデルは、UAVidとVayhingen Buildingのデータセットに基づいて、J1測定値に基づいて、優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-05-30T19:40:08Z) - V2X-PC: Vehicle-to-everything Collaborative Perception via Point Cluster [58.79477191603844]
我々は,低レベル構造情報と高レベル意味情報を組み合わせて,シーンを疎結合に表現する新しいメッセージユニット,すなわちポイントクラスタを導入する。
このフレームワークには、オブジェクトの機能を維持し、帯域幅を管理するためのポイントクラスタパッキング(PCP)モジュールが含まれている。
2つの広く認識されている協調認識ベンチマークの実験は、従来の最先端の手法と比較して、我々の手法の優れた性能を示している。
論文 参考訳(メタデータ) (2024-03-25T11:24:02Z) - One-Step Late Fusion Multi-view Clustering with Compressed Subspace [29.02032034647922]
圧縮部分空間を用いたワンステップレイトフュージョンマルチビュークラスタリング(OS-LFMVC-CS)という統合フレームワークを提案する。
コンセンサス部分空間を用いて分割行列を整列し、分割融合を最適化し、融合分割行列を用いて離散ラベルの学習を指導する。
論文 参考訳(メタデータ) (2024-01-03T06:18:30Z) - A Joint Gradient and Loss Based Clustered Federated Learning Design [26.54703150478879]
非IIDデータを持つ分散エッジデバイスを独立して複数のクラスタを形成できる新しいクラスタ化FLフレームワークを提案する。
エッジデバイスにクラスタ決定を委譲することで、各デバイスはプライベートデータ情報を完全に活用して、独自のクラスタIDを決定できる。
シミュレーションの結果,提案するクラスタリングFLアルゴリズムは,既存のベースラインと比較して最大99%のクラスタリングイテレーションを削減できることがわかった。
論文 参考訳(メタデータ) (2023-11-22T19:39:37Z) - Deep Attention-guided Graph Clustering with Dual Self-supervision [49.040136530379094]
デュアル・セルフ・スーパービジョン(DAGC)を用いたディープアテンション誘導グラフクラスタリング法を提案する。
我々は,三重項Kulback-Leibler分散損失を持つソフトな自己スーパービジョン戦略と,擬似的な監督損失を持つハードな自己スーパービジョン戦略からなる二重自己スーパービジョンソリューションを開発する。
提案手法は6つのベンチマークデータセットにおける最先端の手法より一貫して優れている。
論文 参考訳(メタデータ) (2021-11-10T06:53:03Z) - CaEGCN: Cross-Attention Fusion based Enhanced Graph Convolutional
Network for Clustering [51.62959830761789]
クロスアテンションに基づくディープクラスタリングフレームワークCross-Attention Fusion based Enhanced Graph Convolutional Network (CaEGCN)を提案する。
CaEGCNには、クロスアテンション融合、Content Auto-Encoder、Graph Convolutional Auto-Encoder、および自己監視モデルという4つの主要なモジュールが含まれている。
異なるタイプのデータセットに対する実験結果は、提案したCaEGCNの優位性とロバスト性を証明する。
論文 参考訳(メタデータ) (2021-01-18T05:21:59Z) - A Vertex Cut based Framework for Load Balancing and Parallelism
Optimization in Multi-core Systems [15.913119724815733]
機械学習のような高レベルのアプリケーションは、単純な画像認識のための多層パーセプトロンに基づく単純なモデルから、自動運転車制御システムのためのより深くより複雑なニューラルネットワークへと進化している。
高性能コンピュータ上で動作する並列プログラムは、データ通信のボトルネック、メモリ帯域幅の制限、不規則なクリティカルセクションによる同期オーバーヘッドに悩まされることが多い。
マルチコアシステムにおけるデータ通信の削減と,これらのアプリケーションのスケーラビリティと性能向上のためのフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-09T07:54:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。