論文の概要: CUCo: An Agentic Framework for Compute and Communication Co-design
- arxiv url: http://arxiv.org/abs/2603.02376v1
- Date: Mon, 02 Mar 2026 20:35:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 21:38:10.541317
- Title: CUCo: An Agentic Framework for Compute and Communication Co-design
- Title(参考訳): CUCo: 計算・通信共同設計のためのエージェントフレームワーク
- Authors: Bodun Hu, Yoga Sri Varshan, Saurabh Agarwal, Aditya Akella,
- Abstract要約: CUCoはトレーニングフリーのエージェント駆動ワークフローで、共同でオーケストレーションと通信を行う高性能カーネルを自動的に生成する。
従来のコンポーネントを最適化することで、CUCoは既存のアプローチでは利用できない新しい最適化の機会を解放する。
- 参考スコア(独自算出の注目度): 13.906670325427463
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Custom CUDA kernel development is essential for maximizing GPU utilization in large-scale distributed LLM training and inference, yet manually writing kernels that jointly leverage both computation and communication remains a labor-intensive and error-prone process. Prior work on kernel optimization has focused almost exclusively on computation, leaving communication kernels largely untouched even though they constitute a significant share of total execution time. We introduce CUCo, a training-free agent-driven workflow that automatically generates high-performance CUDA kernels that jointly orchestrate computation and communication. By co-optimizing these traditionally disjoint components, CUCo unlocks new optimization opportunities unavailable to existing approaches, outperforming state-of-the-art baselines and reducing end-to-end latency by up to $1.57\times$.
- Abstract(参考訳): 大規模分散LLMトレーニングと推論におけるGPU利用の最大化には、カスタムCUDAカーネル開発が不可欠だが、計算と通信の両方を共同で利用するカーネルを手作業で記述することは、労働集約的かつエラーを起こしやすいプロセスのままである。
カーネル最適化に関する以前の研究は、ほとんど計算にのみ焦点を合わせており、通信カーネルは総実行時間のかなりの割合を占めるにもかかわらず、ほとんど触れられていない。
本稿では,計算と通信を協調的にオーケストレーションする高性能なCUDAカーネルを自動生成する,訓練不要なエージェント駆動ワークフローCUCoを紹介する。
従来のコンポーネントを最適化することで、CUCoは既存のアプローチでは利用できない新しい最適化の機会を解放し、最先端のベースラインを上回り、エンドツーエンドのレイテンシを最大1.57\times$に下げる。
関連論文リスト
- CUDA Agent: Large-Scale Agentic RL for High-Performance CUDA Kernel Generation [51.72529978689561]
Agentは、カーネルの専門知識を3つのコンポーネントで開発する大規模なエージェント強化学習システムである。
AgentはKernelBench上で、トーチコンパイルよりも100%、100%、92%高速なレートを提供する。
論文 参考訳(メタデータ) (2026-02-27T18:58:05Z) - KernelBlaster: Continual Cross-Task CUDA Optimization via Memory-Augmented In-Context Reinforcement Learning [3.4998382481249286]
我々は、テストハーネス、検証コンポーネント、再現可能な評価を伴って、オープンソースのエージェントフレームワークとしてKernelBlasterをリリースした。
提案手法は, KernelBench Levels 1, 2, 3 の平均速度をそれぞれ 1.43x, 2.50x, 1.50x とする。
論文 参考訳(メタデータ) (2026-02-15T19:48:43Z) - DICE: Diffusion Large Language Models Excel at Generating CUDA Kernels [17.979042914049842]
拡散大言語モデル (dLLM) は自己回帰(AR) LLM に代わる魅力的な代替品として登場した。
CuKeは、高性能カーネル向けに最適化された拡張データセットである。
DICEはカーネル生成用に設計された拡散大言語モデルである。
論文 参考訳(メタデータ) (2026-02-12T08:45:13Z) - CudaForge: An Agent Framework with Hardware Feedback for CUDA Kernel Optimization [36.794824560677064]
CudaForgeは、カーネル生成と最適化のためのトレーニング不要なマルチエージェントワークフローである。
OpenAI-o3のようなベースモデルを活用することで、CudaForgeは97.6%の正しさと平均1.68$times$スピードアップを達成した。
論文 参考訳(メタデータ) (2025-10-23T22:52:00Z) - CollaPipe: Adaptive Segment-Optimized Pipeline Parallelism for Collaborative LLM Training in Heterogeneous Edge Networks [57.95170323315603]
CollaPipeは、コラボレーティブパイプライン並列性とフェデレーションアグリゲーションを統合し、自己進化型ネットワークをサポートする分散学習フレームワークである。
CollaPipeでは、エンコーダ部分は可変サイズのセグメントに適応的に分割され、パイプライン並列トレーニングのためにモバイルデバイスにデプロイされ、デコーダは生成タスクを処理するためにエッジサーバにデプロイされる。
トレーニング効率を向上させるために,モデルセグメント,マイクロバッチ,帯域幅,送信電力を適応的に割り当てる共同最適化問題を定式化する。
論文 参考訳(メタデータ) (2025-09-24T07:54:01Z) - Training Long-Context LLMs Efficiently via Chunk-wise Optimization [60.05884946552877]
textitSequential Chunk-wise Optimization (SeCO) は、長い入力を管理可能なチャンクに分割するメモリ効率の訓練パラダイムである。
textitSparse Chunk-wise Optimization (SpaCO)を導入し、特定のチャンクへの勾配を選択的に伝播することで計算オーバーヘッドを削減する。
SpaCOは、コンテキスト長からバックプロパゲーションの計算コストを分離し、シーケンスが長くなるにつれて、トレーニング時間が徐々に推論時間に収束することを可能にする。
論文 参考訳(メタデータ) (2025-05-22T14:11:34Z) - LoCoDL: Communication-Efficient Distributed Learning with Local Training and Compression [56.01900711954956]
そこで我々はLoCoDL(LoCoDL)と,フロートの実次元ベクトルの代わりに短いビットストリームが送信される圧縮(Compression)という,ローカルトレーニングの一般的かつ効果的な2つの手法を利用する通信効率の高いアルゴリズムを紹介した。
LoCoDLは、局所的な訓練と圧縮の恩恵を受け、強い凸関数を持つ一般的な異種体制において、関数の条件数とモデル次元に関して、二重に加速された通信複雑性を享受する。
論文 参考訳(メタデータ) (2024-03-07T09:22:50Z) - Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。
1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。
我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-25T05:04:44Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - CoCoNet: Co-Optimizing Computation and Communication for Distributed
Machine Learning [6.8023115112720145]
CoCoNetは計算と通信の両方でプログラムを表現する計算言語である。
新規CoCoNet生成カーネルの統合後の大幅な改善を示す。
論文 参考訳(メタデータ) (2021-05-12T15:13:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。