Fugu-MT 論文翻訳(概要): An MLIR-based Compilation Framework for Control Flow Management on CGRAs

論文の概要: An MLIR-based Compilation Framework for Control Flow Management on CGRAs

arxiv url: http://arxiv.org/abs/2508.02167v1
Date: Mon, 04 Aug 2025 08:07:03 GMT
ステータス: 翻訳完了
システム内更新日: 2025-08-12 13:36:40.340956
Title: An MLIR-based Compilation Framework for Control Flow Management on CGRAs
Title（参考訳）: CGRAにおける制御フロー管理のためのMLIRベースのコンパイルフレームワーク
Authors: Yuxuan Wang, Cristian Tirelli, Giovanni Ansaloni, Laura Pozzi, David Atienza,
Abstract要約: CGRAは高い柔軟性と効率を示し、集中的なワークロードの加速に適している。 CGRAコンパイルは空間領域と時間領域の両方にまたがる多次元空間に対処する必要がある。本稿では,コンパイルバックエンドとして機能し,CGRAハードウェアリソースの制限に対処し,コンパイルプロセスで実現可能なソリューションを保証する新しいマッピング手法を提案する。我々のフレームワークは、コンパイル最適化によって、最先端のアプローチよりも最大2.1倍のスピードアップを実現している。
参考スコア（独自算出の注目度）: 8.797837123464548
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Coarse Grained Reconfigurable Arrays (CGRAs) present both high flexibility and efficiency, making them well-suited for the acceleration of intensive workloads. Nevertheless, a key barrier towards their widespread adoption is posed by CGRA compilation, which must cope with a multi-dimensional space spanning both the spatial and the temporal domains. Indeed, state-of-the-art compilers are limited in scope as they mostly deal with the data flow of applications, while having little or no support for control flow. Hence, they mostly target the mapping of single loops and/or delegate the management of control flow divergences to ad-hoc hardware units. Conversely, in this paper we show that control flow can be effectively managed and optimized at the compilation level, allowing for a broad set of applications to be targeted while being hardware-agnostic and achieving high performance. We embody our methodology in a modular compilation framework consisting of transformation and optimization passes, enabling support for applications with arbitrary control flows running on abstract CGRA meshes. We also introduce a novel mapping methodology that acts as a compilation back-end, addressing the limitations in available CGRA hardware resources and guaranteeing a feasible solution in the compilation process. Our framework achieves up to 2.1X speedups over state-of-the-art approaches, purely through compilation optimizations.
Abstract（参考訳）: Coarse Grained Reconfigurable Arrays (CGRA)は、高い柔軟性と効率性を示し、集中的なワークロードの加速に適している。それでも、広く普及する鍵となる障壁はCGRAコンパイルであり、空間領域と時間領域の両方にまたがる多次元空間に対処する必要がある。実際、最先端のコンパイラは、主にアプリケーションのデータフローを扱うが、制御フローはほとんど、あるいは全くサポートしていないため、スコープが限られている。したがって、主に単一ループのマッピングを対象とし、制御フローの分岐の管理をアドホックなハードウェアユニットに委譲する。逆に、本論文では、制御フローを効率よく管理し、コンパイルレベルで最適化し、ハードウェアに依存せず高い性能を実現しつつ、幅広いアプリケーションをターゲットにすることができることを示す。我々は,トランスフォーメーションと最適化パスからなるモジュール型コンパイルフレームワークで方法論を具体化し,抽象CGRAメッシュ上で動作する任意の制御フローを持つアプリケーションをサポートする。また、コンパイルのバックエンドとして機能し、利用可能なCGRAハードウェアリソースの制限に対処し、コンパイルプロセスで実現可能なソリューションを保証する新しいマッピング手法も導入する。我々のフレームワークは、コンパイル最適化によって、最先端のアプローチよりも最大2.1倍のスピードアップを実現している。

関連論文リスト

Plug-and-Play Benchmarking of Reinforcement Learning Algorithms for Large-Scale Flow Control [61.155940786140455]
強化学習(RL)は,アクティブフロー制御(AFC)において有望な結果を示した。現在のAFCベンチマークは、外部計算流体力学(CFD)の解法に依存しており、完全には微分不可能であり、3Dとマルチエージェントのサポートが限られている。 AFCにおけるRLのための最初のスタンドアロンで完全に差別化可能なベンチマークスイートであるFluidGymを紹介する。
論文参考訳（メタデータ） (2026-01-21T14:13:44Z)
nncase: An End-to-End Compiler for Efficient LLM Deployment on Heterogeneous Storage Architectures [7.460240094212613]
さまざまなターゲットに対して最適化を統合するために設計された、エンドツーエンドのコンパイルフレームワークであるnncaseを提示する。 nncaseは、異種コンピューティングユニットに適応するためのAuto Vectorize、並列戦略を検索するためのAuto Distribution、オンチップキャッシュのローカリティを最大化するAuto Scheduleの3つの重要なモジュールを統合している。
論文参考訳（メタデータ） (2025-12-25T08:27:53Z)
An LLVM-Based Optimization Pipeline for SPDZ [0.0]
我々はSPDZプロトコルのための概念実証LLVMベースの最適化パイプラインを実装した。フロントエンドは軽量なプライバシアノテーションを備えたCのサブセットを受け入れ、LLVM IRに格下げします。我々のバックエンドは、最適化されたIR上でデータフローと制御フローの分析を行い、ノンブロッキングランタイムスケジューラを駆動します。
論文参考訳（メタデータ） (2025-12-11T20:53:35Z)
Beyond the GPU: The Strategic Role of FPGAs in the Next Wave of AI [0.0]
Field-Programmable Gate Arrays (FPGA)は、AIアルゴリズムを直接デバイスロジックにマッピングできる再構成可能なプラットフォームである。 CPUやGPUアーキテクチャとは異なり、FPGAはその物理構造を特定のモデルに適応させるために、フィールドで再構成することができる。 AIフレームワークからの部分的な再構成とコンパイルフローは、プロトタイプからデプロイメントまでのパスを短縮している。
論文参考訳（メタデータ） (2025-11-04T03:41:42Z)
STARK: Strategic Team of Agents for Refining Kernels [23.717055490630596]
我々は,GPUカーネル最適化のためのエージェントフレームワークを導入し,マルチエージェント協調による設計空間を探索する。このフレームワークはエキスパートエンジニアのワークフローを模倣し、LCMがハードウェアトレードオフを推論し、プロファイリングフィードバックを取り入れ、カーネルを反復的に洗練することを可能にする。我々は,LLMに基づくカーネル最適化のベンチマークであるKernelBenchに対するアプローチを評価し,ベースラインエージェントよりも大幅に改善したことを示す。
論文参考訳（メタデータ） (2025-10-19T20:41:46Z)
MOBIUS: Big-to-Mobile Universal Instance Segmentation via Multi-modal Bottleneck Fusion and Calibrated Decoder Pruning [91.90342432541138]
モデルサイズとトレーニングデータのスケールアップには、インスタンスレベルの知覚のための高度な基盤モデルがある。資源制約されたプラットフォームにおける高い計算コスト制限。我々は,高性能コンピューティングプラットフォームとモバイルデバイスの両方において,効率的なセグメンテーションのための新しいベンチマークを導入する。
論文参考訳（メタデータ） (2025-10-16T18:00:00Z)
xLLM Technical Report [57.13120905321185]
我々は,知的かつ効率的なLarge Language Model (LLM)推論フレームワークであるxLLMを紹介する。 xLLMは、新しい分離されたサービスエンジンアーキテクチャを構築する。 xLLM-Engineは、システムとアルゴリズムの設計を最適化し、コンピュータリソースを完全に飽和させる。
論文参考訳（メタデータ） (2025-10-16T13:53:47Z)
RPCANet++: Deep Interpretable Robust PCA for Sparse Object Segmentation [51.37553739930992]
RPCANet++は、RPCAの解釈可能性と効率的なディープアーキテクチャを融合したスパースオブジェクトセグメンテーションフレームワークである。我々のアプローチは、緩やかなRPCAモデルを背景近似モジュール(BAM)、対象抽出モジュール(OEM)、画像復元モジュール(IRM)からなる構造化ネットワークに展開する。さまざまなデータセットの実験では、RPCANet++がさまざまなイメージングシナリオの下で最先端のパフォーマンスを達成することが示されている。
論文参考訳（メタデータ） (2025-08-06T08:19:37Z)
HPCTransCompile: An AI Compiler Generated Dataset for High-Performance CUDA Transpilation and LLM Preliminary Exploration [13.53425131505526]
ディープラーニングは、モデルパラメータと計算要求の指数関数的な増加を促した。 NVIDIA GPUとそのソフトウェアエコシステムは、並列コンピューティングの堅牢なサポートを提供する。エコシステムは並列ソフトウェア分野において支配的な地位を確立してきた。並列プログラミングのパラダイムとハードウェアの違いにより、コードを他のプラットフォームに翻訳することは大きな課題となる。
論文参考訳（メタデータ） (2025-06-12T06:48:33Z)
CUDA-LLM: LLMs Can Write Efficient CUDA Kernels [9.287036563375617]
大規模言語モデル(LLM)は汎用コード生成において強力な機能を示している。我々は,textbfFeature SearchReinforcement (FSR) FSRという新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-06-10T10:51:03Z)
MSCCL++: Rethinking GPU Communication Abstractions for Cutting-edge AI Applications [9.28608047116196]
最新の最先端AIアプリケーションは、急速に進化し、異質で誕生したハードウェアデバイス上で開発されている。これは、新しいハードウェアからボトムアップの変更を採用するために、AIソフトウェアスタックの頻繁な再作業を必要とする。分離問題に基づくGPU通信の新たな抽象化であるMSCCL++を提案する。
論文参考訳（メタデータ） (2025-04-11T23:51:54Z)
Can SAM Boost Video Super-Resolution? [78.29033914169025]
単純な有効モジュールであるSAM-guidEd refinEment Module (SEEM)を提案する。この軽量プラグインモジュールは、セマンティック・アウェア機能の生成にアテンションメカニズムを活用するように設計されている。我々はSEEMをEDVRとBasicVSRの2つの代表的手法に適用し、最小限の実装労力で継続的に性能を向上する。
論文参考訳（メタデータ） (2023-05-11T02:02:53Z)
Flexible constraint compilation in the parity architecture [0.491574468325115]
非局所的な制約でさえ、高価なSWAPゲートなしで効率的に実装できることを示す。開発したゲートシーケンスとSWAPゲートを用いた従来のアプローチの関係を導出する。
論文参考訳（メタデータ） (2023-04-25T14:50:57Z)
Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。 1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文参考訳（メタデータ） (2023-04-25T05:04:44Z)
Practical Conformer: Optimizing size, speed and flops of Conformer for on-Device and cloud ASR [67.63332492134332]
我々は、デバイス上の制約を満たすのに十分小さく、TPUを高速に推論できる最適化されたコンバータを設計する。提案するエンコーダは、デバイス上では強力なスタンドアロンエンコーダとして、また高性能なASRパイプラインの第1部として利用することができる。
論文参考訳（メタデータ） (2023-03-31T23:30:48Z)
Reconfigurable co-processor architecture with limited numerical precision to accelerate deep convolutional neural networks [0.38848561367220275]
畳み込みニューラルネットワーク(CNN)は、視覚システムやロボット工学などのディープラーニングアプリケーションで広く使われている。本稿では,CNNを高速化するために,モデルに依存しない再構成可能なコプロセッシングアーキテクチャを提案する。既存の解とは対照的に、算術表現や演算のための限定精度32bit Q-format固定点量子化を導入する。
論文参考訳（メタデータ） (2021-08-21T09:50:54Z)
Deep Learning-based Resource Allocation For Device-to-Device Communication [66.74874646973593]
デバイス間通信(D2D)を用いたマルチチャネルセルシステムにおいて,リソース割り当ての最適化のためのフレームワークを提案する。任意のチャネル条件に対する最適な資源配分戦略をディープニューラルネットワーク(DNN)モデルにより近似する深層学習(DL)フレームワークを提案する。シミュレーションの結果,提案手法のリアルタイム性能を低速で実現できることが確認された。
論文参考訳（メタデータ） (2020-11-25T14:19:23Z)
Extending XACC for Quantum Optimal Control [70.19683407682642]
量子コンピューティングベンダーは、直接パルスレベルの量子制御のためのアプリケーションプログラミングをオープンにし始めている。本稿では,XACCシステムレベルの量子古典ソフトウェアフレームワークの拡張について述べる。この拡張により、デジタル量子回路表現を等価なパルスシーケンスに変換することができる。
論文参考訳（メタデータ） (2020-06-04T13:13:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。