論文の概要: Using MLIR Transform to Design Sliced Convolution Algorithm
- arxiv url: http://arxiv.org/abs/2511.18222v1
- Date: Sat, 22 Nov 2025 23:51:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.704256
- Title: Using MLIR Transform to Design Sliced Convolution Algorithm
- Title(参考訳): MLIR変換を用いたスライス畳み込みアルゴリズムの設計
- Authors: Victor Ferrari, Marcio Pereira, Lucas Alvarenga, Gustavo Leite, Guido Araujo,
- Abstract要約: SConvTransformは、MLIRの2D畳み込みを最適化するための操作を提供する変換方言拡張である。
SConvTransformのメインオペレーションであるSConvOpは、Linalgの畳み込みをタイル付きおよび充填されたジェネリック操作に低下させる。
標準の畳み込み構成を適用すると、生成されたコードはARM SMEで60%、Intel AVX512で67%のピークパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 0.20388938295521575
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes SConvTransform, a Transform dialect extension that provides operations for optimizing 2D convolutions in MLIR. Its main operation, SConvOp, lowers Linalg convolutions into tiled and packed generic operations through a fully declarative transformation pipeline. The process is guided by a Convolution Slicing Analysis that determines tile sizes and data layout strategies based on input and filter shapes, as well as target architecture parameters. SConvOp handles edge cases by splitting irregular regions and adjusting affine maps where needed. All packing and tiling operations are derived from a parametric set of affine equations, enabling reusable and analyzable transformations. Although functional correctness was the primary goal of this work, the experimental evaluation demonstrates the effectiveness of SConvTransform, achieving good enough performance across different target architectures. Future work will focus on optimizing performance and porting to other target devices. When applied to standard convolution configurations, the generated code achieves up to 60% of peak performance on ARM SME and 67% on Intel AVX512. These results validate the benefit of combining static shape analysis with structured tiling and packing strategies within the MLIR Transform dialect. Furthermore, the modular design of SConvTransform facilitates integration with future extensions, enabling continued optimization of convolution workloads through MLIR's extensible compilation infrastructure.
- Abstract(参考訳): 本稿では、MLIRにおける2次元畳み込みを最適化する操作を提供する変換方言拡張であるSConvTransformを提案する。
メインのオペレーションであるSConvOpは、Linalgの畳み込みを、完全に宣言的な変換パイプラインを通じてタイル付きでパッケージ化されたジェネリックな操作に格下げする。
このプロセスはコンボリューションスライシング分析(Convolution Slicing Analysis)によってガイドされ、入力およびフィルタ形状に基づくタイルサイズとデータレイアウト戦略、およびターゲットアーキテクチャパラメータに基づいて決定される。
SConvOpは不規則な領域を分割し、必要に応じてアフィンマップを調整することでエッジケースを処理する。
すべてのパッキングとタイリング操作はパラメトリックなアフィン方程式の集合から導かれ、再利用可能なおよび解析可能な変換を可能にする。
機能的正当性が本研究の主目的であったが,SConvTransformの有効性を実験的に評価し,異なるターゲットアーキテクチャで十分な性能を達成した。
今後の作業は、パフォーマンスの最適化と、他のターゲットデバイスへの移植に注力する。
標準の畳み込み構成を適用すると、生成されたコードはARM SMEで60%、Intel AVX512で67%のピークパフォーマンスを達成する。
これらの結果は,MLIR変換方言における静的形状解析と構造化タイリングとパッケージング戦略の併用による利点を検証した。
さらに、SConvTransformのモジュール設計は将来の拡張との統合を容易にし、MLIRの拡張可能なコンパイルインフラストラクチャを通じて畳み込みワークロードの継続的な最適化を可能にする。
関連論文リスト
- GPT-FT: An Efficient Automated Feature Transformation Using GPT for Sequence Reconstruction and Performance Enhancement [18.888674282162032]
データ表現を最適化することで、機械学習モデルのパフォーマンスを向上させる上で、特徴変換は重要な役割を果たす。
最近の最先端のアプローチでは、離散探索を学習可能なプロセスに変換する、連続的な埋め込み最適化問題としてこの問題に対処している。
4つのステップで自動的な特徴変換を実現する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-28T14:21:08Z) - ContextFormer: Redefining Efficiency in Semantic Segmentation [48.81126061219231]
畳み込み法は、局所的な依存関係をうまく捉えるが、長距離関係に苦慮する。
ビジョントランスフォーマー(ViT)は、グローバルなコンテキストキャプチャでは優れるが、高い計算要求によって妨げられる。
我々は,リアルタイムセマンティックセグメンテーションの効率,精度,堅牢性のバランスをとるために,CNN と ViT の強みを活用したハイブリッドフレームワーク ContextFormer を提案する。
論文 参考訳(メタデータ) (2025-01-31T16:11:04Z) - Transformer^-1: Input-Adaptive Computation for Resource-Constrained Deployment [3.6219999155937113]
本稿では,動的シナリオ下でのディープラーニングモデルにおける固定計算パラダイムによる資源無駄に対処するためのTransformer$-1$アーキテクチャを提案する。
ベンチマークテストでは,標準的なTransformerと比較してFLOPを42.7%削減し,ピークメモリ使用率を3%削減した。
また,いくつかの自然言語処理タスクの実験を行い,資源効率の大幅な向上を実現した。
論文 参考訳(メタデータ) (2025-01-26T15:31:45Z) - Transforming Image Super-Resolution: A ConvFormer-based Efficient Approach [58.57026686186709]
本稿では, Convolutional Transformer Layer (ConvFormer) を導入し, ConvFormer-based Super-Resolution Network (CFSR) を提案する。
CFSRは畳み込みベースのアプローチとトランスフォーマーベースのアプローチの両方の利点を継承する。
CFSRは計算コストと性能のバランスが最適であることを示す実験である。
論文 参考訳(メタデータ) (2024-01-11T03:08:00Z) - AGD: an Auto-switchable Optimizer using Stepwise Gradient Difference for Preconditioning Matrix [8.975415409709575]
本稿では,2段階の勾配差を対角線要素として利用して,プレコンディショニング行列の設計手法を提案する。
我々は、自然言語コンピュータビジョン(CV)とレコメンデーションシステム(RecSys)の一般化に関するAGDの評価を行った。
論文 参考訳(メタデータ) (2023-12-04T06:20:14Z) - Performance Embeddings: A Similarity-based Approach to Automatic
Performance Optimization [71.69092462147292]
パフォーマンス埋め込みは、アプリケーション間でパフォーマンスチューニングの知識伝達を可能にする。
本研究では, 深層ニューラルネットワーク, 密度およびスパース線形代数合成, および数値風速予測ステンシルのケーススタディにおいて, この伝達チューニング手法を実証する。
論文 参考訳(メタデータ) (2023-03-14T15:51:35Z) - Full Stack Optimization of Transformer Inference: a Survey [58.55475772110702]
トランスフォーマーモデルは広範囲のアプリケーションにまたがって優れた精度を実現する。
最近のTransformerモデルの推測に必要な計算量と帯域幅は、かなり増加しています。
Transformerモデルをより効率的にすることに注力している。
論文 参考訳(メタデータ) (2023-02-27T18:18:13Z) - OneDConv: Generalized Convolution For Transform-Invariant Representation [76.15687106423859]
一般化された一次元畳み込み作用素(OneDConv)を提案する。
計算的かつパラメトリック的に効率的な方法で入力特徴に基づいて、畳み込みカーネルを動的に変換する。
一般的な画像のパフォーマンスを犠牲にすることなく、畳み込みの堅牢性と一般化を改善する。
論文 参考訳(メタデータ) (2022-01-15T07:44:44Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。