論文の概要: SparseMap: A Sparse Tensor Accelerator Framework Based on Evolution Strategy
- arxiv url: http://arxiv.org/abs/2508.12906v1
- Date: Mon, 18 Aug 2025 13:13:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:11.352685
- Title: SparseMap: A Sparse Tensor Accelerator Framework Based on Evolution Strategy
- Title(参考訳): SparseMap:進化戦略に基づくスパーステンソル加速器フレームワーク
- Authors: Boran Zhao, Haiming Zhai, Zihang Yuan, Hetian Liu, Tian Xia, Wenzhe Zhao, Pengju Ren,
- Abstract要約: 機械学習とビッグデータにおけるスパース計算代数(SpTA)の需要は、様々なスパースアクセラレータの開発を促している。
それまでの作業は、マッピング(例えば、テンソル通信と時間と空間のタイリング)とスパース戦略にのみ焦点をあてていた。
本稿では,SparseMapと呼ばれる,進化戦略に基づくスパースアクセラレータ最適化フレームワークを提案する。
- 参考スコア(独自算出の注目度): 5.687126431324017
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The growing demand for sparse tensor algebra (SpTA) in machine learning and big data has driven the development of various sparse tensor accelerators. However, most existing manually designed accelerators are limited to specific scenarios, and it's time-consuming and challenging to adjust a large number of design factors when scenarios change. Therefore, automating the design of SpTA accelerators is crucial. Nevertheless, previous works focus solely on either mapping (i.e., tiling communication and computation in space and time) or sparse strategy (i.e., bypassing zero elements for efficiency), leading to suboptimal designs due to the lack of comprehensive consideration of both. A unified framework that jointly optimizes both is urgently needed. However, integrating mapping and sparse strategies leads to a combinatorial explosion in the design space(e.g., as large as $O(10^{41})$ for the workload $P_{32 \times 64} \times Q_{64 \times 48} = Z_{32 \times 48}$). This vast search space renders most conventional optimization methods (e.g., particle swarm optimization, reinforcement learning and Monte Carlo tree search) inefficient. To address this challenge, we propose an evolution strategy-based sparse tensor accelerator optimization framework, called SparseMap. SparseMap constructing a more comprehensive design space with the consideration of both mapping and sparse strategy. We introduce a series of enhancements to genetic encoding and evolutionary operators, enabling SparseMap to efficiently explore the vast and diverse design space. We quantitatively compare SparseMap with prior works and classical optimization methods, demonstrating that SparseMap consistently finds superior solutions.
- Abstract(参考訳): 機械学習やビッグデータにおけるスパーステンソル代数(SpTA)の需要が高まっ、スパーステンソルアクセラレータの開発が進められている。
しかし、既存の手動設計のアクセラレータのほとんどは特定のシナリオに限定されており、シナリオが変化すると、多くの設計要因を調整するのに時間がかかり、困難です。
したがって、SpTAアクセラレータの設計を自動化することが重要である。
それにもかかわらず、以前の研究は、マッピング(すなわち、空間と時間におけるタイリング通信と計算)とスパース戦略(すなわち、効率性のためにゼロ要素をバイパスする)にのみ焦点を合わせており、両者の包括的な考慮が欠如しているため、最適でない設計に繋がった。
両方を共同で最適化する統合フレームワークは、緊急に必要である。
しかし、マッピングとスパース戦略の統合は、設計空間(例えば、$O(10^{41})$ の組合せ的爆発を引き起こす(ワークロード$P_{32 \times 64} \times Q_{64 \times 48} = Z_{32 \times 48}$)。
この広大な探索空間は、従来の最適化手法(例えば、粒子群最適化、強化学習、モンテカルロ木探索など)を非効率に行う。
この課題に対処するため、SparseMapと呼ばれる進化戦略に基づくスパーステンソル最適化フレームワークを提案する。
SparseMapは、マッピングとスパース戦略の両方を考慮して、より包括的な設計空間を構築する。
我々は、遺伝的エンコーディングと進化的オペレーターの一連の拡張を導入し、SparseMapが広範で多様なデザイン空間を効率的に探索することを可能にする。
SparseMapを従来の作業方法や古典的な最適化手法と定量的に比較し、SparseMapが常に優れたソリューションを見つけることを示す。
関連論文リスト
- FastMap: Revisiting Dense and Scalable Structure from Motion [26.930994695116198]
我々は,高速さと簡易さに焦点をあてた動き法から,新たなグローバルな構造であるFastMapを提案する。
COLMAPやGLOMAPといった従来の手法は、一致したキーポイントペアの数が大きくなるとスケーラビリティが低下する。
我々は,FastMapが大規模シーンにおけるCOLMAPやGLOMAPよりも高速で,ポーズ精度が同等であることを示す。
論文 参考訳(メタデータ) (2025-05-07T17:56:15Z) - Integrated Hardware Architecture and Device Placement Search [7.620610652090732]
ディープラーニングトレーニングの分散実行には、ハードウェアアクセラレータアーキテクチャとデバイス配置戦略との動的相互作用が含まれる。
これは、最適なアーキテクチャとデバイス配置戦略を決定するための協調最適化を探求する最初の試みである。
提案手法は,最先端のTPUv4とSpotlightアクセラレーター検索フレームワークと比較して,大規模言語モデルにおいて高いスループットを実現する。
論文 参考訳(メタデータ) (2024-07-18T04:02:35Z) - ROAM: memory-efficient large DNN training via optimized operator
ordering and memory layout [8.99065455675796]
本稿では,演算子順序とテンソルメモリレイアウトを最適化したメモリ効率の高い実行計画の導出のために,グラフレベルで動作するROAMを提案する。
実験の結果、ROAMはPytorchと2つの最先端手法と比較して35.7%、13.3%、27.2%の大幅なメモリ削減を実現し、53.7倍の高速化を実現している。
論文 参考訳(メタデータ) (2023-10-30T06:29:21Z) - Efficient Map Sparsification Based on 2D and 3D Discretized Grids [47.22997560184043]
マップが大きくなると、より多くのメモリが必要になり、ローカライゼーションが非効率になる。
以前の地図スペーシフィケーション法は、選択されたランドマークの均一分布を強制するために混合整数計画において二次項を追加する。
本稿では,効率的な線形形式で地図スペーシフィケーションを定式化し,2次元離散格子に基づく一様分布ランドマークを選択する。
論文 参考訳(メタデータ) (2023-03-20T05:49:14Z) - Partitioning Distributed Compute Jobs with Reinforcement Learning and
Graph Neural Networks [58.720142291102135]
大規模な機械学習モデルは、幅広い分野に進歩をもたらしている。
これらのモデルの多くは、単一のマシンでトレーニングするには大きすぎるため、複数のデバイスに分散する必要がある。
スループットやブロッキングレートといったユーザクリティカルな指標に対して,並列化の最大化が準最適であることを示す。
論文 参考訳(メタデータ) (2023-01-31T17:41:07Z) - VeLO: Training Versatile Learned Optimizers by Scaling Up [67.90237498659397]
私たちは、ディープラーニングの成功の背後にある同じスケーリングアプローチを活用して、汎用性を学びます。
私たちは、パラメータの更新を取り込み出力する小さなニューラルネットワークであるディープラーニングのためのインジェクションをトレーニングします。
学習したメタトレーニングコード、関連するトレインテストデータ、およびvelo-code.ioのベースラインを備えた広範なベンチマークスイートをオープンソースとして公開しています。
論文 参考訳(メタデータ) (2022-11-17T18:39:07Z) - Learning to Optimize Permutation Flow Shop Scheduling via Graph-based
Imitation Learning [70.65666982566655]
置換フローショップスケジューリング(PFSS)は製造業で広く使われている。
我々は,より安定かつ正確に収束を加速する専門家主導の模倣学習を通じてモデルを訓練することを提案する。
我々のモデルのネットワークパラメータはわずか37%に減少し、エキスパートソリューションに対する我々のモデルの解のギャップは平均6.8%から1.3%に減少する。
論文 参考訳(メタデータ) (2022-10-31T09:46:26Z) - An Adaptive and Scalable ANN-based Model-Order-Reduction Method for
Large-Scale TO Designs [22.35243726859667]
トポロジ最適化(TO)は、興味のある最適な性能で構造設計を得るための体系的なアプローチを提供する。
ディープラーニングベースのモデルは、プロセスの高速化のために開発されている。
MapNetは、粗いスケールから細かいスケールまでの関心領域をマッピングするニューラルネットワークである。
論文 参考訳(メタデータ) (2022-03-20T10:12:24Z) - An Optimal Transport Perspective on Unpaired Image Super-Resolution [97.24140709634203]
実世界の画像超解像(SR)タスクは、しばしばペア化されたデータセットを持たず、教師付き技術の適用を制限する。
このようなモデルで生じる最適化問題を調査し、2つの驚くべき観測結果を得る。
学習した写像が偏りがあること、すなわち、低解像度画像の分布を高解像度画像に変換するものではないことを実証し、実証的に示す。
論文 参考訳(メタデータ) (2022-02-02T16:21:20Z) - Joint inference and input optimization in equilibrium networks [68.63726855991052]
ディープ均衡モデル(Deep equilibrium model)は、従来のネットワークの深さを予測し、代わりに単一の非線形層の固定点を見つけることによってネットワークの出力を計算するモデルのクラスである。
この2つの設定の間には自然なシナジーがあることが示されています。
この戦略は、生成モデルのトレーニングや、潜時符号の最適化、デノベートやインペインティングといった逆問題に対するトレーニングモデル、対逆トレーニング、勾配に基づくメタラーニングなど、様々なタスクにおいて実証される。
論文 参考訳(メタデータ) (2021-11-25T19:59:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。