論文の概要: Axe: A Simple Unified Layout Abstraction for Machine Learning Compilers
- arxiv url: http://arxiv.org/abs/2601.19092v1
- Date: Tue, 27 Jan 2026 01:57:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-28 15:26:51.122754
- Title: Axe: A Simple Unified Layout Abstraction for Machine Learning Compilers
- Title(参考訳): Axe: マシンラーニングコンパイラのためのシンプルな統一レイアウト抽象化
- Authors: Bohan Hou, Hongyi Jin, Guanjie Wang, Jinqi Chen, Yaxing Cai, Lijie Yang, Zihao Ye, Yaoyao Ding, Ruihang Lai, Tianqi Chen,
- Abstract要約: アクセ・レイアウト(Axe Layout)は、論理テンソル座標を名前付き軸を通じて多軸物理空間にマッピングする、ハードウェア対応の抽象化である。
Axeはデバイス間分散とオンデバイスレイアウトをまたいだタイリング、シャーディング、レプリケーション、オフセットを統一する。
Axe上に構築した多粒度分散対応DSLとコンパイラを設計し,単一カーネルの集合演算子によるスレッドローカル制御を実現する。
- 参考スコア(独自算出の注目度): 7.201295533429293
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scaling modern deep learning workloads demands coordinated placement of data and compute across device meshes, memory hierarchies, and heterogeneous accelerators. We present Axe Layout, a hardware-aware abstraction that maps logical tensor coordinates to a multi-axis physical space via named axes. Axe unifies tiling, sharding, replication, and offsets across inter-device distribution and on-device layouts, enabling collective primitives to be expressed consistently from device meshes to threads. Building on Axe, we design a multi-granularity, distribution-aware DSL and compiler that composes thread-local control with collective operators in a single kernel. Experiments show that our unified approach can bring performance close to hand-tuned kernels on across latest GPU devices and multi-device environments and accelerator backends.
- Abstract(参考訳): 現代的なディープラーニングワークロードのスケールアップには、デバイスメッシュ、メモリ階層、異種アクセラレータ間のデータの配置と計算の調整が必要だ。
Axe Layoutは、論理テンソル座標を名前付き軸を通して多軸物理空間にマッピングする、ハードウェア対応の抽象化である。
Axeはデバイス間ディストリビューションとオンデバイスレイアウトをまたいだタイリング、シャーディング、レプリケーション、オフセットを統合することで、デバイスメッシュからスレッドへの集合プリミティブの一貫して表現を可能にする。
Axe上に構築した多粒度分散対応DSLとコンパイラを設計し,単一カーネルの集合演算子によるスレッドローカル制御を実現する。
実験によると、我々の統一されたアプローチは、最新のGPUデバイス、マルチデバイス環境、アクセラレータバックエンドでハンドチューニングされたカーネルにパフォーマンスを近づける可能性がある。
関連論文リスト
- SLED: A Speculative LLM Decoding Framework for Efficient Edge Serving [7.69991252191073]
acronymは、軽量エッジデバイスが様々なドラフトモデルを使用して、複数の候補トークンをローカルにドラフトできるフレームワークである。
単一の共有エッジサーバは、より正確なターゲットモデルを用いてトークンを検証する。
Jetson Orin Nano、Raspberry Pi 4B/5、Nvidia A100 GPUを搭載したエッジサーバを使った最初の実験は、大きなメリットを示している。
論文 参考訳(メタデータ) (2025-06-11T04:55:54Z) - SpaceMesh: A Continuous Representation for Learning Manifold Surface Meshes [61.110517195874074]
本稿では,ニューラルネットワークの出力として,複雑な接続性を持つ多様体多角形メッシュを直接生成する手法を提案する。
私たちの重要なイノベーションは、各メッシュで連続的な遅延接続空間を定義することです。
アプリケーションでは、このアプローチは生成モデルから高品質な出力を得るだけでなく、メッシュ修復のような挑戦的な幾何処理タスクを直接学習することを可能にする。
論文 参考訳(メタデータ) (2024-09-30T17:59:03Z) - Distributed Convolutional Neural Network Training on Mobile and Edge Clusters [0.9421843976231371]
機械学習タスクをエッジに完全にローカライズするための最近の取り組みが登場した。
これにより、レイテンシの低減とプライバシの向上にメリットがあるが、リソース制約のあるデバイスで作業する必要がある。
本稿では,モバイルデバイスとエッジデバイスのみを対象とした分散CNNトレーニングのアプローチについて述べる。
論文 参考訳(メタデータ) (2024-09-11T02:44:28Z) - Efficient Asynchronous Federated Learning with Sparsification and
Quantization [55.6801207905772]
フェデレートラーニング(FL)は、生データを転送することなく、機械学習モデルを協調的にトレーニングするために、ますます注目を集めている。
FLは一般的に、モデルトレーニングの全プロセス中にパラメータサーバーと多数のエッジデバイスを利用する。
TEASQ-Fedは、エッジデバイスを利用して、タスクに積極的に適用することで、トレーニングプロセスに非同期に参加する。
論文 参考訳(メタデータ) (2023-12-23T07:47:07Z) - Scalable Hierarchical Over-the-Air Federated Learning [3.8798345704175534]
この研究は、干渉とデバイスデータの不均一性の両方を扱うために設計された新しい2段階学習手法を導入する。
本稿では,提案アルゴリズムの収束を導出するための包括的数学的アプローチを提案する。
干渉とデータの不均一性にもかかわらず、提案アルゴリズムは様々なパラメータに対して高い学習精度を実現する。
論文 参考訳(メタデータ) (2022-11-29T12:46:37Z) - Parallel Successive Learning for Dynamic Distributed Model Training over
Heterogeneous Wireless Networks [50.68446003616802]
フェデレートラーニング(Federated Learning, FedL)は、一連の無線デバイスにモデルトレーニングを配布する一般的なテクニックとして登場した。
我々は,FedLアーキテクチャを3次元に拡張した並列逐次学習(PSL)を開発した。
我々の分析は、分散機械学習におけるコールド対ウォームアップモデルの概念とモデル慣性について光を当てている。
論文 参考訳(メタデータ) (2022-02-07T05:11:01Z) - SensiX++: Bringing MLOPs and Multi-tenant Model Serving to Sensory Edge
Devices [69.1412199244903]
エッジデバイス上でMLOpsを統合した,適応モデル実行のためのマルチテナントランタイムを提案する。
S SensiX++は、高度にモジュール化されたコンポーネント化と、明確な抽象化によるデータ操作の外部化と、システム全体のオーケストレーションのためのドキュメント中心の宣言という、2つの基本原則で運用されている。
SensiX++のさまざまな自動化コンポーネントの全体的なスループットと定量化メリットについて報告し、運用の複雑さを著しく低減し、エッジデバイスへの組み込みモデルのデプロイ、アップグレード、再構成、提供の労力を削減する効果を実証する。
論文 参考訳(メタデータ) (2021-09-08T22:06:16Z) - Fully Convolutional Networks for Panoptic Segmentation [91.84686839549488]
そこで我々は,Panoptic FCNという概念的,シンプルで,強力で,効率的なパノプティックセグメンテーションフレームワークを提案する。
我々のアプローチは、統一された完全な畳み込みパイプラインにおいて、前景や背景を表現し、予測することを目的としています。
Panoptic FCNは、提案されたカーネルジェネレータで、各オブジェクトインスタンスまたは物カテゴリを特定のカーネル重みにエンコードする。
論文 参考訳(メタデータ) (2020-12-01T18:31:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。