Fugu-MT 論文翻訳(概要): Axe: A Simple Unified Layout Abstraction for Machine Learning Compilers

論文の概要: Axe: A Simple Unified Layout Abstraction for Machine Learning Compilers

arxiv url: http://arxiv.org/abs/2601.19092v1
Date: Tue, 27 Jan 2026 01:57:29 GMT
ステータス: 翻訳完了
システム内更新日: 2026-01-28 15:26:51.122754
Title: Axe: A Simple Unified Layout Abstraction for Machine Learning Compilers
Title（参考訳）: Axe: マシンラーニングコンパイラのためのシンプルな統一レイアウト抽象化
Authors: Bohan Hou, Hongyi Jin, Guanjie Wang, Jinqi Chen, Yaxing Cai, Lijie Yang, Zihao Ye, Yaoyao Ding, Ruihang Lai, Tianqi Chen,
Abstract要約: アクセ・レイアウト(Axe Layout)は、論理テンソル座標を名前付き軸を通じて多軸物理空間にマッピングする、ハードウェア対応の抽象化である。 Axeはデバイス間分散とオンデバイスレイアウトをまたいだタイリング、シャーディング、レプリケーション、オフセットを統一する。 Axe上に構築した多粒度分散対応DSLとコンパイラを設計し,単一カーネルの集合演算子によるスレッドローカル制御を実現する。
参考スコア（独自算出の注目度）: 7.201295533429293
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Scaling modern deep learning workloads demands coordinated placement of data and compute across device meshes, memory hierarchies, and heterogeneous accelerators. We present Axe Layout, a hardware-aware abstraction that maps logical tensor coordinates to a multi-axis physical space via named axes. Axe unifies tiling, sharding, replication, and offsets across inter-device distribution and on-device layouts, enabling collective primitives to be expressed consistently from device meshes to threads. Building on Axe, we design a multi-granularity, distribution-aware DSL and compiler that composes thread-local control with collective operators in a single kernel. Experiments show that our unified approach can bring performance close to hand-tuned kernels on across latest GPU devices and multi-device environments and accelerator backends.
Abstract（参考訳）: 現代的なディープラーニングワークロードのスケールアップには、デバイスメッシュ、メモリ階層、異種アクセラレータ間のデータの配置と計算の調整が必要だ。 Axe Layoutは、論理テンソル座標を名前付き軸を通して多軸物理空間にマッピングする、ハードウェア対応の抽象化である。 Axeはデバイス間ディストリビューションとオンデバイスレイアウトをまたいだタイリング、シャーディング、レプリケーション、オフセットを統合することで、デバイスメッシュからスレッドへの集合プリミティブの一貫して表現を可能にする。 Axe上に構築した多粒度分散対応DSLとコンパイラを設計し,単一カーネルの集合演算子によるスレッドローカル制御を実現する。実験によると、我々の統一されたアプローチは、最新のGPUデバイス、マルチデバイス環境、アクセラレータバックエンドでハンドチューニングされたカーネルにパフォーマンスを近づける可能性がある。

関連論文リスト

Joint Sensing, Communication, and Computation for Vertical Federated Edge Learning in Edge Perception Network [75.78245138352698]
本稿では,統合されたセンサ,通信,および計算可能なエッジ認識ネットワークについて考察する。複数のエッジデバイスは、無線信号を利用してローカルモデルを更新する環境情報を検知し、エッジサーバは、グローバルモデルトレーニングのためのオーバー・ザ・エア計算によるフィーチャの埋め込みを集約する。まず、無線センシングノイズの存在下での損失関数の劣化とAirComp中の凝集歪みからISCC対応VFEELの収束挙動を解析する。
論文参考訳（メタデータ） (2025-12-03T02:20:58Z)
SLED: A Speculative LLM Decoding Framework for Efficient Edge Serving [7.69991252191073]
acronymは、軽量エッジデバイスが様々なドラフトモデルを使用して、複数の候補トークンをローカルにドラフトできるフレームワークである。単一の共有エッジサーバは、より正確なターゲットモデルを用いてトークンを検証する。 Jetson Orin Nano、Raspberry Pi 4B/5、Nvidia A100 GPUを搭載したエッジサーバを使った最初の実験は、大きなメリットを示している。
論文参考訳（メタデータ） (2025-06-11T04:55:54Z)
Federated Split Learning with Model Pruning and Gradient Quantization in Wireless Networks [7.439160287320074]
Federated split learning (FedSL)は、モデル分割によるエッジデバイスとサーバ間の協調トレーニングを実装している。本稿では,リソース制約のあるエッジデバイスのトレーニング負担を軽減する軽量なFedSL方式を提案する。提案手法の収束性能を定量化するために理論的解析を行う。
論文参考訳（メタデータ） (2024-12-09T11:43:03Z)
SpaceMesh: A Continuous Representation for Learning Manifold Surface Meshes [61.110517195874074]
本稿では,ニューラルネットワークの出力として,複雑な接続性を持つ多様体多角形メッシュを直接生成する手法を提案する。私たちの重要なイノベーションは、各メッシュで連続的な遅延接続空間を定義することです。アプリケーションでは、このアプローチは生成モデルから高品質な出力を得るだけでなく、メッシュ修復のような挑戦的な幾何処理タスクを直接学習することを可能にする。
論文参考訳（メタデータ） (2024-09-30T17:59:03Z)
Distributed Convolutional Neural Network Training on Mobile and Edge Clusters [0.9421843976231371]
機械学習タスクをエッジに完全にローカライズするための最近の取り組みが登場した。これにより、レイテンシの低減とプライバシの向上にメリットがあるが、リソース制約のあるデバイスで作業する必要がある。本稿では,モバイルデバイスとエッジデバイスのみを対象とした分散CNNトレーニングのアプローチについて述べる。
論文参考訳（メタデータ） (2024-09-11T02:44:28Z)
Programming Distributed Collective Processes in the eXchange Calculus [4.220238374662359]
IoT(Internet of Things)は、ほぼあらゆる種類の環境で、高密度でマルチスケールなコンピューティングデバイスのデプロイというビジョンを示唆している。 IoT(Internet of Things)のような最近のトレンドは、ほぼあらゆる種類の環境において、コンピューティングデバイスの密集したマルチスケール展開のビジョンを示唆している。顕著なエンジニアリング上の課題は、そのような計算生態系の集合的適応的な振る舞いをプログラミングすることである。
論文参考訳（メタデータ） (2024-01-20T11:37:44Z)
Efficient Asynchronous Federated Learning with Sparsification and Quantization [55.6801207905772]
フェデレートラーニング(FL)は、生データを転送することなく、機械学習モデルを協調的にトレーニングするために、ますます注目を集めている。 FLは一般的に、モデルトレーニングの全プロセス中にパラメータサーバーと多数のエッジデバイスを利用する。 TEASQ-Fedは、エッジデバイスを利用して、タスクに積極的に適用することで、トレーニングプロセスに非同期に参加する。
論文参考訳（メタデータ） (2023-12-23T07:47:07Z)
Scalable Hierarchical Over-the-Air Federated Learning [3.8798345704175534]
この研究は、干渉とデバイスデータの不均一性の両方を扱うために設計された新しい2段階学習手法を導入する。本稿では,提案アルゴリズムの収束を導出するための包括的数学的アプローチを提案する。干渉とデータの不均一性にもかかわらず、提案アルゴリズムは様々なパラメータに対して高い学習精度を実現する。
論文参考訳（メタデータ） (2022-11-29T12:46:37Z)
Parallel Successive Learning for Dynamic Distributed Model Training over Heterogeneous Wireless Networks [50.68446003616802]
フェデレートラーニング(Federated Learning, FedL)は、一連の無線デバイスにモデルトレーニングを配布する一般的なテクニックとして登場した。我々は,FedLアーキテクチャを3次元に拡張した並列逐次学習(PSL)を開発した。我々の分析は、分散機械学習におけるコールド対ウォームアップモデルの概念とモデル慣性について光を当てている。
論文参考訳（メタデータ） (2022-02-07T05:11:01Z)
SensiX++: Bringing MLOPs and Multi-tenant Model Serving to Sensory Edge Devices [69.1412199244903]
エッジデバイス上でMLOpsを統合した,適応モデル実行のためのマルチテナントランタイムを提案する。 S SensiX++は、高度にモジュール化されたコンポーネント化と、明確な抽象化によるデータ操作の外部化と、システム全体のオーケストレーションのためのドキュメント中心の宣言という、2つの基本原則で運用されている。 SensiX++のさまざまな自動化コンポーネントの全体的なスループットと定量化メリットについて報告し、運用の複雑さを著しく低減し、エッジデバイスへの組み込みモデルのデプロイ、アップグレード、再構成、提供の労力を削減する効果を実証する。
論文参考訳（メタデータ） (2021-09-08T22:06:16Z)
Learning Massive Graph Embeddings on a Single Machine [11.949017733445624]
グラフ埋め込みはグラフの各ノード(および/またはエッジタイプ)に対する固定長ベクトル表現である。大規模グラフの埋め込みを学習するための現在のシステムは、データ移動によってボトルネックとなる。グラフ埋め込みの効率的な学習システムであるgaiusを提案する。
論文参考訳（メタデータ） (2021-01-20T23:17:31Z)
Fully Convolutional Networks for Panoptic Segmentation [91.84686839549488]
そこで我々は,Panoptic FCNという概念的,シンプルで,強力で,効率的なパノプティックセグメンテーションフレームワークを提案する。我々のアプローチは、統一された完全な畳み込みパイプラインにおいて、前景や背景を表現し、予測することを目的としています。 Panoptic FCNは、提案されたカーネルジェネレータで、各オブジェクトインスタンスまたは物カテゴリを特定のカーネル重みにエンコードする。
論文参考訳（メタデータ） (2020-12-01T18:31:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。