論文の概要: Going Beyond the Edge: Distributed Inference of Transformer Models on Ultra-Low-Power Wireless Devices
- arxiv url: http://arxiv.org/abs/2605.15694v2
- Date: Mon, 18 May 2026 07:43:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:46.188102
- Title: Going Beyond the Edge: Distributed Inference of Transformer Models on Ultra-Low-Power Wireless Devices
- Title(参考訳): エッジを超えて行く:超低消費電力無線デバイス上でのトランスフォーマーモデルの分散推定
- Authors: Alexander Gräfe, Ding Huo, Vincent de Bakker, Johannes Berger, Marco Zimmerling, Sebastian Trimpe,
- Abstract要約: 超低消費電力無線デバイス上での分散トランスフォーマー推論のためのフレームワークであるCATSを提案する。
CatSは通信対応の分散トランスフォーマー推論スキームで、トランスフォーマーのパーティショニング、無線通信、トレーニングを共設計している。
CATSが超低消費電力無線デバイスに分散トランスフォーマー推論を初めて導入したことを示し、最大16台のデバイスにデプロイすることで、単一のデバイスで実行できるものよりも最大14倍大きなトランスフォーマーモデルを共同で実行する。
- 参考スコア(独自算出の注目度): 44.050216698694165
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Transformer models are rapidly becoming a cornerstone of modern Internet of Things (IoT) applications, yet their computational and memory demands far exceed the capabilities of a single typical ultra-low-power IoT device. We present CATS, a framework for distributed transformer inference on ultra-low-power wireless devices, enabling multiple devices to collaboratively execute models far larger than what a single device can sustain. At its core, CATS is a communication-aware distributed transformer inference scheme co-designed across transformer partitioning, wireless communication and training. It employs SomeGather, a new pruned communication primitive that selectively broadcasts activation columns to reduce communication bandwidth and RAM usage without sacrificing model accuracy. Building on SomeGather, we design a partitioning method that exploits this primitive for efficient model parallelism. To cope with unreliable wireless communication, CATS employs message-dropout during training, which mimics packet losses and yields models that are robust to message loss during inference. In real-world experiments, we show that CATS brings distributed transformer inference to ultra-low-power wireless devices for the first time, with deployments on up to 16 devices that collaboratively execute transformer models up to 14 times larger than what a single device can run.
- Abstract(参考訳): トランスフォーマーモデルは、現代のモノのインターネット(IoT)アプリケーションの基盤として急速になってきているが、その計算とメモリ要求は、典型的な1つの超低消費電力IoTデバイスの能力を超えている。
超低消費電力無線デバイス上での分散トランスフォーマー推論のためのフレームワークであるCATSを提案する。
CATSの中核は、トランスパーティショニング、無線通信、トレーニングを共設計した、通信対応の分散トランスフォーマー推論スキームである。
SomeGatherは、アクティベーションカラムを選択的にブロードキャストして、モデルの精度を犠牲にすることなく、通信帯域幅とRAM使用量を減らす、新しいプルーンド通信プリミティブである。
SomeGatherをベースとして、このプリミティブを効率的なモデル並列性に活用するパーティショニング手法を設計する。
信頼性の低い無線通信に対処するため、CATSはトレーニング中にメッセージドロップアウトを使用し、パケット損失を模倣し、推論中にメッセージ損失に対して堅牢なモデルを生成する。
実世界の実験では、CATSが超低消費電力の無線デバイスに分散トランスフォーマー推論を初めて導入し、最大16台のデバイスにデプロイすることで、単一のデバイスで実行できるものよりも最大14倍大きなトランスフォーマーモデルを共同で実行できることが示されている。
関連論文リスト
- SnapGen++: Unleashing Diffusion Transformers for Efficient High-Fidelity Image Generation on Edge Devices [72.0937240883345]
拡散変圧器(DiT)の最近の進歩は、画像生成の新たな標準を定めているが、デバイス上での展開には実用的ではない。
本稿では,厳密なリソース制約の下でトランスフォーマーレベルの生成品質を実現するモバイルおよびエッジデバイスに適した効率的なDiTフレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-13T07:46:46Z) - CollaPipe: Adaptive Segment-Optimized Pipeline Parallelism for Collaborative LLM Training in Heterogeneous Edge Networks [57.95170323315603]
CollaPipeは、コラボレーティブパイプライン並列性とフェデレーションアグリゲーションを統合し、自己進化型ネットワークをサポートする分散学習フレームワークである。
CollaPipeでは、エンコーダ部分は可変サイズのセグメントに適応的に分割され、パイプライン並列トレーニングのためにモバイルデバイスにデプロイされ、デコーダは生成タスクを処理するためにエッジサーバにデプロイされる。
トレーニング効率を向上させるために,モデルセグメント,マイクロバッチ,帯域幅,送信電力を適応的に割り当てる共同最適化問題を定式化する。
論文 参考訳(メタデータ) (2025-09-24T07:54:01Z) - Chain-of-Thought Enhanced Shallow Transformers for Wireless Symbol Detection [14.363929799618283]
無線シンボル検出のためのCoT拡張浅層変圧器フレームワークCHOOSE(CHain Of thOught Symbol dEtection)を提案する。
隠れ空間内に自己回帰潜在推論ステップを導入することで、CHOOSEは浅いモデルの推論能力を大幅に改善する。
実験により,本手法は従来の浅層変圧器よりも優れ,深部変圧器に匹敵する性能が得られることが示された。
論文 参考訳(メタデータ) (2025-06-26T08:41:45Z) - Communication-Efficient Multi-Device Inference Acceleration for Transformer Models [19.938589623698338]
トランスフォーマーモデルは、多くのAIアプリケーションを動かすが、高い推論遅延に悩まされ、リアルタイム設定での使用が制限される。
本稿では,トランスフォーマー推論を高速化する通信効率の高いフレームワークであるASTRAと,デバイス間通信の最小化を目的としたMixed-Precision Attention機構を提案する。
ASTRAはシングルデバイス推論で最大2.64倍のスピードアップを実現し、最先端のマルチデバイス推論で最大15.25倍のスピードアップを実現し、帯域幅は10Mbpsである。
論文 参考訳(メタデータ) (2025-05-25T22:16:59Z) - Communication-Efficient Federated Learning by Quantized Variance Reduction for Heterogeneous Wireless Edge Networks [55.467288506826755]
フェデレーテッド・ラーニング(FL)は、無線エッジネットワークにおけるローカル・プライバシ・アウェア・コラボレーティブ・モデルトレーニングの有効なソリューションとして認識されている。
既存の通信効率の高いFLアルゴリズムは、デバイス間の大きなばらつきを低減できない。
本稿では,高度分散還元方式に依存する新しい通信効率FLアルゴリズムであるFedQVRを提案する。
論文 参考訳(メタデータ) (2025-01-20T04:26:21Z) - Neuromorphic Wireless Split Computing with Multi-Level Spikes [69.73249913506042]
ニューロモルフィックコンピューティングは、スパイキングニューラルネットワーク(SNN)を使用して推論タスクを実行する。
スパイクニューロン間で交換される各スパイクに小さなペイロードを埋め込むことで、エネルギー消費を増大させることなく推論精度を高めることができる。
分割コンピューティング — SNNを2つのデバイスに分割する — は、有望なソリューションだ。
本稿では,マルチレベルSNNを用いたニューロモルフィック無線分割コンピューティングアーキテクチャの総合的研究について述べる。
論文 参考訳(メタデータ) (2024-11-07T14:08:35Z) - Shrinking the Giant : Quasi-Weightless Transformers for Low Energy Inference [0.30104001512119216]
高速でエネルギー効率のよい推論モデルの構築は、様々なトランスフォーマーベースのアプリケーションを実現するために不可欠である。
拡張有限差分法によりLUTネットワークを直接学習する手法を構築した。
これにより、トランスベースのモデルに対する計算的でエネルギー効率の良い推論ソリューションが実現される。
論文 参考訳(メタデータ) (2024-11-04T05:38:56Z) - Integrating Pre-Trained Language Model with Physical Layer Communications [19.20941153929975]
本稿では、物理層(PHY)通信機能と統合された実用的なオンデバイスAI通信フレームワークを提案する。
我々のフレームワークは、チャネルノイズによるエンドツーエンドトレーニングを取り入れ、レジリエンスを高め、ベクトル量子化変分オートエンコーダ(VQ-VAE)を効率よく堅牢な通信に組み込み、事前学習エンコーダ・デコーダ変換を用いて一般化能力を向上させる。
論文 参考訳(メタデータ) (2024-02-18T17:27:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。