論文の概要: Profiling-Driven Adaptive Distributed Transformer Inference on Embedded Edge Deployment
- arxiv url: http://arxiv.org/abs/2605.25682v1
- Date: Mon, 25 May 2026 10:39:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:19.741016
- Title: Profiling-Driven Adaptive Distributed Transformer Inference on Embedded Edge Deployment
- Title(参考訳): 組込みエッジ配置におけるプロファイリング駆動適応型分散トランスフォーマー推論
- Authors: Muhammad Azlan Qazi, Alexandros Iosifidis, Qi Zhang,
- Abstract要約: 本稿では、WiFi経由で接続されたNVIDIA Jetson Orin Nanoデバイスに関するプロトタイプ研究を行う。
主な発見は、主なボトルネックは、ネットワーク帯域幅だけでなく、通信中のCPU-GPUステージングである。
実験によると、この戦略はフルテンソル交換と比較して遅延を65%-77%減らし、エネルギー消費を34%-52%減らしている。
- 参考スコア(独自算出の注目度): 60.442064966340524
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Distributing Transformer inference across embedded edge devices can alleviate individual memory and compute constraints, yet practical benefits on real hardware remain unclear: prior work relies largely on simulations that overlook hardware-specific communication overheads. We present a hardware prototype study on NVIDIA Jetson Orin Nano devices connected over WiFi. Our key finding is that the dominant bottleneck is not just network bandwidth but also the CPU-GPU staging during communication. Because Jetson's integrated GPU architecture lacks the PCIe/NVLink pathway that NCCL requires, all inter-device data communication should be routed through GLOO and staged in CPU memory; an overhead that scales with communication data volume and makes full-tensor exchange slower than single-device inference across the batch sizes for medium sized models such as ViT. We therefore evaluate Prism by combining Segment Means compression with lightweight offline profiling to adaptively select between local and distributed execution at runtime. Experiments show that this strategy reduces latency by 65%-77% and energy consumption by 34%-52% relative to full-tensor exchange in static distributed execution setup, demonstrating that profiling-driven adaptation is essential for practical distributed Transformer inference on embedded hardware.
- Abstract(参考訳): 組み込みエッジデバイス間でのTransformer推論の分散は、個々のメモリと計算の制約を軽減することができるが、実際のハードウェアに対する実践的なメリットは依然として不明である。
WiFi経由で接続されたNVIDIA Jetson Orin Nanoデバイスに関するハードウェアプロトタイプ研究について述べる。
私たちの重要な発見は、主なボトルネックは、ネットワーク帯域幅だけでなく、通信中のCPU-GPUステージングであることです。
JetsonのGPUアーキテクチャは、NCCLが要求するPCIe/NVLinkパスを欠いているため、すべてのデバイス間データ通信はGLOOを介してルーティングされ、CPUメモリで実行されるべきである。
そこで我々は,Segment Means圧縮と軽量オフラインプロファイリングを組み合わせることでPrismを評価し,実行時のローカル実行と分散実行を適応的に選択する。
実験により、この戦略は、静的分散実行セットアップにおけるフルテンソル交換と比較して、レイテンシを65%-77%削減し、エネルギー消費量を34%-52%削減することを示し、プロファイリング駆動適応が組み込みハードウェア上の実用的な分散トランスフォーマー推論に不可欠であることを実証した。
関連論文リスト
- WISV: Wireless-Informed Semantic Verification for Distributed Speculative Decoding in Device-Edge LLM Inference [56.297697169678095]
WISV(Wireless-Informed Semantic Verification)は、分散投機的復号化フレームワークである。
WISVは最大60.8%の許容長の増加、37.3%の対話ラウンドの削減、31.4%のエンドツーエンドレイテンシの改善を実現している。
NVIDIA Jetson AGX OrinとA40搭載サーバからなるハードウェアテストベッド上でWISVを検証する。
論文 参考訳(メタデータ) (2026-04-20T01:29:56Z) - EdgeDiT: Hardware-Aware Diffusion Transformers for Efficient On-Device Image Generation [1.0439136407307046]
モバイルニューラルプロセッシングユニット(NPU)に特化して開発されたハードウェア効率の良い生成変換器であるEdgeDiTを紹介する。
ハードウェア対応の最適化フレームワークを利用することで、特にモバイルデータフローに対して課税されるDiTバックボーン内の構造的冗長性を識別し、具現化する。
提案手法では,パラメータの20~30%の削減,FLOPの36~46%の削減,デバイス上のレイテンシの1.65倍の削減を実現した。
論文 参考訳(メタデータ) (2026-03-30T13:14:30Z) - Tiny, On-Device Decision Makers with the MiniConv Library [0.0]
強化学習(RL)は大きな成果を上げているが、リソース制約されたエッジデバイスに視覚ポリシーをデプロイすることは依然として困難である。
本稿では,小さなオンデバイスエンコーダが各観測結果をリモートポリシヘッドに送信するコンパクトな特徴テンソルに変換する分割政治アーキテクチャを提案する。
我々は,NVIDIA Jetson Nano,Raspberry Pi 4B,Raspberry Pi Zero 2 Wを対象とし,学習結果の報告,持続負荷下でのデバイス上での実行動作,帯域幅形成時のエンドツーエンド決定レイテンシとスケーラビリティの測定を行った。
論文 参考訳(メタデータ) (2025-12-17T00:53:30Z) - CollaPipe: Adaptive Segment-Optimized Pipeline Parallelism for Collaborative LLM Training in Heterogeneous Edge Networks [57.95170323315603]
CollaPipeは、コラボレーティブパイプライン並列性とフェデレーションアグリゲーションを統合し、自己進化型ネットワークをサポートする分散学習フレームワークである。
CollaPipeでは、エンコーダ部分は可変サイズのセグメントに適応的に分割され、パイプライン並列トレーニングのためにモバイルデバイスにデプロイされ、デコーダは生成タスクを処理するためにエッジサーバにデプロイされる。
トレーニング効率を向上させるために,モデルセグメント,マイクロバッチ,帯域幅,送信電力を適応的に割り当てる共同最適化問題を定式化する。
論文 参考訳(メタデータ) (2025-09-24T07:54:01Z) - Communication-Efficient Multi-Device Inference Acceleration for Transformer Models [19.938589623698338]
トランスフォーマーモデルは、多くのAIアプリケーションを動かすが、高い推論遅延に悩まされ、リアルタイム設定での使用が制限される。
本稿では,トランスフォーマー推論を高速化する通信効率の高いフレームワークであるASTRAと,デバイス間通信の最小化を目的としたMixed-Precision Attention機構を提案する。
ASTRAはシングルデバイス推論で最大2.64倍のスピードアップを実現し、最先端のマルチデバイス推論で最大15.25倍のスピードアップを実現し、帯域幅は10Mbpsである。
論文 参考訳(メタデータ) (2025-05-25T22:16:59Z) - Dovetail: A CPU/GPU Heterogeneous Speculative Decoding for LLM inference [31.901686946969786]
Dovetailは異種デバイスの相補的特性と投機的復号化の利点を利用する推論手法である。
Dovetailは、異なるデバイス間で1.79xから10.1xまでの推論スピードアップを実現し、生成したテキストの一貫性と安定性を維持している。
論文 参考訳(メタデータ) (2024-12-25T15:45:18Z) - Communication-Efficient Graph Neural Networks with Probabilistic
Neighborhood Expansion Analysis and Caching [59.8522166385372]
大規模グラフ上でのグラフニューラルネットワーク(GNN)のトレーニングと推論は、GNNの登場以来活発に研究されている。
本稿では,分散環境におけるノードワイドサンプリングを用いたGNNによるミニバッチ学習と推論について述べる。
分割された特徴データを扱うために,従来のSALIENTシステムを拡張したSALIENT++を提案する。
論文 参考訳(メタデータ) (2023-05-04T21:04:01Z) - MAPLE-Edge: A Runtime Latency Predictor for Edge Devices [80.01591186546793]
汎用ハードウェアの最先端遅延予測器であるMAPLEのエッジデバイス指向拡張であるMAPLE-Edgeを提案する。
MAPLEと比較して、MAPLE-Edgeはより小さなCPUパフォーマンスカウンタを使用して、ランタイムとターゲットデバイスプラットフォームを記述することができる。
また、共通ランタイムを共有するデバイスプール上でトレーニングを行うMAPLEとは異なり、MAPLE-Edgeは実行時に効果的に一般化できることを示す。
論文 参考訳(メタデータ) (2022-04-27T14:00:48Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。