論文の概要: CoFormer: Collaborating with Heterogeneous Edge Devices for Scalable Transformer Inference
- arxiv url: http://arxiv.org/abs/2508.20375v1
- Date: Thu, 28 Aug 2025 02:50:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-29 18:12:01.917223
- Title: CoFormer: Collaborating with Heterogeneous Edge Devices for Scalable Transformer Inference
- Title(参考訳): CoFormer: スケーラブルトランスフォーマー推論のための異種エッジデバイスとのコラボレーション
- Authors: Guanyu Xu, Zhiwei Hao, Li Shen, Yong Luo, Fuhui Sun, Xiaoyan Wang, Han Hu, Yonggang Wen,
- Abstract要約: CoFormerは一般的なトランスモデルの協調推論システムである。
CoFormerはエッジデバイス上で16億のパラメータを持つGPT2-XLの効率的な推論を可能にし、メモリ要求を76.3%削減した。
- 参考スコア(独自算出の注目度): 34.693462786320545
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The impressive performance of transformer models has sparked the deployment of intelligent applications on resource-constrained edge devices. However, ensuring high-quality service for real-time edge systems is a significant challenge due to the considerable computational demands and resource requirements of these models. Existing strategies typically either offload transformer computations to other devices or directly deploy compressed models on individual edge devices. These strategies, however, result in either considerable communication overhead or suboptimal trade-offs between accuracy and efficiency. To tackle these challenges, we propose a collaborative inference system for general transformer models, termed CoFormer. The central idea behind CoFormer is to exploit the divisibility and integrability of transformer. An off-the-shelf large transformer can be decomposed into multiple smaller models for distributed inference, and their intermediate results are aggregated to generate the final output. We formulate an optimization problem to minimize both inference latency and accuracy degradation under heterogeneous hardware constraints. DeBo algorithm is proposed to first solve the optimization problem to derive the decomposition policy, and then progressively calibrate decomposed models to restore performance. We demonstrate the capability to support a wide range of transformer models on heterogeneous edge devices, achieving up to 3.1$\times$ inference speedup with large transformer models. Notably, CoFormer enables the efficient inference of GPT2-XL with 1.6 billion parameters on edge devices, reducing memory requirements by 76.3\%. CoFormer can also reduce energy consumption by approximately 40\% while maintaining satisfactory inference performance.
- Abstract(参考訳): トランスフォーマーモデルの印象的なパフォーマンスは、リソース制約のあるエッジデバイスにインテリジェントなアプリケーションをデプロイするきっかけとなった。
しかし、リアルタイムエッジシステムにおける高品質なサービスを保証することは、これらのモデルの相当な計算要求とリソース要求のために大きな課題である。
既存の戦略は通常、トランスフォーマー計算を他のデバイスにオフロードするか、あるいは個々のエッジデバイスに直接圧縮されたモデルをデプロイする。
しかしながら、これらの戦略は、かなりの通信オーバーヘッドまたは精度と効率の間の最適以下のトレードオフをもたらす。
これらの課題に対処するため、我々はCoFormerと呼ばれる一般変圧器モデルのための協調推論システムを提案する。
CoFormerの背後にある中心的な考え方は、トランスフォーマーの可視性と可積分性を活用することである。
オフザシェルフの大変圧器は分散推論のために複数の小さなモデルに分解でき、その中間結果を集約して最終的な出力を生成する。
我々は、不均一なハードウェア制約下での推論遅延と精度劣化を最小化する最適化問題を定式化する。
DeBoアルゴリズムは、まず、分解ポリシーを導出する最適化問題を解くために提案され、次に分解されたモデルを段階的に校正して性能を回復する。
我々は、異種エッジデバイス上で広範囲のトランスフォーマーモデルをサポートする能力を示し、大きなトランスフォーマーモデルで最大3.1$\times$推論スピードアップを達成する。
特にCoFormerは、エッジデバイス上で16億のパラメータを持つGPT2-XLの効率的な推論を可能にし、メモリ要求を76.3\%削減した。
CoFormerは、良好な推論性能を維持しながら、エネルギー消費を約40%削減することができる。
関連論文リスト
- PRISM: Distributed Inference for Foundation Models at Edge [73.54372283220444]
PRISMは、エッジデバイス上での分散トランスフォーマー推論のための通信効率と計算アウェア戦略である。
ViT,BERT,GPT-2のPRISMを多種多様なデータセットで評価した。
論文 参考訳(メタデータ) (2025-07-16T11:25:03Z) - Atleus: Accelerating Transformers on the Edge Enabled by 3D Heterogeneous Manycore Architectures [18.355570259898]
Atleusと呼ばれる3次元ヘテロジニアスアーキテクチャの設計を提案する。
Atleusには、トランスフォーマーモデルを加速するために特別に最適化された異種コンピューティングリソースが組み込まれている。
Atleusは, 性能およびエネルギー効率の点で, 既存の最先端技術よりも56倍, 64.5倍高い性能を示した。
論文 参考訳(メタデータ) (2025-01-16T15:11:33Z) - Binary Event-Driven Spiking Transformer [36.815359983551986]
トランスフォーマーベースのスパイキングニューラルネットワーク(SNN)は、イベント駆動型自己注意パラダイムを導入している。
本稿では,2値イベント駆動型スパイキング変換器,BESTformerを提案する。
BESTformerは、バイナライゼーションの限られた表現能力のため、完全な精度で性能が低下する。
論文 参考訳(メタデータ) (2025-01-10T12:00:11Z) - PearSAN: A Machine Learning Method for Inverse Design using Pearson Correlated Surrogate Annealing [66.27103948750306]
PearSANは、大きな設計空間を持つ逆設計問題に適用可能な機械学習支援最適化アルゴリズムである。
ピアソン相関代理モデルを用いて、真の設計計量のメリットの図形を予測する。
最先端の最大設計効率は97%で、少なくとも以前の方法よりも桁違いに高速である。
論文 参考訳(メタデータ) (2024-12-26T17:02:19Z) - Co-Designing Binarized Transformer and Hardware Accelerator for Efficient End-to-End Edge Deployment [3.391499691517567]
トランスフォーマーモデルはAIタスクに革命をもたらしたが、その大きなサイズはリソース制約やレイテンシクリティカルなエッジデバイスへの実際のデプロイメントを妨げる。
本稿では, アルゴリズム, ハードウェア, 共同最適化の3つの側面から, トランスフォーマーのエンドツーエンド配置を効率的に行うための設計手法を提案する。
実験の結果,2.14-49.37倍のスループット向上と3.72-88.53倍のエネルギー効率を実現した。
論文 参考訳(メタデータ) (2024-07-16T12:36:10Z) - Consolidator: Mergeable Adapter with Grouped Connections for Visual
Adaptation [53.835365470800916]
視覚変換器の知識を効率よく効果的に伝達する方法を示す。
調整可能なパラメータの小さなセットを追加して,事前学習モデルを変更するコンソリケータを提案する。
我々のコンソリエータは、0.35%のパラメータで完全な微調整よりも最大7.56の精度で到達できる。
論文 参考訳(メタデータ) (2023-04-30T23:59:02Z) - TransCODE: Co-design of Transformers and Accelerators for Efficient
Training and Inference [6.0093441900032465]
本稿では,アクセラレータの設計空間におけるトランスフォーマー推論とトレーニングをシミュレートするフレームワークを提案する。
我々はこのシミュレータとTransCODEと呼ばれる共同設計手法を併用して最適性能のモデルを得る。
得られた変圧器・加速器対は、最先端の対よりも0.3%高い精度を達成する。
論文 参考訳(メタデータ) (2023-03-27T02:45:18Z) - Full Stack Optimization of Transformer Inference: a Survey [58.55475772110702]
トランスフォーマーモデルは広範囲のアプリケーションにまたがって優れた精度を実現する。
最近のTransformerモデルの推測に必要な計算量と帯域幅は、かなり増加しています。
Transformerモデルをより効率的にすることに注力している。
論文 参考訳(メタデータ) (2023-02-27T18:18:13Z) - HEAT: Hardware-Efficient Automatic Tensor Decomposition for Transformer
Compression [69.36555801766762]
本稿では,分解可能な指数空間を効率的に探索できるハードウェア対応テンソル分解フレームワークHEATを提案する。
ハードウェア対応のBERT変異体は, エネルギー遅延を5.7倍に低減し, 精度が1.1%以下であることを示す。
論文 参考訳(メタデータ) (2022-11-30T05:31:45Z) - EdgeFormer: A Parameter-Efficient Transformer for On-Device Seq2seq
Generation [104.44478403427881]
EdgeFormerは、オンデバイスセq2seq生成のためのエンコーダデコーダアーキテクチャのパラメータ効率の変換器である。
本研究は,機械翻訳と文法誤り訂正という2つの実用的なオンデバイスセク2seqタスクの実験を行う。
論文 参考訳(メタデータ) (2022-02-16T10:10:00Z) - Accelerating Framework of Transformer by Hardware Design and Model
Compression Co-Optimization [3.5862583389869487]
巨大なパラメータを持つ最先端のTransformerベースのモデルは、リソースに制約のある組み込みデバイスに適応することが困難である。
本稿では,Transformerのデプロイメント課題に対処するアルゴリズムとハードウェアクローズドループアクセラレーションフレームワークを提案する。
本稿では,CPU,GPU,FPGAと比較して37倍,1.9倍,1.7倍の高速化を実現している。
論文 参考訳(メタデータ) (2021-10-19T14:57:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。