論文の概要: Communication Efficient Split Learning of ViTs with Attention-based Double Compression
- arxiv url: http://arxiv.org/abs/2509.15058v1
- Date: Thu, 18 Sep 2025 15:22:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:53.295836
- Title: Communication Efficient Split Learning of ViTs with Attention-based Double Compression
- Title(参考訳): 意識に基づく2重圧縮を用いたVTTのコミュニケーション効率化学習
- Authors: Federico Alvetreti, Jary Pomponi, Paolo Di Lorenzo, Simone Scardapane,
- Abstract要約: 本稿では,Attention-based Double Compression (ADC) という通信効率のよいスプリットラーニング(SL)フレームワークを提案する。
ADCは2つの並列圧縮戦略を取り入れている。
シミュレーションの結果、注意に基づくダブル圧縮は最先端のSLフレームワークよりも優れていた。
- 参考スコア(独自算出の注目度): 14.066010958889718
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper proposes a novel communication-efficient Split Learning (SL) framework, named Attention-based Double Compression (ADC), which reduces the communication overhead required for transmitting intermediate Vision Transformers activations during the SL training process. ADC incorporates two parallel compression strategies. The first one merges samples' activations that are similar, based on the average attention score calculated in the last client layer; this strategy is class-agnostic, meaning that it can also merge samples having different classes, without losing generalization ability nor decreasing final results. The second strategy follows the first and discards the least meaningful tokens, further reducing the communication cost. Combining these strategies not only allows for sending less during the forward pass, but also the gradients are naturally compressed, allowing the whole model to be trained without additional tuning or approximations of the gradients. Simulation results demonstrate that Attention-based Double Compression outperforms state-of-the-art SL frameworks by significantly reducing communication overheads while maintaining high accuracy.
- Abstract(参考訳): 本稿では,ADC(Attention-based Double Compression)と呼ばれる,コミュニケーション効率のよいスプリットラーニング(SL)フレームワークを提案する。
ADCは2つの並列圧縮戦略を取り入れている。
最初の1つは、前回のクライアント層で計算された平均アテンションスコアに基づいて、類似したサンプルのアクティベーションをマージする。
第2の戦略は、第1の戦略に従い、最も意味の薄いトークンを捨て、通信コストをさらに削減する。
これらの戦略を組み合わせることで、前方通過中に送信する時間を短縮できるだけでなく、勾配も自然に圧縮され、勾配のさらなるチューニングや近似なしにモデル全体を訓練することができる。
シミュレーションの結果, 意識に基づくダブル圧縮は, 通信オーバーヘッドを大幅に低減し, 高い精度を維持しながら, 最先端のSLフレームワークよりも優れていた。
関連論文リスト
- Token Compensator: Altering Inference Cost of Vision Transformer without Re-Tuning [63.43972993473501]
視覚変換器(ViT)の訓練と推論を高速化するトークン圧縮
しかし、下流タスクに適用した場合、圧縮度はトレーニングと推論の段階で不一致となる。
本稿では,2段階間の圧縮度を分離するモデル演算フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-13T10:36:43Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - Communication-Efficient Distributed Learning with Local Immediate Error
Compensation [95.6828475028581]
本稿では,局所的即時誤差補償SGD (LIEC-SGD) 最適化アルゴリズムを提案する。
LIEC-SGDは、コンバージェンスレートまたは通信コストのいずれにおいても、以前の研究よりも優れている。
論文 参考訳(メタデータ) (2024-02-19T05:59:09Z) - UniPT: Universal Parallel Tuning for Transfer Learning with Efficient
Parameter and Memory [69.33445217944029]
PETLは、トレーニング済みモデルを下流ドメインに適応するための効果的な戦略である。
最近のPETLは、より価値の高いメモリ効率特性に焦点を当てている。
メモリ効率の良い新しいPETL戦略Universal Parallel Tuning (UniPT)を提案する。
論文 参考訳(メタデータ) (2023-08-28T05:38:43Z) - Communication-Efficient Split Learning via Adaptive Feature-Wise Compression [24.186009110063566]
SplitFCはコミュニケーション効率のよい分割学習フレームワークである。
i)適応的特徴量ドロップアウトと(ii)適応的特徴量量子化の2つの圧縮戦略が組み込まれている。
MNIST、CIFAR-100、CelebAデータセットのシミュレーション結果は、SplitFCが最先端のSLフレームワークより優れていることを示している。
論文 参考訳(メタデータ) (2023-07-20T12:16:26Z) - Convergence and Privacy of Decentralized Nonconvex Optimization with
Gradient Clipping and Communication Compression [31.161598424963934]
本稿では、圧縮を伴う分散非通信最適化における一般的な戦略の役割を理解するための第一歩を踏み出す。
ミニバッチ摂動前後の2種類の勾配クリッピングを提案する。
論文 参考訳(メタデータ) (2023-05-17T02:13:18Z) - Communication-Efficient Federated Learning via Quantized Compressed
Sensing [82.10695943017907]
提案フレームワークは,無線機器の勾配圧縮とパラメータサーバの勾配再構成からなる。
勾配スペーシフィケーションと量子化により、我々の戦略は1ビット勾配圧縮よりも高い圧縮比を達成することができる。
圧縮を行わない場合とほぼ同じ性能を実現できることを示す。
論文 参考訳(メタデータ) (2021-11-30T02:13:54Z) - CD-SGD: Distributed Stochastic Gradient Descent with Compression and
Delay Compensation [3.0786359925181315]
分散計算トレーニングにおいて、通信オーバーヘッドが重要な課題である。
勾配圧縮技術は通信オーバーヘッドの影響を大幅に軽減することができる。
しかし、勾配圧縮は追加コストをもたらし、次のトレーニングイテレーションを遅らせる。
論文 参考訳(メタデータ) (2021-06-21T01:15:12Z) - Distributed Sparse SGD with Majority Voting [5.32836690371986]
分散学習のための分散コミュニケーション戦略として,多数決に基づく疎間コミュニケーション戦略を導入する。
テスト精度を損なうことなく,最大x4000圧縮を達成可能であることを示す。
論文 参考訳(メタデータ) (2020-11-12T17:06:36Z) - Sparse Communication for Training Deep Networks [56.441077560085475]
同期勾配降下(SGD)は、ディープラーニングモデルの分散トレーニングに最もよく用いられる手法である。
このアルゴリズムでは、各ワーカーは他のワーカーと局所勾配を共有し、すべてのワーカーの平均勾配を使ってパラメータを更新する。
いくつかの圧縮スキームについて検討し、3つの重要なパラメータが性能に与える影響を同定する。
論文 参考訳(メタデータ) (2020-09-19T17:28:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。