Fugu-MT 論文翻訳(概要): Mask-Encoded Sparsification: Mitigating Biased Gradients in Communication-Efficient Split Learning

論文の概要: Mask-Encoded Sparsification: Mitigating Biased Gradients in Communication-Efficient Split Learning

arxiv url: http://arxiv.org/abs/2408.13787v3
Date: Fri, 27 Sep 2024 03:07:05 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-08 05:15:13.465279
Title: Mask-Encoded Sparsification: Mitigating Biased Gradients in Communication-Efficient Split Learning
Title（参考訳）: Mask-Encoded Sparsification:コミュニケーション効率の良いスプリット学習におけるバイアス付き勾配の緩和
Authors: Wenxuan Zhou, Zhihao Qu, Shen-Huan Lyu, Miao Cai, Baoliu Ye,
Abstract要約: 本稿では,スプリットラーニング(SL)シナリオにおいて,高い圧縮率を達成するために設計された新しいフレームワークを提案する。本研究は, SL内の特徴写像の圧縮が, 収束率に負の影響を及ぼすバイアス勾配をもたらすことを示す。我々は、時間的複雑さの順序を増大させることなく、スペーシフィケーションエラーを補うために、狭いビット幅の符号化マスクを用いる。
参考スコア（独自算出の注目度）: 15.78336840511033
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper introduces a novel framework designed to achieve a high compression ratio in Split Learning (SL) scenarios where resource-constrained devices are involved in large-scale model training. Our investigations demonstrate that compressing feature maps within SL leads to biased gradients that can negatively impact the convergence rates and diminish the generalization capabilities of the resulting models. Our theoretical analysis provides insights into how compression errors critically hinder SL performance, which previous methodologies underestimate. To address these challenges, we employ a narrow bit-width encoded mask to compensate for the sparsification error without increasing the order of time complexity. Supported by rigorous theoretical analysis, our framework significantly reduces compression errors and accelerates the convergence. Extensive experiments also verify that our method outperforms existing solutions regarding training efficiency and communication complexity.
Abstract（参考訳）: 本稿では,資源制約のあるデバイスが大規模モデルトレーニングに関わっている,スプリットラーニング(SL)シナリオにおける高い圧縮比を達成するために設計された,新しいフレームワークを提案する。本研究は, SL内の特徴写像を圧縮することにより, 収束率に悪影響を及ぼし, 結果の一般化能力を低下させるバイアス勾配が生じることを示した。我々の理論的分析は,従来の手法が過小評価していたSL性能を,圧縮誤差が批判的に阻害する方法についての知見を提供する。これらの課題に対処するために、時間的複雑さを増大させることなく、スペーシフィケーションエラーを補うために、狭いビット幅の符号化マスクを用いる。厳密な理論解析により,本フレームワークは圧縮誤差を大幅に低減し,収束を加速する。また,本手法が訓練効率と通信複雑性に関する既存ソリューションより優れていることを検証する。

関連論文リスト

QuantVSR: Low-Bit Post-Training Quantization for Real-World Video Super-Resolution [53.13952833016505]
実世界のビデオ超解像(VSR)のための低ビット量子化モデルを提案する。キャリブレーションデータセットを用いて各レイヤの空間的および時間的複雑さを計測する。我々はFPおよび低ビット分岐を改良し、同時最適化を実現する。
論文参考訳（メタデータ） (2025-08-06T14:35:59Z)
Compressing Chain-of-Thought in LLMs via Step Entropy [12.576398947428988]
Chain-of-Thought (CoT) を用いた大規模言語モデル (LLM) は複雑な推論において優れるが、かなりの冗長性を持つ思考プロセスを生成し、推論コストが増加し効率が低下する。本稿では,ステップエントロピーに基づく新しいCoT圧縮フレームワークを提案する。これは,個々の推論ステップの情報的寄与を定量化し,冗長性を識別する指標である。
論文参考訳（メタデータ） (2025-08-05T11:48:18Z)
Progressive Alignment Degradation Learning for Pansharpening [3.7939736380306552]
深層学習に基づくパンシャーピングにより,高分解能マルチスペクトル画像(HRMS)を効果的に生成できることが示されている。 Waldプロトコルは、人工低解像度データで訓練されたネットワークが、高解像度データでも同じように機能すると仮定する。本稿では,PAlignNetとPDegradeNetという2つのサブネットワーク間の相互イテレーションを用いて,正確な劣化過程を適応的に学習するPADMを提案する。
論文参考訳（メタデータ） (2025-06-25T07:07:32Z)
Contextual Compression Encoding for Large Language Models: A Novel Framework for Multi-Layered Parameter Space Pruning [0.0]
文脈圧縮。 (CCE)はパラメータ分布を動的に再構成する多段符号化機構を導入した。 CCEは言語表現力とコヒーレンスを維持し、テキスト生成や分類タスクの精度を維持した。
論文参考訳（メタデータ） (2025-02-12T11:44:19Z)
Theoretical Guarantees for Low-Rank Compression of Deep Neural Networks [5.582683296425384]
ディープニューラルネットワークは多くのアプリケーションで最先端のパフォーマンスを実現している。低ランク近似技術は、これらのネットワークのサイズと複雑さを減らし、有望な解決策を提供する。我々は、データ駆動の低ランク圧縮のための分析フレームワークを開発した。
論文参考訳（メタデータ） (2025-02-04T23:10:13Z)
CALLIC: Content Adaptive Learning for Lossless Image Compression [64.47244912937204]
CALLICは、学習したロスレス画像圧縮のための新しい最先端(SOTA)を設定する。本稿では,畳み込みゲーティング操作を利用したコンテンツ認識型自己回帰自己保持機構を提案する。エンコーディング中、低ランク行列を用いて深度の畳み込みを含む事前学習層を分解し、レート誘導プログレッシブファインタニング(RPFT)による画像検査にインクリメンタルウェイトを適応させる。推定エントロピーにより下位順にソートされたパッチを徐々に増加させたRPFTファインチューン,学習過程の最適化,適応時間の短縮を実現した。
論文参考訳（メタデータ） (2024-12-23T10:41:18Z)
Content-decoupled Contrastive Learning-based Implicit Degradation Modeling for Blind Image Super-Resolution [33.16889233975723]
急激な劣化モデルに基づくブラインド・スーパーレゾリューション(SR)は、コミュニティで注目を集めている。本稿では,CdCL(Content-decoupled Contrastive Learning-based blind image super- resolution)フレームワークを提案する。
論文参考訳（メタデータ） (2024-08-10T04:51:43Z)
Generalized Nested Latent Variable Models for Lossy Coding applied to Wind Turbine Scenarios [14.48369551534582]
学習に基づくアプローチは、圧縮率と再構成された画質の妥協を最小化する。成功したテクニックは、2レベルネストされた潜伏変数モデル内で機能するディープハイパープライアの導入である。本稿では,マルコフ連鎖構造を持つ一般化Lレベルネスト生成モデルを設計することによって,この概念を拡張した。
論文参考訳（メタデータ） (2024-06-10T11:00:26Z)
Adv-KD: Adversarial Knowledge Distillation for Faster Diffusion Sampling [2.91204440475204]
拡散確率モデル(DPM)は、深層生成モデルの強力なクラスとして登場した。それらは、サンプル生成中にシーケンシャルなデノイングステップに依存している。モデルアーキテクチャに直接位相を分解する新しい手法を提案する。
論文参考訳（メタデータ） (2024-05-31T08:19:44Z)
Improved Quantization Strategies for Managing Heavy-tailed Gradients in Distributed Learning [20.91559450517002]
その結果, 勾配分布は重く, アウトレーヤは圧縮戦略の設計に大きく影響していることがわかった。既存のパラメータ量子化法は、この重み付き特徴が無視されるときに性能劣化を経験する。重み付き勾配勾配に特化して設計された新しい圧縮スキームを導入し, トラルニケーションと量子化を効果的に組み合わせた。
論文参考訳（メタデータ） (2024-02-02T06:14:31Z)
EControl: Fast Distributed Optimization with Compression and Error Control [8.624830915051021]
フィードバック信号の強度を制御できる新しいメカニズムであるEControlを提案する。 EControlは,本手法の素直な実装を緩和し,本研究の成果を裏付けるものである。
論文参考訳（メタデータ） (2023-11-06T10:00:13Z)
Quantize Once, Train Fast: Allreduce-Compatible Compression with Provable Guarantees [53.950234267704]
我々は、全リデュース勾配互換量子化法であるGlobal-QSGDを紹介する。ベースライン量子化法で最大3.51%の分散トレーニングを高速化することを示す。
論文参考訳（メタデータ） (2023-05-29T21:32:15Z)
ScaleCom: Scalable Sparsified Gradient Compression for Communication-Efficient Distributed Training [74.43625662170284]
最先端プラットフォーム上でのDeep Neural Networks(DNN)の大規模分散トレーニングは,通信の厳しい制約が期待できる。本稿では,学習者間の勾配分布の類似性を活用した新しい圧縮手法を提案する。実験により,scalecomのオーバーヘッドは小さく,勾配トラフィックを直接低減し,高い圧縮率(65～400倍)と優れたスケーラビリティ(64名までの学習者,8～12倍のバッチサイズ)を提供する。
論文参考訳（メタデータ） (2021-04-21T02:22:10Z)
Step-Ahead Error Feedback for Distributed Training with Compressed Gradient [99.42912552638168]
集中型分散トレーニングにおける局所的エラーフィードバックによって,新たな"段階的ミスマッチ"問題が発生することを示す。本稿では, 厳密な理論的解析を施した2つの新しい手法, 1) 一歩前進, 2) 誤差平均化を提案する。
論文参考訳（メタデータ） (2020-08-13T11:21:07Z)
Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文参考訳（メタデータ） (2020-06-10T08:22:41Z)
Accelerated Convergence for Counterfactual Learning to Rank [65.63997193915257]
IPS重み付き勾配を持つSGD手法の収束速度は、IPS重みによる大きなばらつきに悩まされることを示す。本稿では,従来のIPS重み付け勾配降下法よりも優れた収束性を有する新しい学習アルゴリズムであるCounterSampleを提案する。我々は、CounterSampleがより早く収束し、理論的な結果と経験的な結果とを補完することを証明する。
論文参考訳（メタデータ） (2020-05-21T12:53:36Z)
Compressing Large Sample Data for Discriminant Analysis [78.12073412066698]
判別分析フレームワーク内での大きなサンプルサイズに起因する計算問題を考察する。線形および二次判別分析のためのトレーニングサンプル数を削減するための新しい圧縮手法を提案する。
論文参考訳（メタデータ） (2020-05-08T05:09:08Z)
Structured Sparsification with Joint Optimization of Group Convolution and Channel Shuffle [117.95823660228537]
本稿では,効率的なネットワーク圧縮のための新しい構造空間分割法を提案する。提案手法は, 畳み込み重みに対する構造的疎度を自動的に誘導する。また,学習可能なチャネルシャッフル機構によるグループ間通信の問題にも対処する。
論文参考訳（メタデータ） (2020-02-19T12:03:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。