論文の概要: ButterflyViT: 354$\times$ Expert Compression for Edge Vision Transformers
- arxiv url: http://arxiv.org/abs/2603.06746v1
- Date: Fri, 06 Mar 2026 09:59:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:13.017645
- Title: ButterflyViT: 354$\times$ Expert Compression for Edge Vision Transformers
- Title(参考訳): ButterflyViT: 354$\times$ Expert Compression for Edge Vision Transformers
- Authors: Aryan Karmore,
- Abstract要約: 量子化、プルーニング、低ランク因数分解といった現在の圧縮手法は定数因子を減少させるが、スケーリングのボトルネックは未解決のままである。
独立重み行列ではなく、統一された共有量子化基板の幾何学的配向として専門家を扱う方法であるButterflyViTを紹介する。
CIFAR-100上の画像分類タスク全体にわたって、ButterflyViTは、無視できる精度の損失を持つ64人の専門家に対して、354$times$のメモリ削減を達成した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deploying sparse Mixture of Experts(MoE) Vision Transformers remains a challenge due to linear expert memory scaling. Linear memory scaling stores $N$ independent expert weight matrices requiring $\mathcal{O}(N_E \cdot d^2)$ memory, which exceeds edge devices memory budget. Current compression methods like quantization, pruning and low-rank factorization reduce constant factors but leave the scaling bottleneck unresolved. We introduce ButterflyViT, a method that treats experts not as independent weight matrices but as geometric reorientations of a unified shared quantized substrate. Diversity among experts arises from viewing different angles of shared capacity, not from redundant storage. By applying learned rotations to a shared ternary prototype, each expert yields $\mathcal{O}(d_{\text{model}} \cdot d_{\text{ff}} + N_E \cdot n_\ell \cdot d)$ memory which is sub-linear in the number of experts. To address the unique challenges of vision, a spatial smoothness regulariser is introduced that penalises routing irregularities between adjacent patch tokens, turning patch correlation into a training signal. Across image classification tasks on CIFAR-100, ButterflyViT achieves 354$\times$ memory reduction at 64 experts with negligible accuracy loss. ButterflyViT allows multiple experts to fit on edge-constrained devices showing that geometric parameterization breaks linear scaling.
- Abstract(参考訳): スパース・ミックス・オブ・エキスパート(MoE)ビジョン・トランスフォーマーのデプロイは、リニア・エキスパート・メモリ・スケーリングのため、依然として課題である。
線形メモリスケーリングは、エッジデバイスのメモリ予算を超える$\mathcal{O}(N_E \cdot d^2)$メモリを必要とする独立した専門家の重量行列を$N$に格納する。
量子化、プルーニング、低ランク因数分解といった現在の圧縮手法は定数因子を減少させるが、スケーリングのボトルネックは未解決のままである。
独立重み行列ではなく、統一された共有量子化基板の幾何学的配向として専門家を扱う方法であるButterflyViTを紹介する。
専門家の多様性は、冗長なストレージからではなく、共有容量の異なる角度を見ることから生まれる。
学習した回転を共有3次プロトタイプに適用することにより、各専門家は、エキスパートの数でサブ線形である$\mathcal{O}(d_{\text{model}} \cdot d_{\text{ff}} + N_E \cdot n_\ell \cdot d)$メモリを得る。
視覚の独特な課題に対処するため、近接するパッチトークン間の不規則性を解析し、パッチ相関をトレーニング信号に変換する空間滑らか度正規化器が導入された。
CIFAR-100上の画像分類タスク全体にわたって、ButterflyViTは、無視できる精度の損失を持つ64人の専門家に対して、354$\times$メモリ削減を達成した。
ButterflyViTは、幾何学的パラメータ化が線形スケーリングを損なうことを示すエッジ制約デバイスに複数の専門家が適合することができる。
関連論文リスト
- Memory Caching: RNNs with Growing Memory [56.25483647131372]
メモリ状態(隠された状態)のチェックポイントをキャッシュすることで、リカレントモデルを強化する技術であるメモリキャッシュ(MC)を導入する。
我々は,ゲートアグリゲーションとスパース選択機構を含むMCの4つの変種を提案し,それらが線形メモリモジュールおよび深部メモリモジュールに与える影響について議論する。
その結果,トランスフォーマーの精度は高いが,我々のMC変種は競争性能を示し,トランスフォーマーとのギャップを埋め,最先端のリカレントモデルよりも優れた性能を示した。
論文 参考訳(メタデータ) (2026-02-27T18:53:41Z) - ButterflyMoE: Sub-Linear Ternary Experts via Structured Butterfly Orbits [0.0]
量子化、プルーニング、低ランク因数分解といった現在の圧縮手法は定数因子を減少させるが、スケーリングのボトルネックは未解決のままである。
独立質量行列ではなく、統一量子化基板の幾何学的配向として専門家を扱う手法であるButterflyMoEを紹介する。
言語モデリングのベンチマーク全体で、ButterflyMoEは256のエキスパートで150$times$のメモリ削減を達成した。
論文 参考訳(メタデータ) (2026-01-20T03:39:33Z) - ButterflyQuant: Ultra-low-bit LLM Quantization through Learnable Orthogonal Butterfly Transforms [21.010238822100135]
大きな言語モデルは巨大なメモリフットプリントを必要とし、コンシューマハードウェアへのデプロイを著しく制限する。
量子化は低い数値精度でメモリを減少させるが、極端な2ビット量子化は、アクティベーションの異常値による破滅的な性能損失に悩まされる。
本研究では,アダマール回転を学習可能なバタフライ変換に置き換えるバタフライ量子化法を提案する。
論文 参考訳(メタデータ) (2025-09-11T17:59:51Z) - Transformers as Support Vector Machines [54.642793677472724]
自己アテンションの最適化幾何と厳密なSVM問題との間には,形式的等価性を確立する。
勾配降下に最適化された1層変圧器の暗黙バイアスを特徴付ける。
これらの発見は、最適なトークンを分離し選択するSVMの階層としてのトランスフォーマーの解釈を刺激していると信じている。
論文 参考訳(メタデータ) (2023-08-31T17:57:50Z) - Sketchy: Memory-efficient Adaptive Regularization with Frequent
Directions [22.09320263962004]
ディープラーニング(DL)学習タスクにおけるKronecker-factored gradient covariance matrixのスペクトルは、小さなリード固有空間に集中している。
本稿では,行列プレコンディショナを維持するためのメモリと計算要求を低減させる汎用的手法について述べる。
ShampooやAdamと競合する手法で、第2の瞬間を追跡するにはサブ線形メモリしか必要ありません。
論文 参考訳(メタデータ) (2023-02-07T21:50:06Z) - Softmax-free Linear Transformers [90.83157268265654]
視覚変換器(ViT)は、視覚知覚タスクの最先端を推し進めている。
既存の手法は理論的に欠陥があるか、視覚認識に経験的に効果がないかのいずれかである。
我々はSoftmax-Free Transformers (SOFT) のファミリーを提案する。
論文 参考訳(メタデータ) (2022-07-05T03:08:27Z) - Coarse-to-Fine Sparse Transformer for Hyperspectral Image Reconstruction [138.04956118993934]
本稿では, サース・トゥ・ファインス・スパース・トランス (CST) を用いた新しいトランス方式を提案する。
HSI再構成のための深層学習にHSI空間を埋め込んだCST
特に,CSTは,提案したスペクトル認識スクリーニング機構(SASM)を粗いパッチ選択に使用し,選択したパッチを,細かなピクセルクラスタリングと自己相似性キャプチャのために,カスタマイズしたスペクトル集約ハッシュ型マルチヘッド自己アテンション(SAH-MSA)に入力する。
論文 参考訳(メタデータ) (2022-03-09T16:17:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。