論文の概要: Decorrelation Speeds Up Vision Transformers
- arxiv url: http://arxiv.org/abs/2510.14657v1
- Date: Thu, 16 Oct 2025 13:13:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.865931
- Title: Decorrelation Speeds Up Vision Transformers
- Title(参考訳): デコリレーションは視覚変換器を高速化する
- Authors: Kieran Carrigg, Rob van Gastel, Melda Yeghaian, Sander Dalm, Faysal Boughorbel, Marcel van Gerven,
- Abstract要約: Masked Autoencoder (MAE) pre-training of vision transformer (ViTs) は低ラベル方式では高い性能を示すが、かなりの計算コストが伴う。
我々は,各層における入力相関を反復的に低減し,収束を加速する最適化手法であるMAEプレトレーニングにDBP(Decorrelated Backpropagation)を統合することで,この問題に対処する。
ADE20KファインチューニングによるImageNet-1K事前トレーニングでは、DBP-MAEはウォールタイム時間を21.1%減らし、二酸化炭素排出量を21.4%減らし、セグメンテーションmIoUを1.1.1改善する。
- 参考スコア(独自算出の注目度): 0.6924349411126935
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Masked Autoencoder (MAE) pre-training of vision transformers (ViTs) yields strong performance in low-label regimes but comes with substantial computational costs, making it impractical in time- and resource-constrained industrial settings. We address this by integrating Decorrelated Backpropagation (DBP) into MAE pre-training, an optimization method that iteratively reduces input correlations at each layer to accelerate convergence. Applied selectively to the encoder, DBP achieves faster pre-training without loss of stability. On ImageNet-1K pre-training with ADE20K fine-tuning, DBP-MAE reduces wall-clock time to baseline performance by 21.1%, lowers carbon emissions by 21.4% and improves segmentation mIoU by 1.1 points. We observe similar gains when pre-training and fine-tuning on proprietary industrial data, confirming the method's applicability in real-world scenarios. These results demonstrate that DBP can reduce training time and energy use while improving downstream performance for large-scale ViT pre-training.
- Abstract(参考訳): Masked Autoencoder (MAE) によるビジョントランスフォーマー (ViTs) の事前トレーニングは、低ラベルのシステムでは高い性能を得られるが、かなりの計算コストが伴うため、時間や資源に制約のある産業環境では実用的ではない。
我々は,各層における入力相関を反復的に低減し,収束を加速する最適化手法であるMAEプレトレーニングにDBP(Decorrelated Backpropagation)を統合することで,この問題に対処する。
エンコーダに選択的に適用すると、DBPは安定性を失うことなくより高速な事前学習を実現する。
ADE20Kの微調整によるImageNet-1Kの事前トレーニングでは、DBP-MAEは壁面時間を21.1%まで短縮し、二酸化炭素排出量を21.4%削減し、セグメンテーションmIoUを1.1ポイント改善した。
実世界のシナリオにおいて,本手法の適用性を確認するため,プロプライエタリな産業データの事前学習や微調整を行う際にも同様の利益が得られた。
これらの結果から,DBPは大規模なViT事前訓練において,下流性能を改善しつつ,トレーニング時間とエネルギー消費を低減できることが示唆された。
関連論文リスト
- IIET: Efficient Numerical Transformer via Implicit Iterative Euler Method [59.02943805284446]
Iterative Implicit Euler Transformer (IIET)
IIADにより、ユーザはパフォーマンス効率のトレードオフを効果的にバランスできる。
E-IIETの変種は、バニラトランスフォーマーよりも平均的なパフォーマンスが1.6%以上向上した。
論文 参考訳(メタデータ) (2025-09-26T15:14:03Z) - Boosted Training of Lightweight Early Exits for Optimizing CNN Image Classification Inference [47.027290803102666]
我々は、分岐学習と推論時データ分布を整合させるシーケンシャルなトレーニング手法を導入する。
ResNet18バックボーンによるCINIC-10データセットの実験では、BTS-EEが非ブートトレーニングを一貫して上回っていることが示されている。
これらの結果は,産業検査,組込みビジョン,UAVに基づく監視などの応用において,実用的効率の向上をもたらす。
論文 参考訳(メタデータ) (2025-09-10T06:47:49Z) - ElasticZO: A Memory-Efficient On-Device Learning with Combined Zeroth- and First-Order Optimization [0.9444784653236158]
完全精度および8ビット量子化深層ニューラルネットワーク(DNN)のためのZO-based On-Device Learning (ODL)法を提案する。
ElasticZOは0.072-1.7%のメモリオーバーヘッドで5.2-9.5%の精度を実現し、微調整タスクと完全なトレーニングを処理できる。
ElasticZO-INT8は、整数クロスエントロピー損失値から量子化されたZO勾配を計算する新しい方法を導入することで、整数演算のみのZOベースのトレーニングを初めて達成した。
論文 参考訳(メタデータ) (2025-01-08T05:25:14Z) - BEExformer: A Fast Inferencing Binarized Transformer with Early Exits [2.7651063843287718]
BAT(Binarized Early Exit Transformer)とEE(Early Exit)を統合した最初の選択型学習ベーストランスであるBEExformerを紹介する。
BATは符号関数に微分可能な二階近似を用い、重みの符号と大きさの両方を捉える勾配を可能にする。
EEメカニズムは、ソフトルーティング損失推定を伴う中間変圧器ブロック間のエントロピーの分数還元に係わる。
これにより、FLOPを52.08%削減して推論を加速し、深層ネットワークに固有の「過剰な」問題を解くことで精度を2.89%向上させる。
論文 参考訳(メタデータ) (2024-12-06T17:58:14Z) - Video Prediction Transformers without Recurrence or Convolution [65.93130697098658]
我々は、Gated Transformerを完全にベースとしたフレームワークであるPredFormerを提案する。
本稿では,映像予測の文脈における3次元注意の包括的分析を行う。
精度と効率の両面で大きな改善は、PredFormerの可能性を強調している。
論文 参考訳(メタデータ) (2024-10-07T03:52:06Z) - Token Compensator: Altering Inference Cost of Vision Transformer without Re-Tuning [63.43972993473501]
視覚変換器(ViT)の訓練と推論を高速化するトークン圧縮
しかし、下流タスクに適用した場合、圧縮度はトレーニングと推論の段階で不一致となる。
本稿では,2段階間の圧縮度を分離するモデル演算フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-13T10:36:43Z) - Faster Image2Video Generation: A Closer Look at CLIP Image Embedding's Impact on Spatio-Temporal Cross-Attentions [27.111140222002653]
本稿では,Stable Video Diffusion (SVD) フレームワークにおけるCLIP画像埋め込みの役割について検討する。
本稿では,SVDアーキテクチャの効率性に最適化されたトレーニング不要のアプローチであるVCUTを紹介する。
VCUTの実装により、ビデオ毎のMAC(Multiple-Accumulate Operations)を最大322T削減し、モデルパラメータを最大50M削減し、ベースラインと比較して20%のレイテンシ削減を実現した。
論文 参考訳(メタデータ) (2024-07-27T08:21:14Z) - HEAT: Hardware-Efficient Automatic Tensor Decomposition for Transformer
Compression [69.36555801766762]
本稿では,分解可能な指数空間を効率的に探索できるハードウェア対応テンソル分解フレームワークHEATを提案する。
ハードウェア対応のBERT変異体は, エネルギー遅延を5.7倍に低減し, 精度が1.1%以下であることを示す。
論文 参考訳(メタデータ) (2022-11-30T05:31:45Z) - Online Convolutional Re-parameterization [51.97831675242173]
2段階のパイプラインであるオンライン畳み込み再パラメータ化(OREPA)は、複雑なトレーニング時間ブロックを単一の畳み込みに絞ることで、巨大なトレーニングオーバーヘッドを低減することを目的としている。
最先端のre-paramモデルと比較して、OREPAはトレーニング時間のメモリコストを約70%削減し、トレーニング速度を約2倍向上させることができる。
また、オブジェクト検出とセマンティックセグメンテーションの実験を行い、下流タスクに一貫した改善を示す。
論文 参考訳(メタデータ) (2022-04-02T09:50:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。