論文の概要: Colinearity Decay: Training Quantization-Friendly ViTs with Outlier Decay
- arxiv url: http://arxiv.org/abs/2605.01330v1
- Date: Sat, 02 May 2026 08:49:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.710189
- Title: Colinearity Decay: Training Quantization-Friendly ViTs with Outlier Decay
- Title(参考訳): コリニアリティの低下:量子化フレンドリーなViTのトレーニングとアウトリーチの減少
- Authors: Jin Tong, Guang Liang, Peilin Sun, Jianxin Wu,
- Abstract要約: Colinearity-Decay (CD) はTransformerブロック内の順序行列対の構造正規化器である。
CDは有害なクロスマトリックスアライメントを罰し、アーキテクチャやタスクロスを変更することなく極端なアクティベーションを緩和する。
- 参考スコア(独自算出の注目度): 9.836950534671775
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Low-bit quantization is a practical route for efficiently deploying vision Transformers, yet activation outliers complicate fully quantized deployment. Existing methods either handle quantization post-training or suppress large activations during training; however, aggressively restricting outliers in vision models can lead to a poorer trade-off between full-precision and quantized accuracy. We argue that rather than simply suppressing outliers, the training objective should control the structural amplification that makes them harmful. To this end, we introduce Colinearity-Decay (CD), a structural regularizer for ordered matrix pairs within Transformer blocks. CD penalizes detrimental cross-matrix alignment and mitigates extreme activations without altering the architecture or task loss. Applied as a decoupled update, CD is non-invasive and introduces minimal training overhead. Across ImageNet-1K pre-training, COCO detection, and downstream fine-tuning, CD consistently boosts quantized accuracy across multiple pipelines while preserving, or even improving, full-precision performance. Ultimately, our results demonstrate that structural regularization effectively prepares vision Transformers for low-bit deployment with zero inference-time overhead.
- Abstract(参考訳): 低ビット量子化は視覚変換器を効率的に展開するための実用的な方法であるが、アクティベーションアウトレイアは完全な量子化デプロイメントを複雑にする。
既存の方法では、トレーニング中の量子化後の処理や大規模なアクティベーションの抑制を行うが、視覚モデルにおけるアウトリーチの積極的な制限は、完全精度と量子化精度の間のトレードオフを悪化させる可能性がある。
単にアウトリーチを抑えるのではなく、トレーニングの目的は、それらが有害になるような構造的増幅を制御するべきだ、と我々は主張する。
この目的のために,Transformer ブロック内の順序行列対に対する構造正規化器である Colinearity-Decay (CD) を導入する。
CDは有害なクロスマトリックスアライメントを罰し、アーキテクチャやタスクロスを変更することなく極端なアクティベーションを緩和する。
分離されたアップデートとして適用され、CDは非侵襲的であり、最小限のトレーニングオーバーヘッドを導入する。
ImageNet-1Kの事前トレーニング、COCO検出、ダウンストリームの微調整などを通じて、CDは、複数のパイプラインをまたいだ量子化の精度を一貫して向上させ、保存や完全な精度向上を実現している。
最終的に、構造正則化は、推測時間オーバーヘッドゼロの低ビット展開のための視覚変換器を効果的に作成することを示した。
関連論文リスト
- Efficient Multi-bit Quantization Network Training via Weight Bias Correction and Bit-wise Coreset Sampling [19.052294458935595]
マルチビット量子化ネットワークは、単一のモデル内で複数の精度レベルをサポートすることにより、ディープニューラルネットワークの柔軟な展開を可能にする。
既存のアプローチでは、サポート対象のビット幅毎にフルデータセット更新が繰り返されるため、トレーニングのオーバーヘッドが大幅に増大する。
本稿では,モデルの有用性を損なうことなく,トレーニングのオーバーヘッドを大幅に削減する2つの手法を提案する。
論文 参考訳(メタデータ) (2025-10-23T15:49:02Z) - PT$^2$-LLM: Post-Training Ternarization for Large Language Models [52.4629647715623]
大きな言語モデル(LLM)は、様々なタスクにまたがる印象的な機能を示しているが、その大きなメモリと計算能力は、デプロイメントを妨げている。
PT$2$-LLMを提案する。
その中核は2段精製パイプラインを備えた非対称3次量子化器である。
論文 参考訳(メタデータ) (2025-09-27T03:01:48Z) - Boosted Training of Lightweight Early Exits for Optimizing CNN Image Classification Inference [47.027290803102666]
我々は、分岐学習と推論時データ分布を整合させるシーケンシャルなトレーニング手法を導入する。
ResNet18バックボーンによるCINIC-10データセットの実験では、BTS-EEが非ブートトレーニングを一貫して上回っていることが示されている。
これらの結果は,産業検査,組込みビジョン,UAVに基づく監視などの応用において,実用的効率の向上をもたらす。
論文 参考訳(メタデータ) (2025-09-10T06:47:49Z) - Progressive Element-wise Gradient Estimation for Neural Network Quantization [2.1413624861650358]
量子化アウェアトレーニング(QAT)法は、離散化関数の非微分可能性に対処するためにSTE(Straight-Through Estimator)に依存する。
本稿では,連続値と量子化値の離散化誤差に対処するため,PEGE(Progressive Element-wise Gradient Estimation)を提案する。
PEGEは、既存のバックプロパゲーション手法を一貫して上回り、低精度のモデルが彼らの完全精度の精度にマッチしたり、さらに上回ったりすることを可能にしている。
論文 参考訳(メタデータ) (2025-08-27T15:59:36Z) - Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - Efficient local linearity regularization to overcome catastrophic
overfitting [59.463867084204566]
単段階逆行訓練におけるカタストロフィックオーバーフィッティング(CO)は、逆行性テスト精度(最大0%まで)の急激な低下をもたらす。
我々は,従来のAT評価においてCOを効果的かつ効率的に緩和するために,ELLEと呼ばれる正規化項を導入する。
論文 参考訳(メタデータ) (2024-01-21T22:55:26Z) - Understanding the Difficulty of Training Transformers [120.99980924577787]
バランスの取れない勾配がトレーニングの不安定性の根本原因ではないことを示す。
我々は,早期段階のトレーニングを安定させ,後期段階においてその潜在能力を最大限に活用するためのアドミンを提案する。
論文 参考訳(メタデータ) (2020-04-17T13:59:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。