論文の概要: Synergistic Self-supervised and Quantization Learning
- arxiv url: http://arxiv.org/abs/2207.05432v1
- Date: Tue, 12 Jul 2022 09:55:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-13 13:21:51.926262
- Title: Synergistic Self-supervised and Quantization Learning
- Title(参考訳): 自己教師付き・量子化学習
- Authors: Yun-Hao Cao, Peiqin Sun, Yechang Huang, Jianxin Wu, Shuchang Zhou
- Abstract要約: 本稿では, 自己教師付き自己教師付きモデルを事前学習するための, 相乗的自己教師型自己教師型学習(S)法を提案する。
一度だけトレーニングすることで、Sは異なるビット幅で様々な下流タスクに同時に恩恵を与えることができる。
- 参考スコア(独自算出の注目度): 24.382347077407303
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the success of self-supervised learning (SSL), it has become a
mainstream paradigm to fine-tune from self-supervised pretrained models to
boost the performance on downstream tasks. However, we find that current SSL
models suffer severe accuracy drops when performing low-bit quantization,
prohibiting their deployment in resource-constrained applications. In this
paper, we propose a method called synergistic self-supervised and quantization
learning (SSQL) to pretrain quantization-friendly self-supervised models
facilitating downstream deployment. SSQL contrasts the features of the
quantized and full precision models in a self-supervised fashion, where the
bit-width for the quantized model is randomly selected in each step. SSQL not
only significantly improves the accuracy when quantized to lower bit-widths,
but also boosts the accuracy of full precision models in most cases. By only
training once, SSQL can then benefit various downstream tasks at different
bit-widths simultaneously. Moreover, the bit-width flexibility is achieved
without additional storage overhead, requiring only one copy of weights during
training and inference. We theoretically analyze the optimization process of
SSQL, and conduct exhaustive experiments on various benchmarks to further
demonstrate the effectiveness of our method. Our code is available at
https://github.com/megvii-research/SSQL-ECCV2022.
- Abstract(参考訳): 自己教師型学習(SSL)の成功により、下流タスクのパフォーマンスを高めるために、自己教師型事前訓練モデルから微調整を行うための主流パラダイムとなった。
しかし、現在のSSLモデルは、低ビット量子化の実行時に深刻な精度低下を被り、リソース制約のあるアプリケーションへの展開を禁止している。
本稿では,下流への展開を容易にする量子化フレンドリーな自己教師付きモデルを事前学習するための,相乗的自己教師付き量子化学習(ssql)と呼ばれる手法を提案する。
ssqlは、量子化モデルのビット幅が各ステップでランダムに選択される自己教師あり方式で、量子化および完全精度モデルの特徴と対比する。
SSQLは、ビット幅を小さくする量子化の精度を著しく向上するだけでなく、ほとんどの場合、完全精度モデルの精度も向上する。
一度だけトレーニングすることで、SSQLは異なるビット幅でさまざまなダウンストリームタスクを同時に利用できる。
さらに、ビット幅の柔軟性は、追加のストレージオーバーヘッドなしに達成され、トレーニングと推論中に1コピーの重みしか必要としない。
ssqlの最適化プロセスを理論的に解析し,様々なベンチマークで徹底的な実験を行い,本手法の有効性をさらに実証する。
私たちのコードはhttps://github.com/megvii-research/SSQL-ECCV2022で公開されています。
関連論文リスト
- A Closer Look at Benchmarking Self-Supervised Pre-training with Image Classification [51.35500308126506]
自己教師付き学習(SSL)は、データ自体が監視を提供する機械学習アプローチであり、外部ラベルの必要性を排除している。
SSLの分類に基づく評価プロトコルがどのように相関し、異なるデータセットのダウンストリーム性能を予測するかを検討する。
論文 参考訳(メタデータ) (2024-07-16T23:17:36Z) - Uncertainty-aware Parameter-Efficient Self-training for Semi-supervised
Language Understanding [38.11411155621616]
我々は,主に半教師あり学習の手法として,自己学習について研究している。
我々は,新しい不確かさを意識した自己学習フレームワークであるUPETを紹介する。
UPETは性能と効率の面で大幅に向上したことを示す。
論文 参考訳(メタデータ) (2023-10-19T02:18:29Z) - Single-Stage Visual Relationship Learning using Conditional Queries [60.90880759475021]
TraCQは、マルチタスク学習問題とエンティティペアの分布を回避する、シーングラフ生成の新しい定式化である。
我々は,DETRをベースとしたエンコーダ-デコーダ条件付きクエリを用いて,エンティティラベル空間を大幅に削減する。
実験結果から、TraCQは既存のシングルステージシーングラフ生成法よりも優れており、Visual Genomeデータセットの最先端の2段階メソッドを多く上回っていることがわかった。
論文 参考訳(メタデータ) (2023-06-09T06:02:01Z) - Can recurrent neural networks learn process model structure? [0.2580765958706854]
本稿では,適合度,精度,一般化のために,変分に基づく再サンプリングとカスタムメトリクスを組み合わせた評価フレームワークを提案する。
LSTMは、単純化されたプロセスデータであっても、プロセスモデル構造を学ぶのに苦労する可能性があることを確認します。
また,トレーニング中にLSTMで見られる情報量が減少すると,一般化や精度の低下が生じた。
論文 参考訳(メタデータ) (2022-12-13T08:40:01Z) - A Semiparametric Efficient Approach To Label Shift Estimation and
Quantification [0.0]
本稿では、応答変数の分布の変化を推定するSELSEと呼ばれる新しい手順を提案する。
SELSEの正規化誤差は、その家系の他のどのアルゴリズムよりも最小の分散行列を持つことを示す。
論文 参考訳(メタデータ) (2022-11-07T07:49:29Z) - DATA: Domain-Aware and Task-Aware Pre-training [94.62676913928831]
我々は、自己教師付き学習(SSL)に特化した、シンプルで効果的なNASアプローチであるDataを提示する。
提案手法は,画像分類,オブジェクト検出,セマンティックセグメンテーションなど,下流タスクにおける計算コストの広い範囲にわたる有望な結果を実現する。
論文 参考訳(メタデータ) (2022-03-17T02:38:49Z) - LCS: Learning Compressible Subspaces for Adaptive Network Compression at
Inference Time [57.52251547365967]
本稿では,ニューラルネットワークの「圧縮可能な部分空間」を訓練する手法を提案する。
構造的・非構造的空間に対する推定時間における微粒な精度・効率のトレードオフを任意に達成するための結果を示す。
我々のアルゴリズムは、可変ビット幅での量子化にまで拡張し、個別に訓練されたネットワークと同等の精度を実現する。
論文 参考訳(メタデータ) (2021-10-08T17:03:34Z) - Towards Efficient Post-training Quantization of Pre-trained Language
Models [85.68317334241287]
PLMのポストトレーニング量子化(PTQ)について検討し,モジュール単位の量子化誤差最小化(MREM)を提案する。
GLUEとSQuADベンチマークの実験により、提案したPTQソリューションはQATに近く動作するだけでなく、トレーニング時間、メモリオーバーヘッド、データ消費を大幅に削減できることがわかった。
論文 参考訳(メタデータ) (2021-09-30T12:50:06Z) - KDLSQ-BERT: A Quantized Bert Combining Knowledge Distillation with
Learned Step Size Quantization [1.9786767260073905]
BERTのようなトランスフォーマーベースの言語モデルでは、さまざまな自然言語処理タスクのパフォーマンスが大幅に向上している。
言語モデル量子化のための知識蒸留(KD)と学習ステップサイズ量子化(LSQ)を組み合わせた新しい量子化手法KDLSQ-BERTを提案する。
論文 参考訳(メタデータ) (2021-01-15T02:21:28Z) - The Right Tool for the Job: Matching Model and Instance Complexities [62.95183777679024]
NLPモデルが大きくなればなるほど、訓練されたモデルを実行するには、金銭的・環境的なコストを発生させる重要な計算資源が必要である。
我々は、推論中、早期(かつ高速)の"exit"を可能にする文脈表現微調整の修正を提案する。
3つのテキスト分類データセットと2つの自然言語推論ベンチマークの2つのタスクで、5つの異なるデータセットに対して提案した修正を検証した。
論文 参考訳(メタデータ) (2020-04-16T04:28:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。