論文の概要: On the Efficacy of Small Self-Supervised Contrastive Models without
Distillation Signals
- arxiv url: http://arxiv.org/abs/2107.14762v1
- Date: Fri, 30 Jul 2021 17:10:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-02 13:08:28.887762
- Title: On the Efficacy of Small Self-Supervised Contrastive Models without
Distillation Signals
- Title(参考訳): 蒸留信号のない小型自己監督コントラストモデルの有効性について
- Authors: Haizhou Shi, Youcai Zhang, Siliang Tang, Wenjie Zhu, Yaqian Li,
Yandong Guo, Yueting Zhuang
- Abstract要約: 小さなモデルは、自己教師付きコントラスト学習のパラダイムの下では、非常によく機能しない。
既存の方法は、通常、知識を知識蒸留を通じて小さなものに伝達するために、大きなオフ・ザ・シェルフモデルを採用する。
その効果にもかかわらず、蒸留法はいくつかの資源制限されたシナリオには適さないかもしれない。
- 参考スコア(独自算出の注目度): 44.209171209780365
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It is a consensus that small models perform quite poorly under the paradigm
of self-supervised contrastive learning. Existing methods usually adopt a large
off-the-shelf model to transfer knowledge to the small one via knowledge
distillation. Despite their effectiveness, distillation-based methods may not
be suitable for some resource-restricted scenarios due to the huge
computational expenses of deploying a large model. In this paper, we study the
issue of training self-supervised small models without distillation signals. We
first evaluate the representation spaces of the small models and make two
non-negligible observations: (i) small models can complete the pretext task
without overfitting despite its limited capacity; (ii) small models universally
suffer the problem of over-clustering. Then we verify multiple assumptions that
are considered to alleviate the over-clustering phenomenon. Finally, we combine
the validated techniques and improve the baseline of five small architectures
with considerable margins, which indicates that training small self-supervised
contrastive models is feasible even without distillation signals.
- Abstract(参考訳): 自己教師付きコントラスト学習のパラダイムの下では、小さなモデルは非常に良くないという意見の一致である。
既存の手法は通常、知識を知識蒸留によって小さなものに移すために大きなオフ・ザ・シェルフモデルを採用する。
その効果にもかかわらず、蒸留ベースの方法は、大規模なモデルをデプロイする膨大な計算コストのため、リソース制限されたシナリオには適さないかもしれない。
本稿では, 蒸留信号のない自己監督型小型モデルの学習課題について検討する。
まず、小モデルの表現空間を評価し、2つの非無視的な観察を行う: (i)小モデルは、その限られた能力にもかかわらず過度に適合することなく、プリテキストタスクを完了させることができる; (ii)小モデルは、オーバークラスタリングの問題を普遍的に抱える。
次に,過剰クラスタ化現象を緩和すると考えられる複数の仮定を検証する。
最後に, 検証された手法を組み合わせることで, 5つの小アーキテクチャのベースラインをかなりのマージンで改善し, 蒸留信号がなくても, 小型の自己教師付きコントラストモデルの訓練が実現可能であることを示す。
関連論文リスト
- On the Surprising Efficacy of Distillation as an Alternative to Pre-Training Small Models [7.062887337934677]
我々は、小モデルがその利点を享受するために事前学習のコストを吸収する必要がないことを提案する。
事前訓練されたモデルからタスクを蒸留すると、そのタスクで事前訓練されたり微調整されたりした場合、小さなモデルで達成される性能を達成または超えることが観察された。
論文 参考訳(メタデータ) (2024-04-04T07:38:11Z) - Fantastic Gains and Where to Find Them: On the Existence and Prospect of
General Knowledge Transfer between Any Pretrained Model [74.62272538148245]
事前訓練されたモデルの任意のペアリングに対して、一方のモデルは他方では利用できない重要なデータコンテキストを抽出する。
このような「補的」な知識を,性能劣化を伴わずに,あるモデルから別のモデルへ伝達できるかどうかを検討する。
論文 参考訳(メタデータ) (2023-10-26T17:59:46Z) - Investigating Ensemble Methods for Model Robustness Improvement of Text
Classifiers [66.36045164286854]
既存のバイアス機能を分析し、すべてのケースに最適なモデルが存在しないことを実証します。
適切なバイアスモデルを選択することで、より洗練されたモデル設計でベースラインよりもロバスト性が得られる。
論文 参考訳(メタデータ) (2022-10-28T17:52:10Z) - Predicting on the Edge: Identifying Where a Larger Model Does Better [61.793778186198864]
小型モデルが最も不確実な例では,大規模モデルが最も改善されていることを示す。
小型モデルが不確実な場合,サンプルを大モデルにデフェクトするスイッチャーモデルにより,性能と資源利用の大幅な向上が達成できることを示す。
論文 参考訳(メタデータ) (2022-02-15T18:53:14Z) - Adversarial Examples on Segmentation Models Can be Easy to Transfer [21.838878497660353]
分類モデルにおける逆例の移動性は、ますます関心を集めている。
分類とセグメンテーションモデルにおける逆例の過剰適合現象について検討する。
この制限を克服するために,動的スケーリングと呼ばれるシンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2021-11-22T17:26:21Z) - When in Doubt, Summon the Titans: Efficient Inference with Large Models [80.2673230098021]
本稿では,大規模モデルのモデル化の利点を実現する蒸留に基づく2段階の枠組みを提案する。
簡単な"例のサブセットでのみ正確な予測を行うために、私たちは、大きな教師モデルを使用して、軽量な学生モデルをガイドします。
提案した蒸留法は, 簡単な事例のみを扱うため, 学生規模でより積極的なトレードオフが可能であり, 推論の償却コストを低減できる。
論文 参考訳(メタデータ) (2021-10-19T22:56:49Z) - Learning Diverse Representations for Fast Adaptation to Distribution
Shift [78.83747601814669]
本稿では,複数のモデルを学習する手法を提案する。
分散シフトへの迅速な適応を促進するフレームワークの能力を実証する。
論文 参考訳(メタデータ) (2020-06-12T12:23:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。