論文の概要: Distilling Out-of-Distribution Robustness from Vision-Language
Foundation Models
- arxiv url: http://arxiv.org/abs/2311.01441v1
- Date: Thu, 2 Nov 2023 17:55:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-03 12:24:03.023378
- Title: Distilling Out-of-Distribution Robustness from Vision-Language
Foundation Models
- Title(参考訳): 視覚言語基礎モデルからの分布外ロバスト性蒸留
- Authors: Andy Zhou and Jindong Wang and Yu-Xiong Wang and Haohan Wang
- Abstract要約: 本稿では,視覚モデルのロバスト性を改善するための,概念的にシンプルで軽量なフレームワークを提案する。
プレトレーニング基礎モデルから蒸留する際, 分布外ロバスト性には強い効果が認められた。
データ拡張設定による知識蒸留におけるロバストな教師の活用のための理論的枠組みを提供する。
- 参考スコア(独自算出の注目度): 40.885755686727855
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a conceptually simple and lightweight framework for improving the
robustness of vision models through the combination of knowledge distillation
and data augmentation. We address the conjecture that larger models do not make
for better teachers by showing strong gains in out-of-distribution robustness
when distilling from pretrained foundation models. Following this finding, we
propose Discrete Adversarial Distillation (DAD), which leverages a robust
teacher to generate adversarial examples and a VQGAN to discretize them,
creating more informative samples than standard data augmentation techniques.
We provide a theoretical framework for the use of a robust teacher in the
knowledge distillation with data augmentation setting and demonstrate strong
gains in out-of-distribution robustness and clean accuracy across different
student architectures. Notably, our method adds minor computational overhead
compared to similar techniques and can be easily combined with other data
augmentations for further improvements.
- Abstract(参考訳): 本稿では,知識蒸留とデータ拡張を組み合わせた視覚モデルの堅牢性向上を目的とした,概念的にシンプルで軽量なフレームワークを提案する。
我々は, 基礎モデルから蒸留する場合, より大きなモデルでは分散性が強く向上することを示すことにより, より良い教師には役に立たない, という予想に対処した。
そこで,本研究では,教師の頑健さを活かした離散逆蒸留法 (dad) を提案し,vqgan を用いてそれを識別し,標準データ拡張法よりも有意義なサンプルを生成する。
本研究では,データ拡張設定による知識蒸留におけるロバストな教師の利用に関する理論的枠組みを提案し,分散的ロバスト性,クリーンな精度の高向上を示す。
特に,類似技術と比較して計算オーバーヘッドが小さいこと,改良のために他のデータ拡張と組み合わせることが容易である。
関連論文リスト
- Instance-Conditioned GAN Data Augmentation for Representation Learning [29.36473147430433]
DA_IC-GANは、学習可能なデータ拡張モジュールで、ほとんどの最先端のトレーニングレシピと組み合わせて、棚外で使用することができる。
DA_IC-GAN は最大容量モデルで 1%p から 2%p の精度を向上できることを示す。
また,DA_IC-GANを自己指導型トレーニングレシピと組み合わせることで,いくつかの設定で1%pの精度向上が達成できることを示す。
論文 参考訳(メタデータ) (2023-03-16T22:45:43Z) - Distillation from Heterogeneous Models for Top-K Recommendation [43.83625440616829]
HetCompは、教師の軌跡から一連の知識を伝達することで、学生モデルをガイドするフレームワークである。
HetCompは学生モデルの蒸留品質と一般化を著しく改善する。
論文 参考訳(メタデータ) (2023-03-02T10:23:50Z) - Self-Supervised Monocular Depth Estimation with Self-Reference
Distillation and Disparity Offset Refinement [15.012694052674899]
自己教師付き単分子深度推定を改善するための2つの新しいアイデアを提案する。
我々は,教師が訓練の時期に合わせて更新したパラメータ最適化モデルを用いて,さらなる指導を行う。
我々は,高次特徴量と低次特徴量とのコンテキスト整合性を利用して,マルチスケールの相違オフセットを得る。
論文 参考訳(メタデータ) (2023-02-20T06:28:52Z) - EmbedDistill: A Geometric Knowledge Distillation for Information
Retrieval [83.79667141681418]
大規模なニューラルモデル(トランスフォーマーなど)は、情報検索(IR)のための最先端のパフォーマンスを達成する
本研究では,大規模教師モデルで学習したクエリとドキュメント間の相対的幾何を利用した新しい蒸留手法を提案する。
提案手法は, 両エンコーダ (DE) とクロスエンコーダ (CE) の2種類の教師モデルから, 95~97%の教師性能を維持できる1/10の非対称な学生への蒸留に成功した。
論文 参考訳(メタデータ) (2023-01-27T22:04:37Z) - On the benefits of knowledge distillation for adversarial robustness [53.41196727255314]
知識蒸留は, 対向ロバスト性において, 最先端モデルの性能を高めるために直接的に利用できることを示す。
本稿では,モデルの性能向上のための新しいフレームワークであるAdversarial Knowledge Distillation (AKD)を提案する。
論文 参考訳(メタデータ) (2022-03-14T15:02:13Z) - MixKD: Towards Efficient Distillation of Large-scale Language Models [129.73786264834894]
データに依存しない蒸留フレームワークであるMixKDを提案する。
妥当な条件下では、MixKDは誤差と経験的誤差の間のギャップを小さくする。
限定的なデータ設定とアブレーションによる実験は、提案手法の利点をさらに証明している。
論文 参考訳(メタデータ) (2020-11-01T18:47:51Z) - Knowledge Distillation Meets Self-Supervision [109.6400639148393]
知識蒸留では、教師ネットワークから「暗黒の知識」を抽出し、学生ネットワークの学習を指導する。
一見異なる自己超越的なタスクが、単純だが強力なソリューションとして機能することを示します。
これらの自己超越信号の類似性を補助的タスクとして活用することにより、隠された情報を教師から生徒に効果的に転送することができる。
論文 参考訳(メタデータ) (2020-06-12T12:18:52Z) - Generative Data Augmentation for Commonsense Reasoning [75.26876609249197]
G-DAUGCは、低リソース環境でより正確で堅牢な学習を実現することを目的とした、新しい生成データ拡張手法である。
G-DAUGCは、バックトランスレーションに基づく既存のデータ拡張手法を一貫して上回っている。
分析の結果,G-DAUGCは多種多様な流線型学習例を産出し,その選択と学習アプローチが性能向上に重要であることが示された。
論文 参考訳(メタデータ) (2020-04-24T06:12:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。