論文の概要: Towards Exemplar-Free Continual Learning in Vision Transformers: an
Account of Attention, Functional and Weight Regularization
- arxiv url: http://arxiv.org/abs/2203.13167v2
- Date: Mon, 28 Mar 2022 15:24:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-29 11:37:36.704970
- Title: Towards Exemplar-Free Continual Learning in Vision Transformers: an
Account of Attention, Functional and Weight Regularization
- Title(参考訳): 視覚トランスフォーマーにおける運動自由連続学習に向けて--注意・機能・重み規則化の考察
- Authors: Francesco Pelosin, Saurav Jha, Andrea Torsello, Bogdan Raducanu, Joost
van de Weijer
- Abstract要約: 本研究では,視覚変換器 (ViT) の連続学習について検討する。
我々の研究は、自己注意機構(SAM)の外科的研究に向けて最初の一歩を踏み出した。
非対称な変種を提案し、それをViTに適応したプール出力蒸留(POD)損失に適用する。
- 参考スコア(独自算出の注目度): 27.131241302082092
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we investigate the continual learning of Vision Transformers
(ViT) for the challenging exemplar-free scenario, with special focus on how to
efficiently distill the knowledge of its crucial self-attention mechanism
(SAM). Our work takes an initial step towards a surgical investigation of SAM
for designing coherent continual learning methods in ViTs. We first carry out
an evaluation of established continual learning regularization techniques. We
then examine the effect of regularization when applied to two key enablers of
SAM: (a) the contextualized embedding layers, for their ability to capture
well-scaled representations with respect to the values, and (b) the prescaled
attention maps, for carrying value-independent global contextual information.
We depict the perks of each distilling strategy on two image recognition
benchmarks (CIFAR100 and ImageNet-32) -- while (a) leads to a better overall
accuracy, (b) helps enhance the rigidity by maintaining competitive
performances. Furthermore, we identify the limitation imposed by the symmetric
nature of regularization losses. To alleviate this, we propose an asymmetric
variant and apply it to the pooled output distillation (POD) loss adapted for
ViTs. Our experiments confirm that introducing asymmetry to POD boosts its
plasticity while retaining stability across (a) and (b). Moreover, we
acknowledge low forgetting measures for all the compared methods, indicating
that ViTs might be naturally inclined continual learner
- Abstract(参考訳): 本稿では,視覚変換器 (ViT) の連続学習を,その重要な自己保持機構 (SAM) の知識を効率的に抽出する方法に焦点をあてて検討する。
本研究は, ViT におけるコヒーレント連続学習法の設計におけるSAM の外科的検討に向けた第一歩である。
まず,確立した連続学習正規化手法の評価を行う。
次に、SAMの2つのキーイネーラに適用した場合の正規化の効果を検討する。
(a)コンテキスト化された埋め込み層は、その値に関してよくスケールされた表現をキャプチャできるため、そして
b) 価値に依存しないグローバルな文脈情報を運ぶための事前スケールアテンションマップ。
我々は2つの画像認識ベンチマーク(cifar100とimagenet-32)における蒸留戦略の要点について述べる。
(a)全体的な正確さが向上する。
(b)競争力を維持することで剛性を高める。
さらに、正規化損失の対称性によって課される制限を特定する。
これを軽減するために, 非対称な変種を提案し, ViT に適応したプール出力蒸留(POD)損失に適用する。
実験により,PODに非対称性を導入することで塑性が向上し,安定性が保たれることを確認した。
(a)及び
(b)
さらに,全ての比較手法について,ViTsが自然に傾きのある学習者であることを示唆し,低忘れ化対策を認めている。
関連論文リスト
- Efficient Test-Time Prompt Tuning for Vision-Language Models [41.90997623029582]
Self-TPTは、効率的なテストタイムプロンプトチューニングにセルフ教師付き学習を活用するフレームワークである。
本稿では,Self-TPTが推論コストを大幅に削減するだけでなく,最先端の性能も向上することを示す。
論文 参考訳(メタデータ) (2024-08-11T13:55:58Z) - The Vital Role of Gradient Clipping in Byzantine-Resilient Distributed Learning [8.268485501864939]
ビザンチン耐性の分散機械学習は、不正行為や敵対的労働者の存在下で、堅牢な学習性能を達成することを目指している。
最先端(SOTA)の頑健な分散勾配降下法(DGD)は理論的に最適であることが証明されているが、その実験的な成功は、しばしば前凝集勾配クリッピングに依存している。
本稿では,アダプティブロバストクリッピングARC(Adaptive Robust ClippingARC)と呼ばれる適応型クリッピング戦略を提案する。
論文 参考訳(メタデータ) (2024-05-23T11:00:31Z) - Stochastic Vision Transformers with Wasserstein Distance-Aware Attention [8.407731308079025]
自己教師付き学習は、限られたラベル付きデータから知識を得るための最も有望なアプローチの1つである。
我々は、不確実性と距離認識を自己教師付き学習パイプラインに統合する新しいビジョントランスフォーマーを導入する。
提案手法は,多種多様なデータセットを対象とした多種多様な実験において,自己教師付きベースラインを超える精度とキャリブレーションを実現する。
論文 参考訳(メタデータ) (2023-11-30T15:53:37Z) - SAM operates far from home: eigenvalue regularization as a dynamical
phenomenon [15.332235979022036]
シャープネス認識最小化(SAM)アルゴリズムは、ロス・ヘッセンの大きな固有値を制御することが示されている。
SAMは学習軌跡全体を通して固有値の強い正規化を提供することを示す。
本理論は,学習速度とSAM半径パラメータの関数として最大固有値を予測する。
論文 参考訳(メタデータ) (2023-02-17T04:51:20Z) - Variational Distillation for Multi-View Learning [104.17551354374821]
我々は,多視点表現学習における2つの重要な特徴を利用するために,様々な情報ボトルネックを設計する。
厳密な理論的保証の下で,本手法は,観察とセマンティックラベルの内在的相関の把握を可能にする。
論文 参考訳(メタデータ) (2022-06-20T03:09:46Z) - Imposing Consistency for Optical Flow Estimation [73.53204596544472]
プロキシタスクによる一貫性の導入は、データ駆動学習を強化することが示されている。
本稿では,光フロー推定のための新しい,効果的な整合性戦略を提案する。
論文 参考訳(メタデータ) (2022-04-14T22:58:30Z) - Self-Promoted Supervision for Few-Shot Transformer [178.52948452353834]
SUN(Self-promoted sUpervisioN)は視覚変換器(ViT)のための数発の学習フレームワークである
SUNは、数ショットの学習データセットでViTを事前トレーニングし、各パッチトークンを導くために、個別のロケーション固有の監視を生成する。
実験によると、ViTを使ったSUNは、ViTを使った他の数発の学習フレームワークを大幅に上回っており、CNNの最先端技術よりも高いパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-03-14T12:53:27Z) - When Does Contrastive Learning Preserve Adversarial Robustness from
Pretraining to Finetuning? [99.4914671654374]
本稿では,新しい逆比較事前学習フレームワークAdvCLを提案する。
本稿では,AdvCLがモデル精度と微調整効率を損なうことなく,タスク間の堅牢性伝達性を向上できることを示す。
論文 参考訳(メタデータ) (2021-11-01T17:59:43Z) - Policy Smoothing for Provably Robust Reinforcement Learning [109.90239627115336]
入力のノルム有界対向摂動に対する強化学習の証明可能な堅牢性について検討する。
我々は、スムーズなポリシーによって得られる全報酬が、入力の摂動のノルムバウンドな逆数の下で一定の閾値以下に収まらないことを保証した証明書を生成する。
論文 参考訳(メタデータ) (2021-06-21T21:42:08Z) - Farewell to Mutual Information: Variational Distillation for Cross-Modal
Person Re-Identification [41.02729491273057]
Information Bottleneck (IB)は、表現学習のための情報理論の原則を提供する。
我々は、スケーラブルで柔軟で分析的なソリューションを提供する新しい戦略、可変自己蒸留(VSD)を提示します。
また、Variational Cross-Distillation (VCD) と Variational Mutual-Learning (VML) の2つの戦略を紹介します。
論文 参考訳(メタデータ) (2021-04-07T02:19:41Z) - Efficient Empowerment Estimation for Unsupervised Stabilization [75.32013242448151]
エンパワーメント原理は 直立位置での 力学系の教師なし安定化を可能にする
本稿では,ガウスチャネルとして動的システムのトレーニング可能な表現に基づく代替解を提案する。
提案手法は, サンプルの複雑さが低く, 訓練時より安定であり, エンパワーメント機能の本質的特性を有し, 画像からエンパワーメントを推定できることを示す。
論文 参考訳(メタデータ) (2020-07-14T21:10:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。