論文の概要: DropKey
- arxiv url: http://arxiv.org/abs/2208.02646v4
- Date: Tue, 11 Apr 2023 07:35:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-12 19:05:20.897945
- Title: DropKey
- Title(参考訳): ドロップキー
- Authors: Bonan Li and Yinhan Hu and Xuecheng Nie and Congying Han and Xiangjian
Jiang and Tiande Guo and Luoqi Liu
- Abstract要約: 視覚変換器の自己注意層におけるドロップアウト手法の解析と改善に焦点をあてる。
我々は,注目行列計算よりも先にドロップアウト操作を移動させ,キーをドロップアウト単位として設定することを提案する。
提案したスケジュールは,低レベルの機能や高レベルのセマンティクスに欠けるオーバーフィッティングを回避することができる。
- 参考スコア(独自算出の注目度): 9.846606347586906
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we focus on analyzing and improving the dropout technique for
self-attention layers of Vision Transformer, which is important while
surprisingly ignored by prior works. In particular, we conduct researches on
three core questions: First, what to drop in self-attention layers? Different
from dropping attention weights in literature, we propose to move dropout
operations forward ahead of attention matrix calculation and set the Key as the
dropout unit, yielding a novel dropout-before-softmax scheme. We theoretically
verify that this scheme helps keep both regularization and probability features
of attention weights, alleviating the overfittings problem to specific patterns
and enhancing the model to globally capture vital information; Second, how to
schedule the drop ratio in consecutive layers? In contrast to exploit a
constant drop ratio for all layers, we present a new decreasing schedule that
gradually decreases the drop ratio along the stack of self-attention layers. We
experimentally validate the proposed schedule can avoid overfittings in
low-level features and missing in high-level semantics, thus improving the
robustness and stableness of model training; Third, whether need to perform
structured dropout operation as CNN? We attempt patch-based block-version of
dropout operation and find that this useful trick for CNN is not essential for
ViT. Given exploration on the above three questions, we present the novel
DropKey method that regards Key as the drop unit and exploits decreasing
schedule for drop ratio, improving ViTs in a general way. Comprehensive
experiments demonstrate the effectiveness of DropKey for various ViT
architectures, e.g. T2T and VOLO, as well as for various vision tasks, e.g.,
image classification, object detection, human-object interaction detection and
human body shape recovery.
- Abstract(参考訳): 本稿では,視覚変換器の自己注意層におけるドロップアウト手法の解析と改善に焦点をあてる。
特に、私たちは3つのコアな質問について調査を行っています。
文献における注意重みの低下と異なり,注意行列計算に先立ってドロップアウト操作を前進させ,キーをドロップアウト単位に設定し,新しいドロップアウト前ソフトマックス方式を提案する。
このスキームは、注意重みの正規化と確率特性の両立を図り、特定のパターンに過度に適合する問題を緩和し、重要な情報を世界規模で把握するためのモデルを強化するのに役立つと理論的に検証する。
すべての層に対して一定降下率を利用するのに対し, 自己保持層のスタックに沿った降下率を徐々に減少させる新たな減少スケジュールを示す。
提案するスケジュールを実験的に検証することで,低レベル特徴の過剰フィットや高レベルセマンティクスの欠如を回避でき,モデルトレーニングの堅牢性と安定性が向上する。
我々はパッチベースのドロップアウト操作のブロックバージョンを試し、このcnnの便利なトリックはvitにとって必須ではないことを突き止めた。
上記の3つの質問を考察し,キーをドロップユニットとして考慮し,ドロップ比のスケジュールを短縮し,vitsを汎用的に改善する新しいドロップキー法を提案する。
総合的な実験では、T2TやVOLOといった様々なViTアーキテクチャや、画像分類、物体検出、人間と物体の相互作用の検出、人体形状の回復といった様々な視覚タスクに対してDropKeyの有効性が示されている。
関連論文リスト
- SINDER: Repairing the Singular Defects of DINOv2 [61.98878352956125]
大規模なデータセットでトレーニングされたビジョントランスフォーマーモデルは、抽出したパッチトークンにアーティファクトを表示することが多い。
本稿では,小さなデータセットのみを用いて構造欠陥を補正するスムーズなスムーズな正規化を提案する。
論文 参考訳(メタデータ) (2024-07-23T20:34:23Z) - DropPos: Pre-Training Vision Transformers by Reconstructing Dropped
Positions [63.61970125369834]
DropPosは、Dropped Positionsを再構築するために設計された新しいプレテキストタスクである。
コードはhttps://github.com/Haochen-Wang409/DropPos.comで公開されている。
論文 参考訳(メタデータ) (2023-09-07T09:12:02Z) - Stabilizing Transformer Training by Preventing Attention Entropy
Collapse [56.45313891694746]
本研究は,トランスフォーマーのトレーニングダイナミクスについて,注目層の進化について検討する。
我々は、$sigma$Reparamが注意層におけるエントロピー崩壊を防ぎ、より安定したトレーニングを促進することを示す。
画像分類、画像自己教師型学習、機械翻訳、音声認識、言語モデリングタスクについて、$sigma$Reparamで実験を行った。
論文 参考訳(メタデータ) (2023-03-11T03:30:47Z) - Dropout Reduces Underfitting [85.61466286688385]
本研究は,トレーニング開始時の不適合を軽減できることを示す。
ドロップアウトは、ミニバッチ間の勾配の方向性のばらつきを低減し、データセット全体の勾配とミニバッチ勾配の整合を支援する。
この結果から,未適合モデルの性能向上のためのソリューションが得られた – 早期のドロップアウト – トレーニングの初期段階でのみドロップアウトが適用され,その後,オフになります。
論文 参考訳(メタデータ) (2023-03-02T18:59:15Z) - Implicit and Efficient Point Cloud Completion for 3D Single Object
Tracking [9.372859423951349]
適応リファイン予測(ARP)とターゲット知識伝達(TKT)の2つの新しいモジュールを紹介する。
本モデルでは,より少ない計算量を維持しながら,最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-09-01T15:11:06Z) - Adaptive Online Incremental Learning for Evolving Data Streams [4.3386084277869505]
最初の大きな困難はコンセプトドリフトであり、つまり、ストリーミングデータの確率分布はデータが到着するにつれて変化する。
第二の難しさは、破滅的な忘れ、すなわち、新しい知識を学ぶ前に学んだことを忘れることです。
我々の研究はこの観察に基づいており、これらの困難を克服しようと試みている。
論文 参考訳(メタデータ) (2022-01-05T14:25:53Z) - Advanced Dropout: A Model-free Methodology for Bayesian Dropout
Optimization [62.8384110757689]
ディープニューラルネットワーク(DNN)の現実的応用において、ユビキタスなオーバーフィッティングが存在する
先進的なドロップアウト手法は、パラメトリック先行でモデルフリーで容易に実装された分布を適用し、ドロップアウト率を適応的に調整する。
7つのコンピュータビジョンデータセットにおける9つのドロップアウト手法に対する高度なドロップアウトの有効性を評価する。
論文 参考訳(メタデータ) (2020-10-11T13:19:58Z) - Scheduled DropHead: A Regularization Method for Transformer Models [111.18614166615968]
DropHeadは、マルチヘッドアテンションメカニズムを標準化するために特別に設計された構造化されたドロップアウト方式である。
トレーニング中にすべての注意を落とします。
マルチヘッドアテンションモデルが少数のアテンションヘッドによって支配されるのを防ぐ。
論文 参考訳(メタデータ) (2020-04-28T07:33:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。