論文の概要: Sparse Double Descent in Vision Transformers: real or phantom threat?
- arxiv url: http://arxiv.org/abs/2307.14253v1
- Date: Wed, 26 Jul 2023 15:33:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-27 11:59:34.395235
- Title: Sparse Double Descent in Vision Transformers: real or phantom threat?
- Title(参考訳): 視覚トランスフォーマーのスパース・ダブル降下:リアルかファントムか?
- Authors: Victor Qu\'etu, Marta Milovanovic and Enzo Tartaglione
- Abstract要約: 視覚変換器(ViT)はその注意に基づくアプローチのおかげで最先端である。
いくつかの研究は、現代のディープラーニングモデルで起こりうるスパースダブル降下現象を報告している。
これにより、モデルの最適サイズと、スパーシリティとパフォーマンスの最良のトレードオフを見つけるための探求に関する実践的な疑問が提起される。
- 参考スコア(独自算出の注目度): 3.9533044769534444
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision transformers (ViT) have been of broad interest in recent theoretical
and empirical works. They are state-of-the-art thanks to their attention-based
approach, which boosts the identification of key features and patterns within
images thanks to the capability of avoiding inductive bias, resulting in highly
accurate image analysis. Meanwhile, neoteric studies have reported a ``sparse
double descent'' phenomenon that can occur in modern deep-learning models,
where extremely over-parametrized models can generalize well. This raises
practical questions about the optimal size of the model and the quest over
finding the best trade-off between sparsity and performance is launched: are
Vision Transformers also prone to sparse double descent? Can we find a way to
avoid such a phenomenon? Our work tackles the occurrence of sparse double
descent on ViTs. Despite some works that have shown that traditional
architectures, like Resnet, are condemned to the sparse double descent
phenomenon, for ViTs we observe that an optimally-tuned $\ell_2$ regularization
relieves such a phenomenon. However, everything comes at a cost: optimal lambda
will sacrifice the potential compression of the ViT.
- Abstract(参考訳): 視覚変換器(ViT)は近年の理論的および実証的な研究に広く関心を寄せている。
注意に基づくアプローチのおかげで、インダクティブバイアスを避ける能力のおかげで、画像内の重要な特徴やパターンの識別が促進され、非常に正確な画像解析が実現される。
一方、新生代の研究は、非常に過度にパラメータ化されたモデルが一般化できる現代のディープラーニングモデルで起こりうる 'sparse double descend' 現象を報告している。
これにより、モデルのサイズが最適であることや、スパーシティとパフォーマンスの最良のトレードオフを見つけるための探求について、現実的な疑問が持ち上がる。
このような現象を避ける方法を見つけられるでしょうか?
我々の研究は、ViTsにおけるスパース二重降下の発生に対処する。
resnetのような伝統的なアーキテクチャがスパース二重降下現象を非難されていることを示すいくつかの著作にもかかわらず、vitsでは最適に調整された$\ell_2$正規化がそのような現象を緩和することを観測する。
最適なラムダは、ViTの潜在的な圧縮を犠牲にします。
関連論文リスト
- Denoising Vision Transformers [43.03068202384091]
本稿では、DVT(Denoising Vision Transformers)と呼ばれる2段階のDenoisingアプローチを提案する。
第1段階では、画像ごとのニューラルネットワークとの横断的な特徴整合を強制することにより、位置的アーティファクトによって汚染されたものからクリーンな特徴を分離する。
第2段階では、クリーンな特徴を生のViT出力から予測するために軽量なトランスフォーマーブロックを訓練し、クリーンな特徴の導出推定を監督として活用する。
論文 参考訳(メタデータ) (2024-01-05T18:59:52Z) - Improving Interpretation Faithfulness for Vision Transformers [42.86486715574245]
ビジョントランスフォーマー(ViT)は、様々なビジョンタスクに対して最先端のパフォーマンスを達成した。
ViTは、彼らの焦点が敵の攻撃に対して脆弱であるため、説明の忠実さに関する問題に悩まされる。
本稿では、Fithful ViTs(FViTs)を導入してこれらの問題を緩和するための厳格なアプローチを提案する。
論文 参考訳(メタデータ) (2023-11-29T18:51:21Z) - Multi-Dimensional Hyena for Spatial Inductive Bias [69.3021852589771]
自己注意に依存しないデータ効率の高い視覚変換器を提案する。
代わりに、非常に最近のハイエナ層の複数の軸に新しい一般化を用いる。
ハイエナN-DをベースとしたハイブリッドなアプローチをViTの第1層に適用し,それに続いて従来の注目層を取り入れた手法により,様々な視覚トランスフォーマーアーキテクチャの性能が一貫して向上することを示す。
論文 参考訳(メタデータ) (2023-09-24T10:22:35Z) - 2-D SSM: A General Spatial Layer for Visual Transformers [79.4957965474334]
コンピュータビジョンの中心的な目的は、適切な2次元帰納バイアスを持つモデルを設計することである。
多次元状態空間モデルの表現的変動を利用する。
本稿では,効率的なパラメータ化,高速化計算,適切な正規化方式を提案する。
論文 参考訳(メタデータ) (2023-06-11T09:41:37Z) - Dual-path Adaptation from Image to Video Transformers [62.056751480114784]
ViTやSwinのような視覚基盤モデルの超越する表現力を、トレーニング可能なパラメータ数だけでビデオ理解するために効率的に転送する。
本稿では,空間的および時間的適応経路に分離した新しいDualPath適応法を提案する。
論文 参考訳(メタデータ) (2023-03-17T09:37:07Z) - The Principle of Diversity: Training Stronger Vision Transformers Calls
for Reducing All Levels of Redundancy [111.49944789602884]
本稿では,パッチ埋め込み,アテンションマップ,ウェイトスペースという3つのレベルにおいて,冗長性のユビキタスな存在を体系的に研究する。
各レベルにおける表現の多様性とカバレッジを促進するための対応正規化器を提案する。
論文 参考訳(メタデータ) (2022-03-12T04:48:12Z) - Anti-Oversmoothing in Deep Vision Transformers via the Fourier Domain
Analysis: From Theory to Practice [111.47461527901318]
Vision Transformer (ViT) は先日,コンピュータビジョン問題における有望性を実証した。
ViTは観察された注意崩壊やパッチの均一性のために、深さが増加するにつれて急速に飽和する。
所望の低域制限を緩和する2つの手法を提案する。
論文 参考訳(メタデータ) (2022-03-09T23:55:24Z) - DeepViT: Towards Deeper Vision Transformer [92.04063170357426]
近年,視覚変換器 (ViT) が画像分類タスクに応用されている。
より畳み込み層を積み重ねることで改善できる畳み込みニューラルネットワーク(CNN)とは異なり、ViTの性能はより深いスケールで飽和する。
本研究では,アテンションマップの多様性を高めるために,アテンションマップを再生成する手法であるre-attentionを提案する。
論文 参考訳(メタデータ) (2021-03-22T14:32:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。