論文の概要: AdaMAE: Adaptive Masking for Efficient Spatiotemporal Learning with
Masked Autoencoders
- arxiv url: http://arxiv.org/abs/2211.09120v1
- Date: Wed, 16 Nov 2022 18:59:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-17 14:00:58.929614
- Title: AdaMAE: Adaptive Masking for Efficient Spatiotemporal Learning with
Masked Autoencoders
- Title(参考訳): adamae: masked autoencoderを用いた時空間学習のための適応マスク
- Authors: Wele Gedara Chaminda Bandara, Naman Patel, Ali Gholami, Mehdi Nikkhah,
Motilal Agrawal, Vishal M. Patel
- Abstract要約: Masked Autoencodersは、画像、テキスト、オーディオ、ビデオなどの一般的な表現を、可視データのトークンからマスクされた入力データによって学習する。
本稿では,エンド・ツー・エンドのトレーニングが可能なMAEに対する適応型マスキング戦略を提案する。
AdaMAEは補助サンプリングネットワークを用いて意味的コンテキストに基づいて可視トークンをサンプリングする。
- 参考スコア(独自算出の注目度): 44.87786478095987
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Masked Autoencoders (MAEs) learn generalizable representations for image,
text, audio, video, etc., by reconstructing masked input data from tokens of
the visible data. Current MAE approaches for videos rely on random patch, tube,
or frame-based masking strategies to select these tokens. This paper proposes
AdaMAE, an adaptive masking strategy for MAEs that is end-to-end trainable. Our
adaptive masking strategy samples visible tokens based on the semantic context
using an auxiliary sampling network. This network estimates a categorical
distribution over spacetime-patch tokens. The tokens that increase the expected
reconstruction error are rewarded and selected as visible tokens, motivated by
the policy gradient algorithm in reinforcement learning. We show that AdaMAE
samples more tokens from the high spatiotemporal information regions, thereby
allowing us to mask 95% of tokens, resulting in lower memory requirements and
faster pre-training. We conduct ablation studies on the Something-Something v2
(SSv2) dataset to demonstrate the efficacy of our adaptive sampling approach
and report state-of-the-art results of 70.0% and 81.7% in top-1 accuracy on
SSv2 and Kinetics-400 action classification datasets with a ViT-Base backbone
and 800 pre-training epochs.
- Abstract(参考訳): マスク付きオートエンコーダ(maes)は、可視データのトークンからマスク付き入力データを再構成することで、画像、テキスト、オーディオ、ビデオなどの汎用表現を学習する。
現在のビデオのMAEアプローチは、これらのトークンを選択するためにランダムパッチ、チューブ、フレームベースのマスキング戦略に依存している。
本稿では,エンドツーエンドのトレーニングが可能なmaesのための適応マスク戦略であるadamaeを提案する。
我々の適応マスキング戦略は補助サンプリングネットワークを用いて意味的文脈に基づいて可視トークンをサンプリングする。
このネットワークは時空パッチトークン上のカテゴリ分布を推定する。
予測される再構成誤差を増加させるトークンは、強化学習におけるポリシー勾配アルゴリズムによって動機付けられ、可視トークンとして選択される。
我々はadamaeが高時空間情報領域からより多くのトークンをサンプリングすることにより、95%のトークンを隠ぺいすることができ、メモリ要件の低減と事前トレーニングの高速化が達成できることを示した。
提案手法の有効性を実証するため,v2(ssv2)データセットのアブレーション実験を行い,ssv2のtop-1精度70.0%,81.7%,vitベースバックボーンと800プリトレーニングエポックを持つkinetics-400アクション分類データセットを報告した。
関連論文リスト
- Semantic Refocused Tuning for Open-Vocabulary Panoptic Segmentation [42.020470627552136]
Open-vocabulary Panoptic segmentationは、イメージを意味のあるマスクに正確に分割することを目的とした、新たなタスクである。
マスク分類は、オープンボキャブ・パノプティクスのセグメンテーションにおける主要なパフォーマンスボトルネックである。
オープンボキャブ・パノプティクスのセグメンテーションを大幅に強化する新しいフレームワークであるセマンティック・リフォーカス・タニングを提案する。
論文 参考訳(メタデータ) (2024-09-24T17:50:28Z) - ColorMAE: Exploring data-independent masking strategies in Masked AutoEncoders [53.3185750528969]
Masked AutoEncoders (MAE)は、堅牢な自己管理フレームワークとして登場した。
データに依存しないColorMAEという手法を導入し、ランダムノイズをフィルタすることで異なる二元マスクパターンを生成する。
ランダムマスキングと比較して,下流タスクにおける戦略の優位性を示す。
論文 参考訳(メタデータ) (2024-07-17T22:04:00Z) - Downstream Task Guided Masking Learning in Masked Autoencoders Using
Multi-Level Optimization [42.82742477950748]
Masked Autoencoder (MAE) は視覚表現学習における自己教師付き事前学習のための重要な手法である。
プリトレーニング中に最適なマスキング戦略を学習する新しいフレームワークであるMulti-level Optimized Mask Autoencoder (MLO-MAE)を紹介する。
視覚表現学習におけるMLO-MAEの進歩について検討した。
論文 参考訳(メタデータ) (2024-02-28T07:37:26Z) - Improving Masked Autoencoders by Learning Where to Mask [65.89510231743692]
マスケ画像モデリングは視覚データに対する有望な自己教師型学習手法である。
本稿では,Gumbel-Softmax を用いて,対向学習マスク生成装置とマスク誘導画像モデリングプロセスとを相互接続するフレームワーク AutoMAE を提案する。
実験の結果,AutoMAEは,標準の自己監督型ベンチマークや下流タスクに対して,効果的な事前学習モデルを提供することがわかった。
論文 参考訳(メタデータ) (2023-03-12T05:28:55Z) - SdAE: Self-distillated Masked Autoencoder [95.3684955370897]
本稿では,自己蒸留マスク付きオートエンコーダネットワークSdAEを提案する。
300エポックの事前トレーニングで、バニラViT-BaseモデルはImageNet-1k分類において84.1%の微調整精度を達成する。
論文 参考訳(メタデータ) (2022-07-31T15:07:25Z) - Data Efficient Masked Language Modeling for Vision and Language [16.95631509102115]
Masked Language Modeling (MLM) は視覚言語訓練における重要なサブタスクの1つである。
クロスモーダル設定では、文中のトークンはランダムにマスキングされ、モデルは画像とテキストが与えられたマスキングトークンを予測する。
これらの欠点に対処するクロスモーダル設定に特有な代替マスキング戦略について検討する。
論文 参考訳(メタデータ) (2021-09-05T11:27:53Z) - VIMPAC: Video Pre-Training via Masked Token Prediction and Contrastive
Learning [82.09856883441044]
ビデオ理解は、内部接続をモデル化するグローバルコンテンツを認識することに依存している。
空間領域と時間領域の両方で隣接するビデオトークンをマスクするブロックワイズ戦略を提案する。
また、グローバルコンテンツをさらにキャプチャするために、拡張不要なコントラスト学習手法も追加する。
論文 参考訳(メタデータ) (2021-06-21T16:48:19Z) - MST: Masked Self-Supervised Transformer for Visual Representation [52.099722121603506]
Transformerは自然言語処理(NLP)における自己教師型事前学習に広く利用されている。
我々は、画像の局所的コンテキストを明示的にキャプチャできる、MSTと呼ばれる新しいMasked Self-supervised Transformerアプローチを提案する。
MSTは、線形評価による300エポック事前トレーニングのみを使用して、DeiT-Sで76.9%のTop-1精度を達成する。
論文 参考訳(メタデータ) (2021-06-10T11:05:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。