論文の概要: Extreme Masking for Learning Instance and Distributed Visual
Representations
- arxiv url: http://arxiv.org/abs/2206.04667v1
- Date: Thu, 9 Jun 2022 17:59:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-10 15:22:28.127457
- Title: Extreme Masking for Learning Instance and Distributed Visual
Representations
- Title(参考訳): 学習例と分散視覚表現のためのエクストリームマスキング
- Authors: Zhirong Wu, Zihang Lai, Xiao Sun, Stephen Lin
- Abstract要約: 本稿では,個々のトークン上の分散表現を同時に学習するためのスケーラブルなアプローチと,総合的なインスタンス表現を提案する。
分散トークンを表すために自己アテンションブロックを使用し、続いてクロスアテンションブロックを使用して全体インスタンスを集約します。
我々のモデルであるExtreMAは、未成熟なサブセットからのインスタンス表現をトレーニングして、無傷な入力からそれを予測する、プレーンなBYOLアプローチに従っています。
- 参考スコア(独自算出の注目度): 50.152264456036114
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The paper presents a scalable approach for learning distributed
representations over individual tokens and a holistic instance representation
simultaneously. We use self-attention blocks to represent distributed tokens,
followed by cross-attention blocks to aggregate the holistic instance. The core
of the approach is the use of extremely large token masking (75%-90%) as the
data augmentation for supervision. Our model, named ExtreMA, follows the plain
BYOL approach where the instance representation from the unmasked subset is
trained to predict that from the intact input. Learning requires the model to
capture informative variations in an instance, instead of encouraging
invariances. The paper makes three contributions: 1) Random masking is a strong
and computationally efficient data augmentation for learning generalizable
attention representations. 2) With multiple sampling per instance, extreme
masking greatly speeds up learning and hungers for more data. 3) Distributed
representations can be learned from the instance supervision alone, unlike
per-token supervisions in masked modeling.
- Abstract(参考訳): 本稿では,トークンの分散表現とインスタンス表現を同時に学習するためのスケーラブルな手法を提案する。
分散トークンを表すために自己アテンションブロックを使用し、続いてクロスアテンションブロックを使用して全体インスタンスを集約します。
このアプローチの核心は、データ強化として非常に大きなトークンマスキング(75%-90%)を使用することである。
我々のモデルであるExtreMAは、未成熟なサブセットからのインスタンス表現をトレーニングして、無傷な入力からそれを予測する、プレーンなBYOLアプローチに従っています。
学習には、不変性を奨励するのではなく、インスタンス内の情報的バリエーションをキャプチャするモデルが必要である。
論文には3つの貢献があります
1)ランダムマスキングは一般化された注意表現を学習するための強固で計算効率の良いデータ拡張である。
2) インスタンス毎に複数のサンプリングを行うと、extreme maskingはより多くのデータに対する学習と空腹を大幅にスピードアップさせる。
3) 分散表現は、マスクモデリングにおけるトークン単位の監督とは異なり、インスタンスの監督からのみ学習することができる。
関連論文リスト
- Improving Masked Autoencoders by Learning Where to Mask [65.89510231743692]
マスケ画像モデリングは視覚データに対する有望な自己教師型学習手法である。
本稿では,Gumbel-Softmax を用いて,対向学習マスク生成装置とマスク誘導画像モデリングプロセスとを相互接続するフレームワーク AutoMAE を提案する。
実験の結果,AutoMAEは,標準の自己監督型ベンチマークや下流タスクに対して,効果的な事前学習モデルを提供することがわかった。
論文 参考訳(メタデータ) (2023-03-12T05:28:55Z) - MaskDiff: Modeling Mask Distribution with Diffusion Probabilistic Model
for Few-Shot Instance Segmentation [31.648523213206595]
少数ショットのインスタンスセグメンテーションは、数ショットの学習パラダイムをインスタンスセグメンテーションタスクに拡張する。
従来のアプローチでは、ポイント推定と呼ばれるプロトタイプ学習を通じてその課題に対処しようと試みてきた。
本稿では,二項マスクの条件分布をモデル化したMaskDiffという新しい手法を提案する。
論文 参考訳(メタデータ) (2023-03-09T08:24:02Z) - Masked Autoencoding for Scalable and Generalizable Decision Making [93.84855114717062]
MaskDPは、強化学習と行動クローンのためのシンプルでスケーラブルな自己教師付き事前学習手法である。
我々は,MaskDPモデルにより,単一ゴールや複数ゴール到達といった新しいBCタスクへのゼロショット転送能力が得られることを発見した。
論文 参考訳(メタデータ) (2022-11-23T07:04:41Z) - Exploring Target Representations for Masked Autoencoders [78.57196600585462]
目的表現の注意深い選択は、よい表現を学ぶために不要であることを示す。
本研究では,多段階のマスク蒸留パイプラインを提案し,無作為なモデルを教師として利用する。
自己指導型自己指導法を非自明なマージンで上回り, 自己指導型教員(dBOT)によるマスク付き知識蒸留を行う手法を提案する。
論文 参考訳(メタデータ) (2022-09-08T16:55:19Z) - What You See is What You Classify: Black Box Attributions [61.998683569022006]
我々は、トレーニング済みのブラックボックス分類器であるExpplanandumの属性を予測するために、ディープネットワークであるExplainerを訓練する。
既存のほとんどのアプローチとは異なり、我々の手法はクラス固有のマスクを直接生成することができる。
我々の属性は、視覚的および定量的に確立された方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-05-23T12:30:04Z) - Variance-reduced Language Pretraining via a Mask Proposal Network [5.819397109258169]
自己指導型学習(英: self-supervised learning, a.k.a.)は、自然言語処理において重要である。
本稿では,勾配分散低減の観点から問題に取り組む。
そこで我々は,マスク提案の最適分布を近似したMAsk Network(MAPNet)を導入した。
論文 参考訳(メタデータ) (2020-08-12T14:12:32Z) - PointINS: Point-based Instance Segmentation [117.38579097923052]
POI(Point-of-Interest)機能によるインスタンスセグメンテーションにおけるマスク表現は、各インスタンスの高次元マスク機能を学ぶには、計算負荷が重いため、難しい。
本稿では、このマスク表現学習タスクを2つの抽出可能なモジュールに分解するインスタンス認識畳み込みを提案する。
インスタンス認識の畳み込みとともに、単純で実用的なインスタンスセグメンテーションアプローチであるPointINSを提案する。
論文 参考訳(メタデータ) (2020-03-13T08:24:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。