論文の概要: GMML is All you Need
- arxiv url: http://arxiv.org/abs/2205.14986v1
- Date: Mon, 30 May 2022 10:36:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-01 01:54:21.353863
- Title: GMML is All you Need
- Title(参考訳): GMMLは必要なものすべて
- Authors: Sara Atito and Muhammad Awais and Josef Kittler
- Abstract要約: Group masked model learning (GMML)は、視覚トランスフォーマーの事前学習のための自己教師型学習メカニズムである。
GMMLは暗黙的に新しいデータ拡張プロセスを導入している。
ソースコードは、コミュニティがより大きなコーパスでトレーニングするために公開されています。
- 参考スコア(独自算出の注目度): 26.145297123851982
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision transformers have generated significant interest in the computer
vision community because of their flexibility in exploiting contextual
information, whether it is sharply confined local, or long range global.
However, they are known to be data hungry. This has motivated the research in
self-supervised transformer pretraining, which does not need to decode the
semantic information conveyed by labels to link it to the image properties, but
rather focuses directly on extracting a concise representation of the image
data that reflects the notion of similarity, and is invariant to nuisance
factors. The key vehicle for the self-learning process used by the majority of
self-learning methods is the generation of multiple views of the training data
and the creation of pretext tasks which use these views to define the notion of
image similarity, and data integrity. However, this approach lacks the natural
propensity to extract contextual information. We propose group masked model
learning (GMML), a self-supervised learning (SSL) mechanism for pretraining
vision transformers with the ability to extract the contextual information
present in all the concepts in an image. GMML achieves this by manipulating
randomly groups of connected tokens, ensuingly covering a meaningful part of a
semantic concept, and then recovering the hidden semantic information from the
visible part of the concept. GMML implicitly introduces a novel data
augmentation process. Unlike most of the existing SSL approaches, GMML does not
require momentum encoder, nor rely on careful implementation details such as
large batches and gradient stopping, which are all artefacts of most of the
current self-supervised learning techniques. The source code is publicly
available for the community to train on bigger corpora:
https://github.com/Sara-Ahmed/GMML.
- Abstract(参考訳): ビジョントランスフォーマーは、高度に制限されたローカルでも、あるいは長距離のグローバルでも、文脈情報を利用する柔軟性のために、コンピュータビジョンコミュニティに大きな関心を集めている。
しかし、データは空腹であることが知られている。
これは、ラベルによって伝達される意味情報をデコードする必要がなく、むしろ類似性の概念を反映した画像データの簡潔な表現の抽出に直接焦点を当て、迷惑要因に不変である自己教師付きトランスフォーマプリトレーニングの研究の動機となっている。
自己学習法の大部分で使用されている自己学習プロセスの主要な手段は、トレーニングデータの複数ビューの生成と、これらのビューを使用して画像類似性の概念とデータの完全性を定義するプリテキストタスクの作成である。
しかし、このアプローチは文脈情報を抽出する自然な妥当性に欠ける。
画像内のすべての概念に存在するコンテキスト情報を抽出する機能を備えた、ビジョントランスフォーマーを事前学習するための自己教師付き学習(SSL)機構であるグループマスクモデル学習(GMML)を提案する。
GMMLは、連結トークンのランダムなグループを操作し、セマンティックな概念の有意義な部分を包含し、概念の可視的な部分から隠されたセマンティック情報を復元することでこれを実現できる。
GMMLは暗黙的に新しいデータ拡張プロセスを導入する。
既存のSSLアプローチとは異なり、GMMLは運動量エンコーダを必要とせず、大規模なバッチや勾配停止といった実装の詳細に依存しない。
ソースコードはコミュニティが大きなコーパスでトレーニングできる。 https://github.com/sara-ahmed/gmml。
関連論文リスト
- Premonition: Using Generative Models to Preempt Future Data Changes in
Continual Learning [63.850451635362425]
継続的な学習には、データ分散の継続的な変化に対応するためのモデルが必要である。
本稿では,大規模言語モデルと画像生成モデルの組み合わせが有用であることを示す。
トレーニング済みネットワークのバックボーンは、下流の連続学習問題に有用な表現を学習できることがわかった。
論文 参考訳(メタデータ) (2024-03-12T06:29:54Z) - Towards Open-Ended Visual Recognition with Large Language Model [27.56182473356992]
我々は,新しいLarge Language Model (LLM) ベースのマスク分類器であるOmniScient Model (OSM)を紹介する。
OSMは、クラスラベルを生成的に予測し、トレーニングとテストの両方でクラス名の供給を除去する。
また、人間の干渉なしにデータセット間のトレーニングを可能にする。
論文 参考訳(メタデータ) (2023-11-14T18:59:01Z) - CtxMIM: Context-Enhanced Masked Image Modeling for Remote Sensing Image
Understanding [38.53988682814626]
リモートセンシング画像理解のためのコンテキスト強化マスク画像モデリング手法(CtxMIM)を提案する。
CtxMIMは、オリジナルのイメージパッチを再構成テンプレートとして定式化し、2セットのイメージパッチを操作するために、Siameseフレームワークを使用している。
シンプルでエレガントな設計により、CtxMIMは、大規模データセットでオブジェクトレベルまたはピクセルレベルの機能を学ぶための事前トレーニングモデルを奨励する。
論文 参考訳(メタデータ) (2023-09-28T18:04:43Z) - MOCA: Self-supervised Representation Learning by Predicting Masked
Online Codebook Assignments [48.67345147676275]
自己教師付き学習は、ビジョントランスフォーマーネットワークの欲求を軽減できる。
相乗的, 計算効率の両パラダイムを効果的に活用する方法を示す。
我々は,様々な評価プロトコルにおいて,低照度設定と強力な実験結果に対して,最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2023-07-18T15:46:20Z) - Substance or Style: What Does Your Image Embedding Know? [55.676463077772866]
画像基盤モデルは、主にセマンティックコンテンツとして評価されている。
画像のスタイル,品質,自然および人工的な変換など,多数の軸に沿った埋め込みの視覚的内容を測定する。
画像テキストモデル (CLIP と ALIGN) はマスキングベースモデル (CAN と MAE) よりもスタイル転送の新しい例を認識するのが得意である。
論文 参考訳(メタデータ) (2023-07-10T22:40:10Z) - Recognizing Unseen Objects via Multimodal Intensive Knowledge Graph
Propagation [68.13453771001522]
画像の領域と対応するセマンティック埋め込みとをマッチングする多モード集中型ZSLフレームワークを提案する。
我々は、大規模な実世界のデータに基づいて、広範囲な実験を行い、そのモデルを評価する。
論文 参考訳(メタデータ) (2023-06-14T13:07:48Z) - Learning Robust Visual-Semantic Embedding for Generalizable Person
Re-identification [11.562980171753162]
一般化可能な人物識別(Re-ID)は、機械学習とコンピュータビジョンにおいて非常にホットな研究トピックである。
従来の手法は主に視覚表現学習に焦点をあてるが、訓練中の意味的特徴の可能性を検討することは無視される。
MMETと呼ばれるマルチモーダル等価変換器を提案し,より堅牢なビジュアル・セマンティックな埋め込み学習を実現する。
論文 参考訳(メタデータ) (2023-04-19T08:37:25Z) - Masked Autoencoding for Scalable and Generalizable Decision Making [93.84855114717062]
MaskDPは、強化学習と行動クローンのためのシンプルでスケーラブルな自己教師付き事前学習手法である。
我々は,MaskDPモデルにより,単一ゴールや複数ゴール到達といった新しいBCタスクへのゼロショット転送能力が得られることを発見した。
論文 参考訳(メタデータ) (2022-11-23T07:04:41Z) - MC-SSL0.0: Towards Multi-Concept Self-Supervised Learning [26.942174776511237]
自己教師付き事前訓練は、多くの下流視覚アプリケーションにおいて教師付き事前訓練よりも優れていた。
この優位性は、トレーニング画像の不完全ラベル付けによる負の影響によるものである。
本研究では,ラベルを使わずに画像に現れる概念をモデル化する可能性について検討する。
論文 参考訳(メタデータ) (2021-11-30T12:36:38Z) - MST: Masked Self-Supervised Transformer for Visual Representation [52.099722121603506]
Transformerは自然言語処理(NLP)における自己教師型事前学習に広く利用されている。
我々は、画像の局所的コンテキストを明示的にキャプチャできる、MSTと呼ばれる新しいMasked Self-supervised Transformerアプローチを提案する。
MSTは、線形評価による300エポック事前トレーニングのみを使用して、DeiT-Sで76.9%のTop-1精度を達成する。
論文 参考訳(メタデータ) (2021-06-10T11:05:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。