論文の概要: GMML is All you Need
- arxiv url: http://arxiv.org/abs/2205.14986v1
- Date: Mon, 30 May 2022 10:36:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-01 01:54:21.353863
- Title: GMML is All you Need
- Title(参考訳): GMMLは必要なものすべて
- Authors: Sara Atito and Muhammad Awais and Josef Kittler
- Abstract要約: Group masked model learning (GMML)は、視覚トランスフォーマーの事前学習のための自己教師型学習メカニズムである。
GMMLは暗黙的に新しいデータ拡張プロセスを導入している。
ソースコードは、コミュニティがより大きなコーパスでトレーニングするために公開されています。
- 参考スコア(独自算出の注目度): 26.145297123851982
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision transformers have generated significant interest in the computer
vision community because of their flexibility in exploiting contextual
information, whether it is sharply confined local, or long range global.
However, they are known to be data hungry. This has motivated the research in
self-supervised transformer pretraining, which does not need to decode the
semantic information conveyed by labels to link it to the image properties, but
rather focuses directly on extracting a concise representation of the image
data that reflects the notion of similarity, and is invariant to nuisance
factors. The key vehicle for the self-learning process used by the majority of
self-learning methods is the generation of multiple views of the training data
and the creation of pretext tasks which use these views to define the notion of
image similarity, and data integrity. However, this approach lacks the natural
propensity to extract contextual information. We propose group masked model
learning (GMML), a self-supervised learning (SSL) mechanism for pretraining
vision transformers with the ability to extract the contextual information
present in all the concepts in an image. GMML achieves this by manipulating
randomly groups of connected tokens, ensuingly covering a meaningful part of a
semantic concept, and then recovering the hidden semantic information from the
visible part of the concept. GMML implicitly introduces a novel data
augmentation process. Unlike most of the existing SSL approaches, GMML does not
require momentum encoder, nor rely on careful implementation details such as
large batches and gradient stopping, which are all artefacts of most of the
current self-supervised learning techniques. The source code is publicly
available for the community to train on bigger corpora:
https://github.com/Sara-Ahmed/GMML.
- Abstract(参考訳): ビジョントランスフォーマーは、高度に制限されたローカルでも、あるいは長距離のグローバルでも、文脈情報を利用する柔軟性のために、コンピュータビジョンコミュニティに大きな関心を集めている。
しかし、データは空腹であることが知られている。
これは、ラベルによって伝達される意味情報をデコードする必要がなく、むしろ類似性の概念を反映した画像データの簡潔な表現の抽出に直接焦点を当て、迷惑要因に不変である自己教師付きトランスフォーマプリトレーニングの研究の動機となっている。
自己学習法の大部分で使用されている自己学習プロセスの主要な手段は、トレーニングデータの複数ビューの生成と、これらのビューを使用して画像類似性の概念とデータの完全性を定義するプリテキストタスクの作成である。
しかし、このアプローチは文脈情報を抽出する自然な妥当性に欠ける。
画像内のすべての概念に存在するコンテキスト情報を抽出する機能を備えた、ビジョントランスフォーマーを事前学習するための自己教師付き学習(SSL)機構であるグループマスクモデル学習(GMML)を提案する。
GMMLは、連結トークンのランダムなグループを操作し、セマンティックな概念の有意義な部分を包含し、概念の可視的な部分から隠されたセマンティック情報を復元することでこれを実現できる。
GMMLは暗黙的に新しいデータ拡張プロセスを導入する。
既存のSSLアプローチとは異なり、GMMLは運動量エンコーダを必要とせず、大規模なバッチや勾配停止といった実装の詳細に依存しない。
ソースコードはコミュニティが大きなコーパスでトレーニングできる。 https://github.com/sara-ahmed/gmml。
関連論文リスト
- Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - Epsilon: Exploring Comprehensive Visual-Semantic Projection for Multi-Label Zero-Shot Learning [23.96220607033524]
マルチラベルシナリオ(MLZSL)におけるゼロショット学習の課題について検討する。
観察されたクラスと補助的な知識に基づいて、サンプル内の複数の見えないクラスを認識するように訓練されている。
本稿では,エプシロンと呼ばれるMLZSLのための新しいビジュアル・セマンティック・フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-22T09:45:24Z) - Exploiting the Semantic Knowledge of Pre-trained Text-Encoders for Continual Learning [70.64617500380287]
継続的な学習は、モデルが学習した知識を維持しながら、新しいデータから学習することを可能にする。
画像のラベル情報で利用できるセマンティック知識は、以前に取得したセマンティッククラスの知識と関連する重要なセマンティック情報を提供する。
テキスト埋め込みを用いて意味的類似性を把握し,タスク内およびタスク間のセマンティックガイダンスの統合を提案する。
論文 参考訳(メタデータ) (2024-08-02T07:51:44Z) - ClawMachine: Learning to Fetch Visual Tokens for Referential Comprehension [71.03445074045092]
我々はClawMachineを提案し、視覚トークンのグループのトークン集合を用いて各エンティティに明示的に通知する新しい方法論を提案する。
追加構文を用いることなく視覚的参照タスクのプロンプトと応答を統一する手法を提案する。
ClawMachineは、高い効率でシーンレベルおよび参照理解タスクにおいて優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-06-17T08:39:16Z) - Understanding Information Storage and Transfer in Multi-modal Large Language Models [51.20840103605018]
本研究では,マルチモーダル大規模言語モデルを用いて,現実的な視覚的質問応答タスクにおいて情報処理を行う方法について検討する。
鍵となる発見は、これらのMLLMが情報記憶のためにずっと古いレイヤの自己注意ブロックに依存していることを示している。
モデル編集アルゴリズムであるMultEditを導入し、誤りを訂正し、MLLMに新しいロングテール情報を挿入する。
論文 参考訳(メタデータ) (2024-06-06T16:35:36Z) - CtxMIM: Context-Enhanced Masked Image Modeling for Remote Sensing Image Understanding [38.53988682814626]
リモートセンシング画像理解のためのコンテキスト強化マスク画像モデリング手法(CtxMIM)を提案する。
CtxMIMは、オリジナルのイメージパッチを再構成テンプレートとして定式化し、2セットのイメージパッチを操作するために、Siameseフレームワークを使用している。
シンプルでエレガントな設計により、CtxMIMは、大規模データセットでオブジェクトレベルまたはピクセルレベルの機能を学ぶための事前トレーニングモデルを奨励する。
論文 参考訳(メタデータ) (2023-09-28T18:04:43Z) - MOCA: Self-supervised Representation Learning by Predicting Masked Online Codebook Assignments [72.6405488990753]
自己教師付き学習は、ビジョントランスフォーマーネットワークの欲求を軽減できる。
所望のプロパティを統一する単段および単段のMOCAを提案する。
我々は,様々な評価プロトコルにおいて,低照度設定と強力な実験結果に対して,最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2023-07-18T15:46:20Z) - Masked Autoencoding for Scalable and Generalizable Decision Making [93.84855114717062]
MaskDPは、強化学習と行動クローンのためのシンプルでスケーラブルな自己教師付き事前学習手法である。
我々は,MaskDPモデルにより,単一ゴールや複数ゴール到達といった新しいBCタスクへのゼロショット転送能力が得られることを発見した。
論文 参考訳(メタデータ) (2022-11-23T07:04:41Z) - MC-SSL0.0: Towards Multi-Concept Self-Supervised Learning [26.942174776511237]
自己教師付き事前訓練は、多くの下流視覚アプリケーションにおいて教師付き事前訓練よりも優れていた。
この優位性は、トレーニング画像の不完全ラベル付けによる負の影響によるものである。
本研究では,ラベルを使わずに画像に現れる概念をモデル化する可能性について検討する。
論文 参考訳(メタデータ) (2021-11-30T12:36:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。