Fugu-MT 論文翻訳(概要): GMML is All you Need

論文の概要: GMML is All you Need

arxiv url: http://arxiv.org/abs/2205.14986v1
Date: Mon, 30 May 2022 10:36:55 GMT
ステータス: 翻訳完了
システム内更新日: 2022-06-01 01:54:21.353863
Title: GMML is All you Need
Title（参考訳）: GMMLは必要なものすべて
Authors: Sara Atito and Muhammad Awais and Josef Kittler
Abstract要約: Group masked model learning (GMML)は、視覚トランスフォーマーの事前学習のための自己教師型学習メカニズムである。 GMMLは暗黙的に新しいデータ拡張プロセスを導入している。ソースコードは、コミュニティがより大きなコーパスでトレーニングするために公開されています。
参考スコア（独自算出の注目度）: 26.145297123851982
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Vision transformers have generated significant interest in the computer vision community because of their flexibility in exploiting contextual information, whether it is sharply confined local, or long range global. However, they are known to be data hungry. This has motivated the research in self-supervised transformer pretraining, which does not need to decode the semantic information conveyed by labels to link it to the image properties, but rather focuses directly on extracting a concise representation of the image data that reflects the notion of similarity, and is invariant to nuisance factors. The key vehicle for the self-learning process used by the majority of self-learning methods is the generation of multiple views of the training data and the creation of pretext tasks which use these views to define the notion of image similarity, and data integrity. However, this approach lacks the natural propensity to extract contextual information. We propose group masked model learning (GMML), a self-supervised learning (SSL) mechanism for pretraining vision transformers with the ability to extract the contextual information present in all the concepts in an image. GMML achieves this by manipulating randomly groups of connected tokens, ensuingly covering a meaningful part of a semantic concept, and then recovering the hidden semantic information from the visible part of the concept. GMML implicitly introduces a novel data augmentation process. Unlike most of the existing SSL approaches, GMML does not require momentum encoder, nor rely on careful implementation details such as large batches and gradient stopping, which are all artefacts of most of the current self-supervised learning techniques. The source code is publicly available for the community to train on bigger corpora: https://github.com/Sara-Ahmed/GMML.
Abstract（参考訳）: ビジョントランスフォーマーは、高度に制限されたローカルでも、あるいは長距離のグローバルでも、文脈情報を利用する柔軟性のために、コンピュータビジョンコミュニティに大きな関心を集めている。しかし、データは空腹であることが知られている。これは、ラベルによって伝達される意味情報をデコードする必要がなく、むしろ類似性の概念を反映した画像データの簡潔な表現の抽出に直接焦点を当て、迷惑要因に不変である自己教師付きトランスフォーマプリトレーニングの研究の動機となっている。自己学習法の大部分で使用されている自己学習プロセスの主要な手段は、トレーニングデータの複数ビューの生成と、これらのビューを使用して画像類似性の概念とデータの完全性を定義するプリテキストタスクの作成である。しかし、このアプローチは文脈情報を抽出する自然な妥当性に欠ける。画像内のすべての概念に存在するコンテキスト情報を抽出する機能を備えた、ビジョントランスフォーマーを事前学習するための自己教師付き学習(SSL)機構であるグループマスクモデル学習(GMML)を提案する。 GMMLは、連結トークンのランダムなグループを操作し、セマンティックな概念の有意義な部分を包含し、概念の可視的な部分から隠されたセマンティック情報を復元することでこれを実現できる。 GMMLは暗黙的に新しいデータ拡張プロセスを導入する。既存のSSLアプローチとは異なり、GMMLは運動量エンコーダを必要とせず、大規模なバッチや勾配停止といった実装の詳細に依存しない。ソースコードはコミュニティが大きなコーパスでトレーニングできる。 https://github.com/sara-ahmed/gmml。

関連論文リスト

MMRL: Multi-Modal Representation Learning for Vision-Language Models [4.828668077793944]
MMRL(Multi-Modal Representation Learning)は、共有、学習可能、モダリティに依存しない表現空間を導入するフレームワークである。 MMRLはスペーストークンをテキストと画像表現トークンに投影し、より効果的なマルチモーダルインタラクションを促進する。 15のデータセットにわたる実験では、MRLが最先端の手法より優れていることが示されている。
論文参考訳（メタデータ） (2025-03-11T14:48:01Z)
STiL: Semi-supervised Tabular-Image Learning for Comprehensive Task-Relevant Information Exploration in Multimodal Classification [6.130981749820211]
マルチモーダル画像タブラル学習は注目されているが,ラベル付きデータに制限があるため,課題に直面している。ラベル付きデータとラベルなしデータを組み合わせたセミ教師付き学習(SemiSL)は、有望なソリューションを提供する。タスク関連情報を包括的に探索することで、モダリティ情報ギャップに対処する新しいセミSLフレームワークであるSTiLを提案する。
論文参考訳（メタデータ） (2025-03-08T16:51:45Z)
Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文参考訳（メタデータ） (2024-10-31T06:55:24Z)
Epsilon: Exploring Comprehensive Visual-Semantic Projection for Multi-Label Zero-Shot Learning [23.96220607033524]
マルチラベルシナリオ(MLZSL)におけるゼロショット学習の課題について検討する。観察されたクラスと補助的な知識に基づいて、サンプル内の複数の見えないクラスを認識するように訓練されている。本稿では,エプシロンと呼ばれるMLZSLのための新しいビジュアル・セマンティック・フレームワークを提案する。
論文参考訳（メタデータ） (2024-08-22T09:45:24Z)
Exploiting the Semantic Knowledge of Pre-trained Text-Encoders for Continual Learning [70.64617500380287]
継続的な学習は、モデルが学習した知識を維持しながら、新しいデータから学習することを可能にする。画像のラベル情報で利用できるセマンティック知識は、以前に取得したセマンティッククラスの知識と関連する重要なセマンティック情報を提供する。テキスト埋め込みを用いて意味的類似性を把握し,タスク内およびタスク間のセマンティックガイダンスの統合を提案する。
論文参考訳（メタデータ） (2024-08-02T07:51:44Z)
ClawMachine: Learning to Fetch Visual Tokens for Referential Comprehension [71.03445074045092]
我々はClawMachineを提案し、視覚トークンのグループのトークン集合を用いて各エンティティに明示的に通知する新しい方法論を提案する。追加構文を用いることなく視覚的参照タスクのプロンプトと応答を統一する手法を提案する。 ClawMachineは、高い効率でシーンレベルおよび参照理解タスクにおいて優れたパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-06-17T08:39:16Z)
Understanding Information Storage and Transfer in Multi-modal Large Language Models [51.20840103605018]
本研究では,マルチモーダル大規模言語モデルを用いて,現実的な視覚的質問応答タスクにおいて情報処理を行う方法について検討する。鍵となる発見は、これらのMLLMが情報記憶のためにずっと古いレイヤの自己注意ブロックに依存していることを示している。モデル編集アルゴリズムであるMultEditを導入し、誤りを訂正し、MLLMに新しいロングテール情報を挿入する。
論文参考訳（メタデータ） (2024-06-06T16:35:36Z)
CtxMIM: Context-Enhanced Masked Image Modeling for Remote Sensing Image Understanding [38.53988682814626]
リモートセンシング画像理解のためのコンテキスト強化マスク画像モデリング手法(CtxMIM)を提案する。 CtxMIMは、オリジナルのイメージパッチを再構成テンプレートとして定式化し、2セットのイメージパッチを操作するために、Siameseフレームワークを使用している。シンプルでエレガントな設計により、CtxMIMは、大規模データセットでオブジェクトレベルまたはピクセルレベルの機能を学ぶための事前トレーニングモデルを奨励する。
論文参考訳（メタデータ） (2023-09-28T18:04:43Z)
MOCA: Self-supervised Representation Learning by Predicting Masked Online Codebook Assignments [72.6405488990753]
自己教師付き学習は、ビジョントランスフォーマーネットワークの欲求を軽減できる。所望のプロパティを統一する単段および単段のMOCAを提案する。我々は,様々な評価プロトコルにおいて,低照度設定と強力な実験結果に対して,最先端の新たな結果を得る。
論文参考訳（メタデータ） (2023-07-18T15:46:20Z)
Masked Autoencoding for Scalable and Generalizable Decision Making [93.84855114717062]
MaskDPは、強化学習と行動クローンのためのシンプルでスケーラブルな自己教師付き事前学習手法である。我々は,MaskDPモデルにより,単一ゴールや複数ゴール到達といった新しいBCタスクへのゼロショット転送能力が得られることを発見した。
論文参考訳（メタデータ） (2022-11-23T07:04:41Z)
MC-SSL0.0: Towards Multi-Concept Self-Supervised Learning [26.942174776511237]
自己教師付き事前訓練は、多くの下流視覚アプリケーションにおいて教師付き事前訓練よりも優れていた。この優位性は、トレーニング画像の不完全ラベル付けによる負の影響によるものである。本研究では,ラベルを使わずに画像に現れる概念をモデル化する可能性について検討する。
論文参考訳（メタデータ） (2021-11-30T12:36:38Z)
MST: Masked Self-Supervised Transformer for Visual Representation [52.099722121603506]
Transformerは自然言語処理(NLP)における自己教師型事前学習に広く利用されている。我々は、画像の局所的コンテキストを明示的にキャプチャできる、MSTと呼ばれる新しいMasked Self-supervised Transformerアプローチを提案する。 MSTは、線形評価による300エポック事前トレーニングのみを使用して、DeiT-Sで76.9%のTop-1精度を達成する。
論文参考訳（メタデータ） (2021-06-10T11:05:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。