論文の概要: MAGMA: Manifold Regularization for MAEs
- arxiv url: http://arxiv.org/abs/2412.02871v2
- Date: Thu, 05 Dec 2024 19:12:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-09 12:36:30.108623
- Title: MAGMA: Manifold Regularization for MAEs
- Title(参考訳): MAGMA: MAEのマニフォールド正規化
- Authors: Alin Dondera, Anuj Singh, Hadi Jamali-Rad,
- Abstract要約: Masked Autoencoders(MAE)は、自己教師型学習(SSL)において重要な分断である
異なるトランスフォーマー層の表現に適用される新しいバッチワイド層単位の正規化損失であるMAGMAを紹介する。
提案した正規化損失をプラグインすることで,MAEモデルの性能を大幅に向上させることができることを示す。
- 参考スコア(独自算出の注目度): 1.7478203318226315
- License:
- Abstract: Masked Autoencoders (MAEs) are an important divide in self-supervised learning (SSL) due to their independence from augmentation techniques for generating positive (and/or negative) pairs as in contrastive frameworks. Their masking and reconstruction strategy also nicely aligns with SSL approaches in natural language processing. Most MAEs are built upon Transformer-based architectures where visual features are not regularized as opposed to their convolutional neural network (CNN) based counterparts, which can potentially hinder their performance. To address this, we introduce MAGMA, a novel batch-wide layer-wise regularization loss applied to representations of different Transformer layers. We demonstrate that by plugging in the proposed regularization loss, one can significantly improve the performance of MAE-based models. We further demonstrate the impact of the proposed loss on optimizing other generic SSL approaches (such as VICReg and SimCLR), broadening the impact of the proposed approach. Our code base can be found at https://github.com/adondera/magma.
- Abstract(参考訳): Masked Autoencoders (MAE) は、自己教師付き学習(SSL)において、対照的なフレームワークのように正(および負)のペアを生成するための拡張テクニックから独立しているため、重要な分断である。
彼らのマスキングと再構築戦略は、自然言語処理におけるSSLアプローチともうまく一致している。
ほとんどのMAEはTransformerベースのアーキテクチャ上に構築されており、視覚的特徴は、畳み込みニューラルネットワーク(CNN)ベースのアーキテクチャとは対照的に、正規化されていないため、パフォーマンスを損なう可能性がある。
これを解決するために、異なるトランスフォーマー層の表現に適用された新しいバッチワイド層ワイドな正規化損失であるMAGMAを導入する。
提案した正規化損失をプラグインすることで,MAEモデルの性能を大幅に向上させることができることを示す。
さらに、提案した損失が他の汎用SSLアプローチ(VICRegやSimCLRなど)の最適化に与える影響を実証し、提案手法の影響を広げる。
私たちのコードベースはhttps://github.com/adondera/magma.orgで確認できます。
関連論文リスト
- Promptable Anomaly Segmentation with SAM Through Self-Perception Tuning [63.55145330447408]
Segment Anything Model (SAM) は、その顕著な一般化能力により、異常セグメンテーションタスクにおいて大きな進歩を遂げている。
SAMを直接適用する既存のメソッドは、しばしばドメインシフトの問題を見落としている。
本稿では, SAMの異常セグメンテーションに対する知覚能力を高めることを目的とした, 自己パーセプティノンチューニング(SPT)手法を提案する。
論文 参考訳(メタデータ) (2024-11-26T08:33:25Z) - Bringing Masked Autoencoders Explicit Contrastive Properties for Point Cloud Self-Supervised Learning [116.75939193785143]
画像領域における視覚変換器(ViT)のコントラスト学習(CL)は、従来の畳み込みバックボーンのCLに匹敵する性能を達成した。
ViTで事前訓練した3Dポイントクラウドでは、マスク付きオートエンコーダ(MAE)モデリングが主流である。
論文 参考訳(メタデータ) (2024-07-08T12:28:56Z) - Modality-Agnostic Self-Supervised Learning with Meta-Learned Masked
Auto-Encoder [61.7834263332332]
我々はMasked Auto-Encoder (MAE) を統一されたモダリティに依存しないSSLフレームワークとして開発する。
メタラーニングは,MAEをモダリティに依存しない学習者として解釈する鍵として論じる。
本実験は,Modality-Agnostic SSLベンチマークにおけるMetaMAEの優位性を示す。
論文 参考訳(メタデータ) (2023-10-25T03:03:34Z) - CRaSh: Clustering, Removing, and Sharing Enhance Fine-tuning without
Full Large Language Model [22.870512676002463]
本稿では,集中型LCMと下流エミュレータ間でトランスフォーマブロックを転送する代表的手法であるOffsite-Tuning(OFT)に焦点を当てる。
これらの観測にインスパイアされたCRaShは、LCMから改善エミュレータを導出するトレーニングフリー戦略であるClustering、Removing、Sharingを含む。
以上の結果から,CRaShとOFTの有効性が明らかとなった。
論文 参考訳(メタデータ) (2023-10-24T03:08:58Z) - AdapterEM: Pre-trained Language Model Adaptation for Generalized Entity
Matching using Adapter-tuning [3.4754314910585626]
本稿では,アダプタをベースとした微調整PrLMのためのパラメータ効率のパラダイムを提案する。
提案手法は,フルスケールのPrLMファインチューニングとプロンプトチューニングのベースラインに匹敵する,あるいは優れた性能を実現する。
論文 参考訳(メタデータ) (2023-05-30T04:03:23Z) - Magic ELF: Image Deraining Meets Association Learning and Transformer [63.761812092934576]
本稿では,CNN と Transformer を統合化して,画像デライニングにおける学習のメリットを活用することを目的とする。
降雨除去と背景復旧を関連づける新しいマルチインプット・アテンション・モジュール (MAM) を提案する。
提案手法(ELF)は,最先端手法(MPRNet)を平均0.25dB向上させる。
論文 参考訳(メタデータ) (2022-07-21T12:50:54Z) - Adapting Self-Supervised Vision Transformers by Probing
Attention-Conditioned Masking Consistency [7.940705941237998]
自己教師型 ViT のための単純な2段階適応アルゴリズムである PACMAC を提案する。
私たちの単純なアプローチは、競合するメソッドよりも一貫したパフォーマンス向上につながります。
論文 参考訳(メタデータ) (2022-06-16T14:46:10Z) - A Reinforcement Learning Approach for Sequential Spatial Transformer
Networks [6.585049648605185]
我々は、このタスクをマルコフ決定プロセス(MDP)として定式化し、このシーケンシャルな意思決定問題を解決するためにRLを使用する。
この方法では、サンプリングモジュールの微分可能性に縛られません。
MNISTデータセットとFashion-MNISTデータセットを用いて,本手法の有効性を検証するために,複数の実験を設計する。
論文 参考訳(メタデータ) (2021-06-27T17:41:17Z) - Efficient Semantic Image Synthesis via Class-Adaptive Normalization [116.63715955932174]
クラス適応正規化(CLADE)は、セマンティッククラスにのみ適応する軽量かつ等価なバリアントである。
セマンティクスレイアウトから計算したクラス内位置マップエンコーディングを導入し,cladeの正規化パラメータを変調する。
提案されたCLADEは異なるSPADEベースのメソッドに一般化し、SPADEと比較して同等の生成品質を達成できる。
論文 参考訳(メタデータ) (2020-12-08T18:59:32Z) - Modal Regression based Structured Low-rank Matrix Recovery for
Multi-view Learning [70.57193072829288]
近年、低ランクなマルチビューサブスペース学習は、クロスビューの分類において大きな可能性を示している。
既存のLMvSLベースの手法では、ビューの区別と差別を同時に扱うことができない。
本稿では,視差を効果的に除去し,識別性を向上する独自の方法であるStructured Low-rank Matrix Recovery (SLMR)を提案する。
論文 参考訳(メタデータ) (2020-03-22T03:57:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。