論文の概要: FedMAE: Federated Self-Supervised Learning with One-Block Masked
Auto-Encoder
- arxiv url: http://arxiv.org/abs/2303.11339v1
- Date: Mon, 20 Mar 2023 10:27:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-22 17:53:55.651597
- Title: FedMAE: Federated Self-Supervised Learning with One-Block Masked
Auto-Encoder
- Title(参考訳): FedMAE: One-Block Masked Auto-Encoderによるフェデレーション型自己指導型学習
- Authors: Nan Yang, Xuanyu Chen, Charles Z. Liu, Dong Yuan, Wei Bao and Lizhen
Cui
- Abstract要約: 我々は,フェデレート・マスケッド・オートエンコーダ(Federated Masked AutoEncoder)を表す新しいフレームワークFedMAEを導入する。
具体的には、FedMAEは軽量クライアントデバイスで大きなイメージを使用して1ブロックのMasked AutoEncoder(MAE)を事前トレーニングし、サーバ内の複数の1ブロックのMAEをカスケードして、下流タスクのためのマルチブロックのViTバックボーンを構築することができる。
- 参考スコア(独自算出の注目度): 30.057513351230927
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Latest federated learning (FL) methods started to focus on how to use
unlabeled data in clients for training due to users' privacy concerns, high
labeling costs, or lack of expertise. However, current Federated
Semi-Supervised/Self-Supervised Learning (FSSL) approaches fail to learn
large-scale images because of the limited computing resources of local clients.
In this paper, we introduce a new framework FedMAE, which stands for Federated
Masked AutoEncoder, to address the problem of how to utilize unlabeled
large-scale images for FL. Specifically, FedMAE can pre-train one-block Masked
AutoEncoder (MAE) using large images in lightweight client devices, and then
cascades multiple pre-trained one-block MAEs in the server to build a
multi-block ViT backbone for downstream tasks. Theoretical analysis and
experimental results on image reconstruction and classification show that our
FedMAE achieves superior performance compared to the state-of-the-art FSSL
methods.
- Abstract(参考訳): 最新のfederated learning(fl)手法では,ユーザのプライバシの懸念やラベリングコストの上昇,専門知識の欠如などにより,ラベルのないデータをクライアントでトレーニングに使用する方法が注目されるようになった。
しかし、現在のFederated Semi-Supervised/Self-Supervised Learning (FSSL)アプローチは、ローカルクライアントの限られたコンピューティングリソースのため、大規模な画像の学習に失敗している。
本稿では,federated masked autoencoder(フェデレーションマスクオートエンコーダ)の略であるfeedmae(フェデレーションマスクオートエンコーダ)という新しいフレームワークを提案する。
具体的には、FedMAEは軽量クライアントデバイスで大きなイメージを使用して1ブロックのMasked AutoEncoder(MAE)を事前トレーニングし、サーバ内で複数の事前トレーニングされた1ブロックのMAEをカスケードして、下流タスクのためのマルチブロックのViTバックボーンを構築することができる。
画像再構成と分類に関する理論的解析と実験結果から,FedMAEは最先端のFSSL法と比較して優れた性能を示した。
関連論文リスト
- Masked Autoencoders are Parameter-Efficient Federated Continual Learners [6.184711584674839]
pMAEは、MAEを用いた画像再構成により、クライアント側の再構成プロンプトを学習する。
アップロードされた復元情報を再構築して、以前のタスクと異なるクライアント間でのデータ分散をキャプチャする。
論文 参考訳(メタデータ) (2024-11-04T09:28:18Z) - AU-vMAE: Knowledge-Guide Action Units Detection via Video Masked Autoencoder [38.04963261966939]
顔行動単位(FAU)検出のためのビデオレベルの事前学習方式を提案する。
我々の設計の中心は、ビデオマインドオートエンコーダに基づく事前訓練されたビデオ特徴抽出器である。
提案手法は,BP4DおよびdisFA FAUsデータセットで使用されている既存の最先端手法と比較して,性能の大幅な向上を示す。
論文 参考訳(メタデータ) (2024-07-16T08:07:47Z) - Bringing Masked Autoencoders Explicit Contrastive Properties for Point Cloud Self-Supervised Learning [116.75939193785143]
画像領域における視覚変換器(ViT)のコントラスト学習(CL)は、従来の畳み込みバックボーンのCLに匹敵する性能を達成した。
ViTで事前訓練した3Dポイントクラウドでは、マスク付きオートエンコーダ(MAE)モデリングが主流である。
論文 参考訳(メタデータ) (2024-07-08T12:28:56Z) - MaeFuse: Transferring Omni Features with Pretrained Masked Autoencoders for Infrared and Visible Image Fusion via Guided Training [57.18758272617101]
MaeFuseは、赤外線および可視画像融合(IVIF)用に設計された新しいオートエンコーダモデルである
提案モデルでは,MAE(Masked Autoencoders)の事前訓練エンコーダを用いて,低レベル再構成と高レベル視覚タスクのためのオムニ特徴抽出機能を備えている。
MaeFuseは、融合技術という領域で新しい視点を導入するだけでなく、様々な公開データセットで顕著なパフォーマンスで際立っている。
論文 参考訳(メタデータ) (2024-04-17T02:47:39Z) - Masked Autoencoders are Efficient Class Incremental Learners [64.90846899051164]
クラスインクリメンタルラーニング(CIL)は,過去の知識の破滅的な忘れを回避しつつ,新しいクラスを逐次学習することを目的としている。
本稿では,CIL の学習に Masked Autoencoders (MAEs) を用いることを提案する。
論文 参考訳(メタデータ) (2023-08-24T02:49:30Z) - Improving Adversarial Robustness of Masked Autoencoders via Test-time
Frequency-domain Prompting [133.55037976429088]
BERTプリトレーニング(BEiT, MAE)を備えた視覚変換器の対向ロバスト性について検討する。
意外な観察は、MAEが他のBERT事前訓練法よりも敵の頑健さが著しく悪いことである。
我々は,MAEの対角的堅牢性を高めるための,シンプルで効果的な方法を提案する。
論文 参考訳(メタデータ) (2023-08-20T16:27:17Z) - Unmasked Teacher: Towards Training-Efficient Video Foundation Models [50.19560876891811]
ビデオファウンデーションモデル(VFM)は、高い計算コストとデータ不足のため、限られた探索を受けている。
本稿では,既存の手法の利点を生かした時間感応型VFMの訓練効率向上手法を提案する。
我々のモデルは、シーン関連、時間関連、複雑なビデオ言語理解を含む様々なタスクを処理できる。
論文 参考訳(メタデータ) (2023-03-28T15:39:28Z) - The Devil is in the Frequency: Geminated Gestalt Autoencoder for
Self-Supervised Visual Pre-Training [13.087987450384036]
視覚前訓練のための新しいMasked Image Modeling (MIM) をGeminated Autoencoder (Ge$2-AE) と呼ぶ。
具体的には、画素と周波数空間の両方から画像内容を再構成するgeminated decoderをモデルに装備する。
論文 参考訳(メタデータ) (2022-04-18T09:22:55Z) - Efficient Image Representation Learning with Federated Sampled Softmax [2.5557803548119464]
Federated sampled softmax (FedSS)は、Federated Learningを用いて画像表現を学習するためのリソース効率の高いアプローチである。
提案手法は,クライアントデバイスに転送・最適化されるパラメータの数を大幅に削減することを示す。
論文 参考訳(メタデータ) (2022-03-09T17:00:32Z) - An Expectation-Maximization Perspective on Federated Learning [75.67515842938299]
フェデレーション学習は、データをデバイス上でプライベートにしながら、複数のクライアントにわたるモデルの分散トレーニングを記述する。
本稿では,サーバがクライアント固有のモデルパラメータに対して事前分布のパラメータを提供する階層的潜在変数モデルとして,サーバが設定したフェデレーション学習プロセスについて考察する。
我々は,単純なガウス先行とよく知られた期待最大化(EM)アルゴリズムのハードバージョンを用いて,そのようなモデルの学習は,フェデレーション学習環境における最も一般的なアルゴリズムであるFedAvgに対応することを示す。
論文 参考訳(メタデータ) (2021-11-19T12:58:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。