Fugu-MT 論文翻訳(概要): Downstream Task Guided Masking Learning in Masked Autoencoders Using Multi-Level Optimization

論文の概要: Downstream Task Guided Masking Learning in Masked Autoencoders Using Multi-Level Optimization

arxiv url: http://arxiv.org/abs/2402.18128v2
Date: Fri, 21 Mar 2025 19:12:25 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-25 16:32:16.018308
Title: Downstream Task Guided Masking Learning in Masked Autoencoders Using Multi-Level Optimization
Title（参考訳）: マルチレベル最適化を用いたマスクオートエンコーダにおけるダウンストリームタスク指導型マスキング学習
Authors: Han Guo, Ramtin Hosseini, Ruiyi Zhang, Sai Ashish Somayajula, Ranak Roy Chowdhury, Rajesh K. Gupta, Pengtao Xie,
Abstract要約: Masked Autoencoder (MAE) は視覚表現学習における自己教師付き事前学習のための重要な手法である。マルチレベル最適化マスクオートエンコーダ(MLO-MAE)は,下流タスクからのエンドツーエンドフィードバックを利用して,事前トレーニング中に最適なマスキング戦略を学習する新しいフレームワークである。
参考スコア（独自算出の注目度）: 40.78236375917571
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Masked Autoencoder (MAE) is a notable method for self-supervised pretraining in visual representation learning. It operates by randomly masking image patches and reconstructing these masked patches using the unmasked ones. A key limitation of MAE lies in its disregard for the varying informativeness of different patches, as it uniformly selects patches to mask. To overcome this, some approaches propose masking based on patch informativeness. However, these methods often do not consider the specific requirements of downstream tasks, potentially leading to suboptimal representations for these tasks. In response, we introduce the Multi-level Optimized Mask Autoencoder (MLO-MAE), a novel framework that leverages end-to-end feedback from downstream tasks to learn an optimal masking strategy during pretraining. Our experimental findings highlight MLO-MAE's significant advancements in visual representation learning. Compared to existing methods, it demonstrates remarkable improvements across diverse datasets and tasks, showcasing its adaptability and efficiency.
Abstract（参考訳）: Masked Autoencoder (MAE) は視覚表現学習における自己教師付き事前学習のための重要な手法である。画像パッチをランダムにマスキングし、マスキングされていないパッチを使ってこれらのマスキングパッチを再構築する。 MAEの鍵となる制限は、異なるパッチの様々な情報伝達性を無視することにある。これを解決するために、パッチ情報に基づくマスキングを提案するアプローチもある。しかし、これらの手法はダウンストリームタスクの特定の要求を考慮しないことが多いため、これらのタスクに最適なサブ最適表現をもたらす可能性がある。そこで我々は,下流タスクからのエンドツーエンドフィードバックを利用して,事前学習中に最適なマスキング戦略を学習する新しいフレームワークであるMLO-MAE(Multi-level Optimized Mask Autoencoder)を導入する。視覚表現学習におけるMLO-MAEの進歩について検討した。既存の手法と比較して、多様なデータセットやタスクにまたがる顕著な改善を示し、適応性と効率を示している。

関連論文リスト

Task-Informed Anti-Curriculum by Masking Improves Downstream Performance on Text [27.320746607958142]
マスケッド言語モデリングは、事前訓練言語モデルの教師なし手法として広く採用されている。本稿では,新しいタスク情報を用いた反カリキュラム学習手法に基づいて,マスキング率を調整し,マスクするトークンを決定することを提案する。
論文参考訳（メタデータ） (2025-02-18T15:36:16Z)
Adapting Vision-Language Model with Fine-grained Semantics for Open-Vocabulary Segmentation [42.020470627552136]
オープン語彙のセグメンテーションは、主にマスク生成ではなく、マスク分類によってボトルネックとなる。本稿では,この制限に対処するためのFISA法を提案する。 FISAは、視覚符号化プロセスの初期に、この重要な意味情報を明示的に統合することにより、抽出した視覚的特徴をきめ細かな意味認識で強化する。
論文参考訳（メタデータ） (2024-09-24T17:50:28Z)
ColorMAE: Exploring data-independent masking strategies in Masked AutoEncoders [53.3185750528969]
Masked AutoEncoders (MAE)は、堅牢な自己管理フレームワークとして登場した。データに依存しないColorMAEという手法を導入し、ランダムノイズをフィルタすることで異なる二元マスクパターンを生成する。ランダムマスキングと比較して,下流タスクにおける戦略の優位性を示す。
論文参考訳（メタデータ） (2024-07-17T22:04:00Z)
CL-MAE: Curriculum-Learned Masked Autoencoders [49.24994655813455]
本稿では,自己指導型再建作業の複雑さを継続的に増大させるために,マスキング戦略を更新するカリキュラム学習手法を提案する。我々は、ImageNet上でCL-MAE(Curriculum-Learned Masked Autoencoder)をトレーニングし、MAEよりも優れた表現学習能力を示すことを示す。
論文参考訳（メタデータ） (2023-08-31T09:13:30Z)
Improving Masked Autoencoders by Learning Where to Mask [65.89510231743692]
マスケ画像モデリングは視覚データに対する有望な自己教師型学習手法である。本稿では,Gumbel-Softmax を用いて,対向学習マスク生成装置とマスク誘導画像モデリングプロセスとを相互接続するフレームワーク AutoMAE を提案する。実験の結果,AutoMAEは,標準の自己監督型ベンチマークや下流タスクに対して,効果的な事前学習モデルを提供することがわかった。
論文参考訳（メタデータ） (2023-03-12T05:28:55Z)
AdaMAE: Adaptive Masking for Efficient Spatiotemporal Learning with Masked Autoencoders [44.87786478095987]
Masked Autoencodersは、画像、テキスト、オーディオ、ビデオなどの一般的な表現を、可視データのトークンからマスクされた入力データによって学習する。本稿では,エンド・ツー・エンドのトレーニングが可能なMAEに対する適応型マスキング戦略を提案する。 AdaMAEは補助サンプリングネットワークを用いて意味的コンテキストに基づいて可視トークンをサンプリングする。
論文参考訳（メタデータ） (2022-11-16T18:59:48Z)
What to Hide from Your Students: Attention-Guided Masked Image Modeling [32.402567373491834]
画像トークンマスキングは、テキストのトークンマスキングと根本的に異なる。注意誘導マスキング(AttMask)と呼ばれる新しいマスキング戦略を導入する。
論文参考訳（メタデータ） (2022-03-23T20:52:50Z)
Adversarial Masking for Self-Supervised Learning [81.25999058340997]
自己教師付き学習のためのマスク付き画像モデル(MIM)フレームワークであるADIOSを提案する。対向目的物を用いてマスキング機能と画像エンコーダを同時に学習する。さまざまなタスクやデータセットに対する最先端の自己教師付き学習(SSL)メソッドを一貫して改善する。
論文参考訳（メタデータ） (2022-01-31T10:23:23Z)
Self-Supervised Visual Representations Learning by Contrastive Mask Prediction [129.25459808288025]
視覚表現学習のための新しいコントラストマスク予測(CMP)タスクを提案する。 MaskCoは、ビューレベルの機能ではなく、リージョンレベルの機能と対比している。我々は、ImageNet以外のデータセットのトレーニングでMaskCoを評価し、そのパフォーマンスをMoCo V2と比較した。
論文参考訳（メタデータ） (2021-08-18T02:50:33Z)
KSM: Fast Multiple Task Adaption via Kernel-wise Soft Mask Learning [49.77278179376902]
Deep Neural Networks (DNN)は、新しいタスクを学ぶときの以前のタスクに関する知識を忘れることができ、これはtextitcatastrophic forgettingとして知られている。最近の連続学習手法は、玩具サイズのデータセットにおける破滅的な問題を緩和することができる。我々は,各タスクに対して,カーネルワイドなハイブリッドな2値マスクと実値のソフトマスクを学習する,textit- Kernel-wise Soft Mask (KSM) と呼ばれる新しいトレーニング手法を提案する。
論文参考訳（メタデータ） (2020-09-11T21:48:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。